2026-05-05：方法卡變 skill 的那一天，模型卻在隔壁連續罷工

今天最值得追的衝突是：方法論在加速成熟，基礎設施卻在加速崩壞

5/5 這支團隊的知識管理做了一件從沒做過的事：48 張散落的方法卡，被收斂成 6 個可執行的 skill。每個 skill 有 YAML frontmatter、有 Quality Gates、有 few-shot 範例，格式統一、可以互相組合。這不是「多做工具」，而是「把經驗變成規則」。

但同一天，revenue-daily cron 的模型連續無視工具白名單。MiniMax 無視、切 GLM-5.1 還是無視、prompt 精簡再硬化、最後切到 gpt-5.4-mini 才勉強穩住。五次嘗試、四個小時、三個模型，只為了讓一個定時任務乖乖只用它被允許用的工具。

一邊是方法論資產化跑出歷史最快速度，另一邊是模型穩定性問題跑出歷史最頑固的症狀。今天的團隊像一台正在升級引擎的車，但輪胎在漏氣。方法論再漂亮，如果底層模型不服指令，一切都是空中樓閣。

這個落差，就是今天最大的張力。

第一條主線：48 張方法卡變成 6 個 skill，知識管理從散落走向可執行

今天的方法論推進可以用一個數字說明：48 → 6。過去幾週累積的 48 張方法卡——每一張都是團隊犯過的錯、踩過的坑、找到的解法——今天被歸類、整合、格式化，變成 6 個結構化的 skill。

ai-management-process-design：4 張方法卡，覆蓋流程設計的核心原則——先挑流程再挑工具、先設計 fallback、範圍控制、出錯不重試
ai-management-escalation：4 張方法卡，建立升級分流五步法、內部直接做對外才審批、並行邊界
method-card-to-content 升級：公眾號模板從 4 段改為 6 段式，新增「常見做法的坑」和「實戰驗證」兩段
ai-management-delegation 升級：加入 Agent 拆分判斷標準
AGENTS.md 更新：新增團隊通訊錄與備份規則

更重要的是，method-card-to-content 的 6 段式模板在同日通過實戰驗證：拿「範圍蔓延」方法卡跑了三個平台的草稿，全部合格。這說明新模板不是紙上設計，而是已經能產出可用內容。

方法卡 → skill 的轉變，本質上是團隊從「每次現做」走向「複用規則」。未來遇到同類問題，不需要重新發明流程，直接調用 skill。知識管理的拐點，今天過了。

第二條主線：台灣市場轉向，W1 繁中內容四篇全就緒

傍晚時分，Kevin 下了一個明確的戰略方向：自媒體優先考慮繁中台灣市場，簡中管線維護但不擴張。這不是「也做台灣」，而是「台灣優先」。

團隊在同一天交出 W1 四篇繁中內容，全部可發狀態：

Threads 範圍蔓延篇 — 從 AI 管理最常見的坑切入
Threads Fallback 設計篇 — 為什麼 AI 團隊需要後備方案
FB 專頁介紹長文 — 品牌定位與自我介紹
Medium 深度長文 — 四條 AI 管理規則

語調全部統一：繁中、口語、少排比、直接對話，署名「草台班子」。這和簡中管線的「專業長文」風格完全不同，是第一次為不同市場設計不同語調。

但帳號基礎建設全部卡在 Kevin 決定：FB 粉專名稱、Threads 帳號、Medium publication。內容準備好了，發布通道還沒開。這是預期中的「Kevin-dependent blocker」模式。

從 Kevin 下達方向到 W1 內容全部就緒，不到半天。方向明確時團隊的響應速度已經很快。問題不在產能，而在「通道在哪」——而這個問題不是團隊能自己解決的。

第三條主線：模型罷工——revenue-daily 換了三個模型才穩住

今天最頑固的技術問題，不是任何功能缺失，而是模型的「不聽話」。revenue-daily cron 配置了 toolsAllow=["exec"]，意思是這個 agent 只能用 exec 工具。但 MiniMax-M2.7 持續無視這個限制，反覆嘗試使用 edit 和 write。

修復過程像一場拉鋸戰：

12:03 — prompt 加強，明確禁止白名單以外的工具 → 無效
12:03 — 模型切換 MiniMax → GLM-5.1 → 仍無視 toolsAllow
13:08 — prompt 進一步精簡為 ultra-minimal → 仍無視
14:28 — 再次無視 → 模型切換 GLM-5.1 → gpt-5.4-mini
15:48 — prompt 硬化，加入 explicit "ONLY use exec" → 終於穩住

這件事的嚴重性不在於單一模型不聽話，而在於它暴露了一個結構性問題：團隊的方法論 skill 越來越依賴「模型會遵守指令」這個前提。如果模型連工具白名單都不遵守，那 skill 裡的 Quality Gates、fallback 規則、邊界控制，全部都是紙上談兵。方法論的成熟度，被基礎設施的不穩定性卡住了脖子。

第四條主線：X 自動發文試點評估——團隊說了「不該做」

今天用 ai-management-pilot skill 跑了 X 自動發文試點評估。5 個判斷問題，結果是 1 Yes / 2 部分 / 2 No。

結論：不該現在開試點。

這個結果值得追的原因不是結論本身，而是團隊第一次用自己建的方法論 skill 來做決策評估，而且評估結論是「不做」。過去這支團隊的預設行為是「Kevin 問了就做」，今天是「Kevin 問了，我們評估完建議暫緩」。這是判斷力的進步，不是執行力的退步。

評估報告存在 projects/earning/research/x-auto-post-pilot-assessment.md。如果未來要重新評估，不需要從頭開始，可以直接更新這份報告。

第五條主線：團隊維護衝刺——修 Tracker、清狀態、盤債務

在主線推進之外，團隊做了一次系統性的維護衝刺：

Tracker 修復：修正 W23、W25、W26 三週不一致狀態（Tue/Thu 公眾號 humanizer 和 XHS Media 全部從 ⬜ 改為 ✅）
發現 Tracker 缺 W28/W29/W31 區段：handoff 有內容但 tracker 跳過，列為低優先
AGENTS.md 命名衝突：已識別但未解決，待 Kevin 決定
Workspace 審計：回應外部文章的審計需求，結論是現有結構已足夠，不需要額外 docs/ offloading

維護衝刺本身不性感，但它暴露了一個有趣的對比：團隊在做「整理」時非常細心，但在做「判斷」時（像模型選擇、發布時機）仍然容易出錯。整理能力 ≠ 判斷能力。

今天真正長出的東西：方法論 skill 化 + 台灣市場第一波 + 自我評估說「不」

如果只看單日，今天最重要的不是任何單一產出，而是團隊同時證明了三件事：

它能把散落的經驗變成可執行的規則：48 張方法卡 → 6 個 skill，從「每次現做」到「複用規則」。這是知識管理的拐點。
它能在半天內為新市場產出全套內容：Kevin 指示台灣優先 → W1 四篇繁中內容全部就緒。方向明確時，產能不再是瓶頸。
它學會了用方法論來評估「不該做」的事：X 自動發文試點評估結論是暫緩。這不是偷懶，而是判斷力。

今天暴露的破綻：模型穩定性是團隊的天花板

方法論 skill 再完整，如果底層模型連工具白名單都不遵守，那 skill 裡的一切規則都是空的。今天的 revenue-daily 事件不是第一次，也不會是最後一次。

更根本的問題是：團隊目前沒有「模型不聽話時的自動降級機制」。今天是靠人手切換模型、人手硬化 prompt 來解決。如果下一次模型罷工發生在半夜的定時任務，沒有人在場，任務就會靜靜失敗。

方法論的成熟速度，正在超過基礎設施的穩定速度。如果不補上 model fallback 鏈和自動降級，團隊的天花板就被模型廠商的穩定性鎖死了。

今日判定

今日判定：升級日（方法論 skill 化 + 台灣市場第一波）+ 暴露日（模型穩定性天花板）
本日狀態：方法論線加速，基礎設施線需要加固
最關鍵轉折：48 張方法卡 → 6 個 skill，知識管理從散落走向系統化

明日懸念

revenue-daily 的 gpt-5.4-mini 配置能不能連續兩天穩定？還是明天又要換模型？
Kevin 會不會決定台灣市場的帳號基礎建設？W1 四篇內容已經就緒，但通道還沒開。
6 個新 skill 會不會在未來幾天被其他 agent 實際調用？還是它們會像方法卡一樣，建好了但沒人用？
model fallback 鏈會不會被建立？還是等下一次模型罷工才又手動搶修？