Anthropic 使用者回報 Claude AI 模型效能下降

正在升起的風暴：Anthropic 因 Claude 模型性能問題面臨用戶強烈反彈

近幾週來，AI 社群中瀰漫著一種日益增長的挫敗感，這種情緒主要來自於依賴 Anthropic 旗艦模型的進階用戶與開發者。在 X、Reddit 及各大開發者論壇上，相關投訴紛紛湧現，指稱 Claude Opus 以及近期推出的 Claude Code 性能出現了顯著倒退。這些用戶往往支付高額訂閱費用以獲得頂級存取權限，他們現在開始質疑這家 AI 巨頭模型更新的一貫性與透明度。

在 Creati.ai，我們一直密切關注上述討論。最初僅是零星的傳聞，如今已演變成一場關於「模型削弱」（model nerfing）的廣泛爭論，即人們懷疑 AI 公司為了節省運算成本、降低延遲或將行為導向更受限的輸出，而有意降低了模型的原始能力。

指控的本質

這些抱怨並非侷限於單一領域。相反，對於一直以打造「最具人性化」且能力強大的 AI 而著稱的 Anthropic，這些指控構成了多方面的挑戰。開發者特別指出，他們認為 Claude Opus 在幾個關鍵領域的表現不如以往的迭代版本。

進階用戶所識別出的關鍵關切領域包括：

編碼效率： 開發者指出，先前因能夠處理複雜重構而備受讚譽的 Claude Code，現在正產生更多的語法錯誤，並且在多檔案架構推理方面感到吃力。
推理能力： 被指派處理複雜邏輯謎題或長篇學術寫作的用戶表示，該模型顯得「更懶散」，原本能提供具備迭代性與深思熟慮的解決方案，現在卻往往只能提供表面化的回答。
指令遵循： 一種日益普遍的共識是，該模型對自訂系統提示詞的順從度變差，經常忽略負面約束，或在角色扮演色彩濃厚的任務中脫離人設。

對工作流程的比較影響

為了了解這些疑慮的規模，我們針對社群對模型行為變化的感受進行了意見彙整：

性能面向	3月前的觀察	目前的用戶體驗
程式碼補全	高度準確且僅需極少上下文	頻繁出現幻覺與語法錯誤
邏輯推理	深刻、多步驟的思維鏈	表面化且邏輯循環感強
提示詞遵循	嚴格遵守用戶定義的約束	頻繁「忘記」風格邊界
任務吞吐量	負載下表現穩定	高峰期間輸出品質不一

「運算緊縮」的陰影

這場反彈的核心在於「運算緊縮」（compute crunch）的理論。隨著全球對高階 GPU（特別是 NVIDIA 的 H100）的需求持續處於歷史高點，產業分析師認為，像 Anthropic 這樣的公司面臨巨大的壓力，必須優化其推論成本。

批評者認為，為了在不提高訂閱價格的情況下維持利潤，供應商可能會悄悄地將「較重」的模型權重替換為蒸餾或量化版本。雖然這些版本執行效率更高且速度更快，但往往會失去進階用戶所賴以維繫的細膩度與可靠性。

然而，技術現實往往沒那麼簡單。當被問及這些擔憂時，產業專家通常會強調，AI 模型本質上是「非確定性」的。底層基礎設施的更新、訓練資料的刷新週期，甚至對安全護欄實作的微小調整，都可能在開發者難以量化的方式下，無意中影響模型的「個性」與效能。

透明度與信任赤字

這裡的核心問題可能不僅僅是工程性能，而是企業溝通中存在的巨大鴻溝。一直以來將自己定位為「憲法 AI」（Constitutional AI）與安全倡導者的 Anthropic，現在正面臨關於其透明度的質疑。

缺乏對特定模型「檢查點」（checkpoints）的版本控制，意味著用戶無法切換回在特定使用場景中表現更好的舊版本模型。當開發者圍繞 Claude Opus 的行為構建工作流時，他們預期該行為是穩定的。一旦「黑盒子」在他們腳下發生變動，企業級採納所需的信任便開始崩解。

給 Anthropic 的建議步驟

為了恢復開發者社群的信心，進階用戶越來越多地要求採取以下措施：

版本可用性： 為 API 用戶提供舊版模型檢查點的存取權限。
更清晰的更新日誌： 在模型權重或安全過濾器更新時，提供詳細的技術報告。
一致性基準測試： 發布公開且可驗證的推理任務基準測試，並隨著模型變更進行即時更新。

展望未來：AI 模型穩定性的未來

當我們展望下一代大型語言模型（LLM）時，這場事件對整個產業而言是一個關鍵的轉捩點。AI 的「蜜月期」可以說已經結束了。開發者與進階用戶已經走出了最初的「驚艷階段」，並開始將模型視為關鍵的軟體依賴。

如果 Anthropic 打算維持其領先地位，就必須在對安全與成本效率的承諾，與對可靠性的實際需求之間取得平衡。無論感知的性能下降是技術優化的結果，還是安全優先級變更的產物，有一件事是肯定的：AI 社群不再滿足於「黑盒子」式的更新。他們要求在決策桌上佔有一席之地，並期望他們所依賴的工具能夠維持其建立之初的標準。

在 Creati.ai，我們將持續追蹤這些模型的表現，為我們的讀者提供客觀數據，以辨別技術偏差與刻意的模型優化。請密切關注我們對 Anthropic 及其競爭對手在快速變遷的基礎模型領域中，後續更新的深入分析。