
近幾週來,AI 社群中瀰漫著一種日益增長的挫敗感,這種情緒主要來自於依賴 Anthropic 旗艦模型的進階用戶與開發者。在 X、Reddit 及各大開發者論壇上,相關投訴紛紛湧現,指稱 Claude Opus 以及近期推出的 Claude Code 性能出現了顯著倒退。這些用戶往往支付高額訂閱費用以獲得頂級存取權限,他們現在開始質疑這家 AI 巨頭模型更新的一貫性與透明度。
在 Creati.ai,我們一直密切關注上述討論。最初僅是零星的傳聞,如今已演變成一場關於「模型削弱」(model nerfing)的廣泛爭論,即人們懷疑 AI 公司為了節省運算成本、降低延遲或將行為導向更受限的輸出,而有意降低了模型的原始能力。
這些抱怨並非侷限於單一領域。相反,對於一直以打造「最具人性化」且能力強大的 AI 而著稱的 Anthropic,這些指控構成了多方面的挑戰。開發者特別指出,他們認為 Claude Opus 在幾個關鍵領域的表現不如以往的迭代版本。
進階用戶所識別出的關鍵關切領域包括:
為了了解這些疑慮的規模,我們針對社群對模型行為變化的感受進行了意見彙整:
| 性能面向 | 3月前的觀察 | 目前的用戶體驗 |
|---|---|---|
| 程式碼補全 | 高度準確且僅需極少上下文 | 頻繁出現幻覺與語法錯誤 |
| 邏輯推理 | 深刻、多步驟的思維鏈 | 表面化且邏輯循環感強 |
| 提示詞遵循 | 嚴格遵守用戶定義的約束 | 頻繁「忘記」風格邊界 |
| 任務吞吐量 | 負載下表現穩定 | 高峰期間輸出品質不一 |
這場反彈的核心在於「運算緊縮」(compute crunch)的理論。隨著全球對高階 GPU(特別是 NVIDIA 的 H100)的需求持續處於歷史高點,產業分析師認為,像 Anthropic 這樣的公司面臨巨大的壓力,必須優化其推論成本。
批評者認為,為了在不提高訂閱價格的情況下維持利潤,供應商可能會悄悄地將「較重」的模型權重替換為蒸餾或量化版本。雖然這些版本執行效率更高且速度更快,但往往會失去進階用戶所賴以維繫的細膩度與可靠性。
然而,技術現實往往沒那麼簡單。當被問及這些擔憂時,產業專家通常會強調,AI 模型本質上是「非確定性」的。底層基礎設施的更新、訓練資料的刷新週期,甚至對安全護欄實作的微小調整,都可能在開發者難以量化的方式下,無意中影響模型的「個性」與效能。
這裡的核心問題可能不僅僅是工程性能,而是企業溝通中存在的巨大鴻溝。一直以來將自己定位為「憲法 AI」(Constitutional AI)與安全倡導者的 Anthropic,現在正面臨關於其 透明度 的質疑。
缺乏對特定模型「檢查點」(checkpoints)的版本控制,意味著用戶無法切換回在特定使用場景中表現更好的舊版本模型。當開發者圍繞 Claude Opus 的行為構建工作流時,他們預期該行為是穩定的。一旦「黑盒子」在他們腳下發生變動,企業級採納所需的信任便開始崩解。
為了恢復開發者社群的信心,進階用戶越來越多地要求採取以下措施:
當我們展望下一代大型語言模型(LLM)時,這場事件對整個產業而言是一個關鍵的轉捩點。AI 的「蜜月期」可以說已經結束了。開發者與進階用戶已經走出了最初的「驚艷階段」,並開始將模型視為關鍵的軟體依賴。
如果 Anthropic 打算維持其領先地位,就必須在對安全與成本效率的承諾,與對可靠性的實際需求之間取得平衡。無論感知的性能下降是技術優化的結果,還是安全優先級變更的產物,有一件事是肯定的:AI 社群不再滿足於「黑盒子」式的更新。他們要求在決策桌上佔有一席之地,並期望他們所依賴的工具能夠維持其建立之初的標準。
在 Creati.ai,我們將持續追蹤這些模型的表現,為我們的讀者提供客觀數據,以辨別技術偏差與刻意的模型優化。請密切關注我們對 Anthropic 及其競爭對手在快速變遷的基礎模型領域中,後續更新的深入分析。