Anthropic 在記憶體短缺之際評估 Fractile AI 推理晶片

策略轉變：Anthropic 對 Fractile AI 晶片的興趣

隨著人工智慧領域從最初對大規模訓練叢集的競逐，轉向生產級推論對效率的嚴苛要求，業界領導者們正在尋求背離標準硬體架構的激進方案。近期報告顯示，總部位於舊金山的 Claude AI 模型開發商 Anthropic，正處於與英國新創公司 Fractile 討論採用其硬體的早期階段，該公司專精於高效能推論晶片。這項潛在的合作訊號顯示，大型語言模型（LLM）開發者們正日益迫切地尋求繞過目前阻礙複雜 AI 模型部署的「記憶體牆（memory wall）」。

對於 Creati.ai 的讀者而言，這一發展凸顯了一個更廣泛的趨勢：邁向垂直整合與客製化矽晶片已不再僅僅是 NVIDIA 等硬體巨頭的專利。隨著記憶體成本飆升且供應鏈限制未見緩解，像 Anthropic 這樣的公司正尋求超越傳統 GPU 的專業解決方案。

解決 AI 推論中的記憶體瓶頸

目前關於 AI 硬體的爭論核心在於「記憶體緊縮（memory crunch）」。雖然 GPU 一直是生成式 AI（Generative AI）熱潮的引擎，但它們主要是為吞吐量繁重的訓練任務而設計。當談到推論（inference）——即運行模型以即時回應使用者——時，架構需求便隨之改變。模型的效能日益依賴的是記憶體頻寬，而非原始的浮點運算能力。

Fractile 的方案正是針對此項特定缺陷。與通用運算加速器不同，Fractile 正在設計優先考慮記憶體與 AI 運算核心鄰近性的晶片。透過縮短資料在記憶體模組與晶片邏輯之間傳輸的距離，該新創公司旨在顯著提高權杖生成（token generation）的速度，這是一項每毫秒的提升都轉化為企業模型實作中更佳使用者體驗的指標。

硬體方案比較

業界目前在幾種硬體策略之間取得平衡，以處理大規模大型語言模型。下表展示了標準伺服器級 GPU 與專業推論矽晶片之間的差異。

通用 GPU	專業推論晶片	Fractile 架構重點
訓練用高 TFLOPS	為低延遲進行最佳化	以記憶體為中心的設計
每個請求的耗電量高	提升能源效率	減少資料瓶頸
依賴 HBM	降低記憶體開銷	統一記憶體與運算架構
大規模部署昂貴	為部署進行成本最佳化	專注於局部記憶體存取

為什麼 Fractile 對 Anthropic 的路線圖至關重要

Anthropic 長期以來將自己定位為以研究為先的組織，優先考慮安全性與複雜的推理能力。然而，隨著它透過 API 和網頁介面將 Claude 擴展至數百萬企業使用者，推論的經濟性已成為關鍵焦點領域。僅僅依賴第三方雲端基礎設施與標準、高需求的晶片，會使 Anthropic 同時面臨供應鏈波動與次佳的能源對權杖比率的風險。

透過與 Fractile 這樣的新創公司接觸，Anthropic 正在探索一種「主權」硬體策略。此策略服務於多項戰略利益：

供應鏈多樣化： 減少對單一主導硬體供應商的依賴，減輕库存突發短缺的風險。
營運量身打造： 透過整合訂製推論硬體，Anthropic 可以優化其特定模型架構（例如 Claude 3.5 Sonnet 或 Opus），使其運行效率高於通用硬體。
永續發展目標： 隨著 AI 需求激增，推論的碳足跡已成為主要的公關與監管疑慮。高效率推論晶片有助於實現更永續的運算模型。

AI 加速器的競爭格局

Anthropic 與 Fractile 之間的對話並非在真空中發生。它代表了 AI 基礎設施新興的二級市場。許多新創公司正試圖透過專注於「純推論」市場來挑戰高端矽晶片的霸權。

產業分析師認為，AI 淘金熱的下一個階段（常被稱為「AI 2.0」）將屬於那些能降低部署成本的公司。如果 Anthropic 能成功整合 Fractile 的技術，它可以在每項查詢成本（price-per-query）上獲得顯著的競爭優勢，使其在維持或提升模型延遲表現的同時，能為客戶降低費用。

推動邁向客製化矽晶片的關鍵因素

記憶體牆緩解： 標準高頻寬記憶體 (HBM) 既昂貴又供應短缺，這迫使設計者圍繞著運算與記憶體的鄰近性進行架構設計。
軟體堆疊整合： 任何新晶片的成功在很大程度上取決於其軟體堆疊（如 CUDA 或類似環境）的成熟度。
部署速度： 企業希望在不對應用層進行大規模重新設計的情況下，盡快從模型訓練轉向生產環境推論。

未來展望：客製化硬體會成為新標準嗎？

雖然據報導 Anthropic 與 Fractile 之間的討論尚處於早期階段，且可能不會產生立即的商業成果，但它們向業界發出了一個重要的訊號。通用硬體時代正在式微。隨著 AI 模型在複雜度與數量上的增長，生態系統很可能會分化為高度專業化的孤島：用於訓練大規模基礎模型的大型叢集，以及用於定義現代網際網路之無所不在的推論任務的優化、高能源效率加速器。

對於 Creati.ai 而言，我們將密切關注這些發展。在不耗盡雲端基礎設施預算的情況下大規模部署高智慧 AI，是生成式 AI 領域的「聖杯」。如果 Anthropic 證明了來自專業公司的專用矽晶片能比現成替代品提供更好的結果，我們預計在 2024 年剩餘時間及以後，推論晶片硬體領域將會湧入大量投資。

從研究主導的模型開發過渡到工業化、低成本的推論是一個複雜的挑戰，但這是像 Fractile 這樣的創新者與像 Anthropic 這樣的模型構建者正在正面解決的問題。此類創投的結果終將決定下一代人工智慧的可及性與永續性。