
隨著人工智慧領域從最初對大規模訓練叢集的競逐,轉向生產級推論對效率的嚴苛要求,業界領導者們正在尋求背離標準硬體架構的激進方案。近期報告顯示,總部位於舊金山的 Claude AI 模型開發商 Anthropic,正處於與英國新創公司 Fractile 討論採用其硬體的早期階段,該公司專精於高效能推論晶片。這項潛在的合作訊號顯示,大型語言模型(LLM)開發者們正日益迫切地尋求繞過目前阻礙複雜 AI 模型部署的「記憶體牆(memory wall)」。
對於 Creati.ai 的讀者而言,這一發展凸顯了一個更廣泛的趨勢:邁向垂直整合與客製化矽晶片已不再僅僅是 NVIDIA 等硬體巨頭的專利。隨著記憶體成本飆升且供應鏈限制未見緩解,像 Anthropic 這樣的公司正尋求超越傳統 GPU 的專業解決方案。
目前關於 AI 硬體的爭論核心在於「記憶體緊縮(memory crunch)」。雖然 GPU 一直是生成式 AI(Generative AI)熱潮的引擎,但它們主要是為吞吐量繁重的訓練任務而設計。當談到 推論(inference)——即運行模型以即時回應使用者——時,架構需求便隨之改變。模型的效能日益依賴的是記憶體頻寬,而非原始的浮點運算能力。
Fractile 的方案正是針對此項特定缺陷。與通用運算加速器不同,Fractile 正在設計優先考慮記憶體與 AI 運算核心鄰近性的晶片。透過縮短資料在記憶體模組與晶片邏輯之間傳輸的距離,該新創公司旨在顯著提高權杖生成(token generation)的速度,這是一項每毫秒的提升都轉化為企業模型實作中更佳使用者體驗的指標。
業界目前在幾種硬體策略之間取得平衡,以處理大規模大型語言模型。下表展示了標準伺服器級 GPU 與專業推論矽晶片之間的差異。
| 通用 GPU | 專業推論晶片 | Fractile 架構重點 |
|---|---|---|
| 訓練用高 TFLOPS | 為低延遲進行最佳化 | 以記憶體為中心的設計 |
| 每個請求的耗電量高 | 提升能源效率 | 減少資料瓶頸 |
| 依賴 HBM | 降低記憶體開銷 | 統一記憶體與運算架構 |
| 大規模部署昂貴 | 為部署進行成本最佳化 | 專注於局部記憶體存取 |
Anthropic 長期以來將自己定位為以研究為先的組織,優先考慮安全性與複雜的推理能力。然而,隨著它透過 API 和網頁介面將 Claude 擴展至數百萬企業使用者,推論的經濟性已成為關鍵焦點領域。僅僅依賴第三方 雲端基礎設施 與標準、高需求的晶片,會使 Anthropic 同時面臨供應鏈波動與次佳的能源對權杖比率的風險。
透過與 Fractile 這樣的新創公司接觸,Anthropic 正在探索一種「主權」硬體策略。此策略服務於多項戰略利益:
Anthropic 與 Fractile 之間的對話並非在真空中發生。它代表了 AI 基礎設施新興的二級市場。許多新創公司正試圖透過專注於「純推論」市場來挑戰高端矽晶片的霸權。
產業分析師認為,AI 淘金熱的下一個階段(常被稱為「AI 2.0」)將屬於那些能降低部署成本的公司。如果 Anthropic 能成功整合 Fractile 的技術,它可以在每項查詢成本(price-per-query)上獲得顯著的競爭優勢,使其在維持或提升模型延遲表現的同時,能為客戶降低費用。
雖然據報導 Anthropic 與 Fractile 之間的討論尚處於早期階段,且可能不會產生立即的商業成果,但它們向業界發出了一個重要的訊號。通用硬體時代正在式微。隨著 AI 模型在複雜度與數量上的增長,生態系統很可能會分化為高度專業化的孤島:用於訓練大規模基礎模型的大型叢集,以及用於定義現代網際網路之無所不在的推論任務的優化、高能源效率加速器。
對於 Creati.ai 而言,我們將密切關注這些發展。在不耗盡雲端基礎設施預算的情況下大規模部署高智慧 AI,是生成式 AI 領域的「聖杯」。如果 Anthropic 證明了來自專業公司的專用矽晶片能比現成替代品提供更好的結果,我們預計在 2024 年剩餘時間及以後,推論晶片硬體領域將會湧入大量投資。
從研究主導的模型開發過渡到工業化、低成本的推論是一個複雜的挑戰,但這是像 Fractile 這樣的創新者與像 Anthropic 這樣的模型構建者正在正面解決的問題。此類創投的結果終將決定下一代 人工智慧 的可及性與永續性。