
人工智能(Artificial Intelligence)的經濟效益正在經歷一場劇烈的變革。NVIDIA 已正式證明其 Blackwell 平台,特別是 GB200 NVL72 系統,與上一代 Hopper 架構相比,將每個 Token 的成本降低了多達 10 倍。對於 AI 行業而言——推論成本(inference costs)已成為擴展規模的主要瓶頸——這一進展標誌著一個關鍵的轉折點。
在 Creati.ai,我們密切關注大型語言模型(Large Language Model,LLM)基礎設施的發展軌跡。從以訓練為核心的價值主張向以推論為核心的效率轉型,現已成為主導敘事。NVIDIA 的最新數據證實,通過極致的硬體與軟體協同設計(hardware-software codesign),Blackwell 平台不僅速度更快,而且正在從根本上重寫醫療保健、遊戲和客戶服務領域 AI 供應商的利潤空間。
這項效率飛躍的核心是 NVIDIA GB200 NVL72,這是一個作為單個巨大 GPU 運行的機櫃級系統(rack-scale system)。與在離散晶片之間存在延遲瓶頸的傳統設置不同,NVL72 通過第五代 NVLink 連接了 72 個 Blackwell GPU 和 36 個 Grace CPU。
該架構提供 30TB 的統一快速記憶體,允許即使是最大的兆級參數模型也能完全駐留在單個相干記憶體域中。這消除了通常困擾多節點推論的通信開銷,直接轉化為更高的吞吐量和更低的每個生成 Token 能耗。
效率的提升通過引入 NVFP4 得到進一步放大,這是一種由 Blackwell Tensor 核心原生支持的低精度數據格式。通過在不損害模型準確性的情況下以 4 位浮點精度處理數據,該系統與 8 位格式相比有效地將吞吐量翻倍,並將每個 Token 所需的記憶體頻寬減半。
雖然理論指標充滿前景,但現實世界的部署數據驗證了「10 倍」的說法。領先的推論服務供應商已經將基於 Blackwell 的集群整合到他們的技術棧中,並報告了營運成本和延遲的顯著降低。
下表詳細說明了特定行業參與者如何利用 Blackwell 平台轉型其經濟模式:
表 1:各行業的 Blackwell 性能與成本影響
| 合作夥伴 | 行業 | 關鍵應用 | 性能指標 | 成本影響 |
|---|---|---|---|---|
| Baseten (Sully.ai) | 醫療保健 | 醫療筆記生成 | 回應速度提升 65% | 與專有模型相比,成本降低 90% (10x) |
| DeepInfra | 遊戲 | AI 地下城 (Latitude) | 低延遲敘事生成 | 每百萬 Token 成本從 $0.20 降至 $0.05 (4x) |
| Together AI | 客戶服務 | Decagon 語音代理 | 回應時間低於 400ms | 與閉源模型相比,每次查詢成本降低 6x |
| Fireworks AI | 代理式 AI | Sentient 聊天 | 多代理編排 | 與 Hopper 相比,成本效率提升 25-50% |
10 倍的成本降低不僅僅是原始矽晶片算力的結果。它源於 NVIDIA 所謂的「極致協同設計」——三個不同層級的緊密整合:
這種成本降低的一個重要意義在於高智能模型的民主化。此前,運行大規模前沿模型對於許多初創公司來說成本高昂,迫使他們依賴較小、能力較弱的模型,或向專有巨頭支付昂貴的 API 調用費用。
藉助 Blackwell 平台,像 Together AI 和 Baseten 這樣的供應商正在託管開源前沿模型,其性能可與專有巨頭媲美,但推論成本僅為其一小部分。例如,Sully.ai 利用 Baseten 的 Blackwell 基礎設施部署了高保真醫療 AI 「員工」,為醫生節省了超過 3,000 萬分鐘的行政工作。Blackwell 的成本結構使這成為可能,與 H100 (Hopper) 代相比,它提供了 2.5 倍的每美元吞吐量。
儘管 Blackwell 的發布意義重大,但 NVIDIA 已經表示這只是效率持續提升節奏的一部分。該公司已經預告了即將推出的 Rubin 平台,其目標是將六款新晶片整合到單個 AI 超級電腦中。NVIDIA 預計 Rubin 將在 Blackwell 的基礎上再提供 10 倍的性能飛躍和 10 倍的 Token 成本降低。
然而,在不久的將來,GB200 NVL72 將成為行業標準。對於 AI 原生公司來說,信息很明確:高昂的「智能稅」時代即將結束。通過先進的基礎設施優化 Token 經濟學,企業現在可以將焦點從管理雲端帳單轉向擴展其 AI 應用的能力和覆蓋範圍。
Creati.ai 觀點: Token 成本降低一個數量級不僅僅是硬體規格的升級;這是一次經濟解鎖。它將 AI 從高溢價的奢侈品轉變為商品化的公用事業,使以前因成本過高而無法擴展的複雜代理式工作流(agentic workflows)和實時互動成為可能。