
在 GTC 2026,NVIDIA 正式開啟了人工智慧的新範式,超越了簡單的模型訓練與部署。該公司推出了 NVIDIA Vera Rubin 平台,這是一種專為推動代理式 AI 時代而設計的變革性運算架構。此次發布標誌著與傳統獨立晶片發布的重大背離,轉而呈現一個完全整合、大規模的系統,旨在作為一個單一、連貫的超級電腦運行。
NVIDIA 創辦人暨執行長黃仁勳(Jensen Huang)宣稱 Vera Rubin 是「跨世代的躍進」,並強調具備自主、推理能力的代理(Agent)拐點已經到來。隨著企業將重心轉向複雜的工作流——即模型必須執行多步邏輯、驗證結果並自主運作——底層基礎設施必須從分散的組件演進為全面的 AI 工廠(AI factories)。Vera Rubin 平台是這一願景的體現,將七種不同的晶片類型整合到一個連貫的基礎設施中,能夠提供 60 exaflops 的運算效能。
Vera Rubin 平台的核心創新在於其極致的共同設計(co-design)哲學。NVIDIA 並非孤立地優化晶片,而是開發了一個由七種專用晶片組成的生態系統,這些晶片在網路、存儲和運算層之間實現了完美的同步。這種方法旨在消除記憶體移動和通訊中的傳統瓶頸,而這些瓶頸在歷史上一直困擾著大規模 AI 的高效能運算(HPC)。
Vera Rubin 矽架構的七大支柱包括:
本次發布的核心是 Vera Rubin POD,這是一個大規模的 40 機櫃規模超級電腦配置。通過將上述七種晶片整合到五個不同的專用機櫃規模系統中,POD 實現了無與倫比的吞吐量和效率。
這五個系統——NVL72 GPU 機櫃、Groq 3 LPX 機櫃、Vera CPU 機櫃、BlueField-4 STX 機櫃以及 Spectrum-6 SPX 機櫃——旨在協同工作,以支援現代 代理式 AI 範式,包括混合專家(MoE)路由和長文本記憶體存儲。
| 組件系統 | 主要功能 | 關鍵效能指標 |
|---|---|---|
| Vera Rubin NVL72 | 訓練與推論引擎 | 72 顆配備 NVLink 6 的 Rubin GPU |
| Vera CPU 機櫃 | 強化學習與編排 | 256 顆用於邏輯控制的 Vera CPU |
| Groq 3 LPX 機櫃 | 解碼加速 | 256 顆用於低延遲推論的 LPU |
| BlueField-4 STX 機櫃 | 數據/KV 快取存儲 | 增強的記憶體吞吐量 |
| Spectrum-6 SPX 機櫃 | 網路骨幹 | 高速乙太網路同步 |
其規模令人驚嘆:一個完整的 Vera Rubin POD 配置包含近 20,000 個 NVIDIA 晶粒(dies),總計 1.2 千兆(quadrillion)個電晶體。此設置提供了 60 exaflops 的效能和 10 PB/s 的頻寬,解決了下一代 AI 代理需要不斷驗證和迭代循環的高運算限制需求。
轉向代理式 AI——即系統必須進行「推理」而不僅僅是預測下一個標記(token)——對硬體提出了獨特的需求。當擴展到關鍵決策所需的自主水平時,傳統的推論系統通常會面臨高延遲和昂貴成本的問題。NVIDIA 的 Vera Rubin 平台專門針對這些問題,將推論的預填充(prefill,運算密集型)和解碼(decode,延遲敏感型)階段進行分離。
通過將負責高運算量預填充任務的 Rubin GPU 與負責解碼階段的 Groq 3 LPU 配對,NVIDIA 聲稱該架構每百萬瓦可以提供顯著更高的推論吞吐量。這項改進對於運行兆級參數模型的公司至關重要,因為它允許更具永續性的營運模式。
此外,Vera CPU 在「CPU 原生」工作負載中扮演著至關重要的角色,例如代理測試和驗證程式碼的強化學習環境。憑藉每秒 1.2 TB 的記憶體頻寬和完整的 Arm 相容性,Vera CPU 確保 GPU 不會因等待控制指令而閒置,從而有效解決了現代 AI 數據中心中最常見的生產力瓶頸之一。
隨著產業邁向 2026 年及以後,「AI 工廠」的定義正變得越來越清晰。它不再由單個 GPU 的能力定義,而是由整個系統堆疊的效率定義。NVIDIA Vera Rubin 平台專注於全系統共同設計、能源效率和可擴展性,為全球 AI 基礎設施樹立了新標竿。
對於旨在部署複雜自主代理的企業和超大規模雲端業者而言,來自 GTC 2026 的訊息很明確:硬體瓶頸正透過深度整合得到解決。隨著基於 Vera Rubin 的產品在今年下半年進入全面量產,構建能夠支援下一波智慧推理代理基礎設施的競賽已正式開始。