NVIDIA 在 GTC 2026 發表 Vera Rubin POD：七晶片 AI 超級電腦，為 Agentic AI 時代提供 60 exaflops

代理式 AI（Agentic AI）時代的黎明：NVIDIA 在 GTC 2026 揭曉 Vera Rubin

在 GTC 2026，NVIDIA 正式開啟了人工智慧的新範式，超越了簡單的模型訓練與部署。該公司推出了 NVIDIA Vera Rubin 平台，這是一種專為推動代理式 AI 時代而設計的變革性運算架構。此次發布標誌著與傳統獨立晶片發布的重大背離，轉而呈現一個完全整合、大規模的系統，旨在作為一個單一、連貫的超級電腦運行。

NVIDIA 創辦人暨執行長黃仁勳（Jensen Huang）宣稱 Vera Rubin 是「跨世代的躍進」，並強調具備自主、推理能力的代理（Agent）拐點已經到來。隨著企業將重心轉向複雜的工作流——即模型必須執行多步邏輯、驗證結果並自主運作——底層基礎設施必須從分散的組件演進為全面的 AI 工廠（AI factories）。Vera Rubin 平台是這一願景的體現，將七種不同的晶片類型整合到一個連貫的基礎設施中，能夠提供 60 exaflops 的運算效能。

構建 AI 工廠：七顆晶片，一個系統

Vera Rubin 平台的核心創新在於其極致的共同設計（co-design）哲學。NVIDIA 並非孤立地優化晶片，而是開發了一個由七種專用晶片組成的生態系統，這些晶片在網路、存儲和運算層之間實現了完美的同步。這種方法旨在消除記憶體移動和通訊中的傳統瓶頸，而這些瓶頸在歷史上一直困擾著大規模 AI 的高效能運算（HPC）。

Vera Rubin 矽架構的七大支柱包括：

Vera CPU： 首款專為代理式工作流和強化學習（Reinforcement Learning）打造的 NVIDIA 處理器，具有 88 個客製化設計的核心和 LPDDR5X 記憶體，用於處理協調與邏輯控制。
Rubin GPU： 訓練與推論的主要主力，採用 3 奈米製程，擁有 3,360 億個電晶體和高頻寬 HBM4 記憶體。
Groq 3 LPU（語言處理單元，Language Processing Unit）： 專為推論解碼階段優化的新型整合加速器，顯著降低了複雜代理交互的延遲。
NVLink 6 交換器： 高速互連結構，允許個多個 GPU 作為一個單一、統一的加速器運行。
ConnectX-9 SuperNIC： 提供先進的網路功能，以處理大規模的海量數據流。
BlueField-4 DPU： 管理數據處理、存儲和安全任務，以減輕主運算單元的負載。
Spectrum-6 乙太網路交換器： 為 AI 工廠內的叢集範圍通訊提供強大的骨幹。

POD 的力量：五個機櫃規模系統

本次發布的核心是 Vera Rubin POD，這是一個大規模的 40 機櫃規模超級電腦配置。通過將上述七種晶片整合到五個不同的專用機櫃規模系統中，POD 實現了無與倫比的吞吐量和效率。

這五個系統——NVL72 GPU 機櫃、Groq 3 LPX 機櫃、Vera CPU 機櫃、BlueField-4 STX 機櫃以及 Spectrum-6 SPX 機櫃——旨在協同工作，以支援現代代理式 AI 範式，包括混合專家（MoE）路由和長文本記憶體存儲。

組件系統	主要功能	關鍵效能指標
Vera Rubin NVL72	訓練與推論引擎	72 顆配備 NVLink 6 的 Rubin GPU
Vera CPU 機櫃	強化學習與編排	256 顆用於邏輯控制的 Vera CPU
Groq 3 LPX 機櫃	解碼加速	256 顆用於低延遲推論的 LPU
BlueField-4 STX 機櫃	數據/KV 快取存儲	增強的記憶體吞吐量
Spectrum-6 SPX 機櫃	網路骨幹	高速乙太網路同步

其規模令人驚嘆：一個完整的 Vera Rubin POD 配置包含近 20,000 個 NVIDIA 晶粒（dies），總計 1.2 千兆（quadrillion）個電晶體。此設置提供了 60 exaflops 的效能和 10 PB/s 的頻寬，解決了下一代 AI 代理需要不斷驗證和迭代循環的高運算限制需求。

為代理式工作負載重新定義基礎設施

轉向代理式 AI——即系統必須進行「推理」而不僅僅是預測下一個標記（token）——對硬體提出了獨特的需求。當擴展到關鍵決策所需的自主水平時，傳統的推論系統通常會面臨高延遲和昂貴成本的問題。NVIDIA 的 Vera Rubin 平台專門針對這些問題，將推論的預填充（prefill，運算密集型）和解碼（decode，延遲敏感型）階段進行分離。

通過將負責高運算量預填充任務的 Rubin GPU 與負責解碼階段的 Groq 3 LPU 配對，NVIDIA 聲稱該架構每百萬瓦可以提供顯著更高的推論吞吐量。這項改進對於運行兆級參數模型的公司至關重要，因為它允許更具永續性的營運模式。

此外，Vera CPU 在「CPU 原生」工作負載中扮演著至關重要的角色，例如代理測試和驗證程式碼的強化學習環境。憑藉每秒 1.2 TB 的記憶體頻寬和完整的 Arm 相容性，Vera CPU 確保 GPU 不會因等待控制指令而閒置，從而有效解決了現代 AI 數據中心中最常見的生產力瓶頸之一。

結論：為未來工廠樹立標準

隨著產業邁向 2026 年及以後，「AI 工廠」的定義正變得越來越清晰。它不再由單個 GPU 的能力定義，而是由整個系統堆疊的效率定義。NVIDIA Vera Rubin 平台專注於全系統共同設計、能源效率和可擴展性，為全球 AI 基礎設施樹立了新標竿。

對於旨在部署複雜自主代理的企業和超大規模雲端業者而言，來自 GTC 2026 的訊息很明確：硬體瓶頸正透過深度整合得到解決。隨著基於 Vera Rubin 的產品在今年下半年進入全面量產，構建能夠支援下一波智慧推理代理基礎設施的競賽已正式開始。