NVIDIA stellt Vera Rubin POD auf der GTC 2026 vor: Sieben‑Chip‑AI‑Supercomputer mit 60 Exaflops für die agentische KI‑Ära

Der Anbruch der Agentic Era: NVIDIA enthüllt Vera Rubin auf der GTC 2026

Auf der GTC 2026 läutete NVIDIA offiziell ein neues Paradigma für Künstliche Intelligenz ein, das über einfaches Modelltraining und Deployment hinausgeht. Das Unternehmen stellte die NVIDIA Vera Rubin-Plattform vor, eine transformative Computerarchitektur, die explizit für das Zeitalter der agentischen KI (Agentic AI) entwickelt wurde. Dieser Launch markiert eine bedeutende Abkehr von traditionellen eigenständigen Chip-Releases und präsentiert stattdessen ein vollständig integriertes, massiv skalierbares System, das als ein einziger, kohärenter Supercomputer fungiert.

NVIDIA-Gründer und CEO Jensen Huang bezeichnete Vera Rubin als einen „Generationssprung“ und betonte, dass der Wendepunkt für autonome, logikfähige Agenten erreicht sei. Da Unternehmen ihren Fokus auf komplexe Workflows verlagern – in denen Modelle mehrstufige Logik ausführen, Ergebnisse validieren und autonom agieren müssen –, muss sich die zugrunde liegende Infrastruktur von diskreten Komponenten zu umfassenden KI-Fabriken entwickeln. Die Vera Rubin-Plattform ist die Manifestation dieser Vision und integriert sieben verschiedene Chiptypen in eine kohärente Infrastruktur, die 60 Exaflops Rechenleistung liefert.

Architektur der KI-Fabrik: Sieben Chips, ein System

Die Kerninnovation der Vera Rubin-Plattform ist ihre extreme Co-Design-Philosophie. Anstatt Chips isoliert zu optimieren, hat NVIDIA ein Ökosystem aus sieben spezialisierten Chips entwickelt, die in perfekter Synchronisation über Netzwerk-, Speicher- und Rechenschichten hinweg arbeiten. Dieser Ansatz zielt darauf ab, traditionelle Engpässe bei Speicherbewegung und Kommunikation zu beseitigen, die historisch gesehen das High-Performance Computing (HPC) für groß angelegte KI behindert haben.

Die sieben Säulen der Vera Rubin-Siliziumarchitektur umfassen:

Vera CPU: Der erste NVIDIA-Prozessor, der speziell für agentische Workflows und Reinforcement Learning entwickelt wurde, mit 88 maßgeschneiderten Kernen und LPDDR5X-Speicher für Orchestrierung und Logiksteuerung.
Rubin GPU: Das primäre Arbeitspferd für Training und Inferenz, gefertigt in einem 3nm-Prozess mit 336 Milliarden Transistoren und HBM4-Speicher mit hoher Bandbreite.
Groq 3 LPU (Language Processing Unit): Ein neu integrierter Beschleuniger, der speziell für die Decode-Phase der Inferenz optimiert wurde und die Latenz bei komplexen agentischen Interaktionen drastisch reduziert.
NVLink 6 Switch: Das Hochgeschwindigkeits-Interconnect-Fabric, das es mehreren GPUs ermöglicht, wie ein einziger, vereinheitlichter Beschleuniger zu agieren.
ConnectX-9 SuperNIC: Bietet fortschrittliche Netzwerkfunktionen für massive Datenströme in großem Maßstab.
BlueField-4 DPU: Verwaltet Datenverarbeitung, Speicherung und Sicherheitsaufgaben, um die Hauptrecheneinheiten zu entlasten.
Spectrum-6 Ethernet Switch: Bietet das robuste Rückgrat für die clusterweite Kommunikation innerhalb der AI factory.

Die Power des POD: Fünf Systeme im Rack-Maßstab

Im Zentrum dieser Ankündigung steht der Vera Rubin POD, eine massive Supercomputer-Konfiguration im Maßstab von 40 Racks. Durch die Integration der oben genannten sieben Chips in fünf verschiedene, zweckgebundene Systeme im Rack-Maßstab erreicht der POD einen beispiellosen Durchsatz und Effizienz.

Diese fünf Systeme – das NVL72 GPU-Rack, das Groq 3 LPX-Rack, das Vera CPU-Rack, das BlueField-4 STX-Rack und das Spectrum-6 SPX-Rack – sind darauf ausgelegt, im Zusammenspiel moderne agentic AI-Paradigmen zu unterstützen, einschließlich Mixture-of-Experts (MoE) Routing und Langzeit-Kontextspeicherung.

Komponentensystem	Primäre Funktion	Wichtigste Leistungsmetrik
Vera Rubin NVL72	Trainings- und Inferenz-Engine	72 Rubin GPUs mit NVLink 6
Vera CPU Rack	RL und Orchestrierung	256 Vera CPUs für Logiksteuerung
Groq 3 LPX Rack	Decode-Beschleunigung	256 LPUs für Inferenz mit niedriger Latenz
BlueField-4 STX Rack	Daten/KV-Cache-Speicherung	Verbesserter Speicherdurchsatz
Spectrum-6 SPX Rack	Netzwerk-Rückgrat	Hochgeschwindigkeits-Ethernet-Synchronisation

Die Skala ist atemberaubend: Eine vollständige Vera Rubin POD-Konfiguration umfasst fast 20.000 NVIDIA-Dies mit insgesamt 1,2 Billiarden Transistoren. Dieses Setup bietet 60 Exaflops Leistung und 10 PB/s Bandbreite und adressiert damit die hohen rechenintensiven Anforderungen von KI-Agenten der nächsten Generation, die ständige Validierungs- und Iterationsschleifen erfordern.

Neudefinition der Infrastruktur für agentische Workloads

Der Übergang zur agentischen KI – bei der Systeme „denken“ müssen, anstatt nur das nächste Token vorherzusagen – stellt einzigartige Anforderungen an die Hardware. Traditionelle Inferenzsysteme leiden oft unter hoher Latenz und prohibitiven Kosten, wenn sie auf das für unternehmenskritische Entscheidungen erforderliche Maß an Autonomie skaliert werden. Die Vera Rubin-Plattform von NVIDIA zielt speziell auf diese Probleme ab, indem sie die Prefill-Phase (rechenintensiv) und die Decode-Phase (latenzsensitiv) der Inferenz entkoppelt.

Durch die Kombination der Rubin GPU für rechenintensive Prefill-Aufgaben mit der Groq 3 LPU für die Decode-Phase behauptet NVIDIA, dass die Architektur einen signifikant höheren Inferenzdurchsatz pro Megawatt liefern kann. Diese Verbesserung ist entscheidend für Unternehmen, die Modelle mit Billionen von Parametern betreiben, da sie ein nachhaltigeres Betriebsmodell ermöglicht.

Darüber hinaus spielt die Vera CPU eine entscheidende Rolle bei „CPU-nativen“ Workloads, wie z. B. Reinforcement-Learning-Umgebungen, in denen Agenten Code testen und validieren. Mit 1,2 Terabyte pro Sekunde Speicherbandbreite und voller Arm-Kompatibilität stellt die Vera CPU sicher, dass GPUs nicht auf Steuerbefehle warten müssen, wodurch einer der häufigsten Produktivitätsengpässe in modernen KI-Rechenzentren effektiv gelöst wird.

Fazit: Den Standard für zukünftige Fabriken setzen

Während sich die Branche auf das Jahr 2026 und darüber hinaus zubewegt, wird die Definition einer „KI-Fabrik“ immer klarer. Sie wird nicht mehr durch die Fähigkeit einer einzelnen GPU definiert, sondern durch die Effizienz des gesamten System-Stacks. Die NVIDIA Vera Rubin-Plattform setzt mit ihrem Fokus auf systemweites Co-Design, Energieeffizienz und Skalierbarkeit einen neuen Maßstab für die globale KI-Infrastruktur.

Für Unternehmen und Hyperscaler, die komplexe autonome Agenten einsetzen wollen, ist die Botschaft der GTC 2026 klar: Der Hardware-Engpass wird durch tiefe Integration angegangen. Da Vera Rubin-basierte Produkte in der zweiten Jahreshälfte in die volle Produktion gehen, hat das Rennen um den Aufbau der Infrastruktur, die in der Lage ist, die nächste Welle intelligenter, logikbasierter Agenten anzutreiben, offiziell begonnen.