
Auf der GTC 2026 läutete NVIDIA offiziell ein neues Paradigma für Künstliche Intelligenz ein, das über einfaches Modelltraining und Deployment hinausgeht. Das Unternehmen stellte die NVIDIA Vera Rubin-Plattform vor, eine transformative Computerarchitektur, die explizit für das Zeitalter der agentischen KI (Agentic AI) entwickelt wurde. Dieser Launch markiert eine bedeutende Abkehr von traditionellen eigenständigen Chip-Releases und präsentiert stattdessen ein vollständig integriertes, massiv skalierbares System, das als ein einziger, kohärenter Supercomputer fungiert.
NVIDIA-Gründer und CEO Jensen Huang bezeichnete Vera Rubin als einen „Generationssprung“ und betonte, dass der Wendepunkt für autonome, logikfähige Agenten erreicht sei. Da Unternehmen ihren Fokus auf komplexe Workflows verlagern – in denen Modelle mehrstufige Logik ausführen, Ergebnisse validieren und autonom agieren müssen –, muss sich die zugrunde liegende Infrastruktur von diskreten Komponenten zu umfassenden KI-Fabriken entwickeln. Die Vera Rubin-Plattform ist die Manifestation dieser Vision und integriert sieben verschiedene Chiptypen in eine kohärente Infrastruktur, die 60 Exaflops Rechenleistung liefert.
Die Kerninnovation der Vera Rubin-Plattform ist ihre extreme Co-Design-Philosophie. Anstatt Chips isoliert zu optimieren, hat NVIDIA ein Ökosystem aus sieben spezialisierten Chips entwickelt, die in perfekter Synchronisation über Netzwerk-, Speicher- und Rechenschichten hinweg arbeiten. Dieser Ansatz zielt darauf ab, traditionelle Engpässe bei Speicherbewegung und Kommunikation zu beseitigen, die historisch gesehen das High-Performance Computing (HPC) für groß angelegte KI behindert haben.
Die sieben Säulen der Vera Rubin-Siliziumarchitektur umfassen:
Im Zentrum dieser Ankündigung steht der Vera Rubin POD, eine massive Supercomputer-Konfiguration im Maßstab von 40 Racks. Durch die Integration der oben genannten sieben Chips in fünf verschiedene, zweckgebundene Systeme im Rack-Maßstab erreicht der POD einen beispiellosen Durchsatz und Effizienz.
Diese fünf Systeme – das NVL72 GPU-Rack, das Groq 3 LPX-Rack, das Vera CPU-Rack, das BlueField-4 STX-Rack und das Spectrum-6 SPX-Rack – sind darauf ausgelegt, im Zusammenspiel moderne agentic AI-Paradigmen zu unterstützen, einschließlich Mixture-of-Experts (MoE) Routing und Langzeit-Kontextspeicherung.
| Komponentensystem | Primäre Funktion | Wichtigste Leistungsmetrik |
|---|---|---|
| Vera Rubin NVL72 | Trainings- und Inferenz-Engine | 72 Rubin GPUs mit NVLink 6 |
| Vera CPU Rack | RL und Orchestrierung | 256 Vera CPUs für Logiksteuerung |
| Groq 3 LPX Rack | Decode-Beschleunigung | 256 LPUs für Inferenz mit niedriger Latenz |
| BlueField-4 STX Rack | Daten/KV-Cache-Speicherung | Verbesserter Speicherdurchsatz |
| Spectrum-6 SPX Rack | Netzwerk-Rückgrat | Hochgeschwindigkeits-Ethernet-Synchronisation |
Die Skala ist atemberaubend: Eine vollständige Vera Rubin POD-Konfiguration umfasst fast 20.000 NVIDIA-Dies mit insgesamt 1,2 Billiarden Transistoren. Dieses Setup bietet 60 Exaflops Leistung und 10 PB/s Bandbreite und adressiert damit die hohen rechenintensiven Anforderungen von KI-Agenten der nächsten Generation, die ständige Validierungs- und Iterationsschleifen erfordern.
Der Übergang zur agentischen KI – bei der Systeme „denken“ müssen, anstatt nur das nächste Token vorherzusagen – stellt einzigartige Anforderungen an die Hardware. Traditionelle Inferenzsysteme leiden oft unter hoher Latenz und prohibitiven Kosten, wenn sie auf das für unternehmenskritische Entscheidungen erforderliche Maß an Autonomie skaliert werden. Die Vera Rubin-Plattform von NVIDIA zielt speziell auf diese Probleme ab, indem sie die Prefill-Phase (rechenintensiv) und die Decode-Phase (latenzsensitiv) der Inferenz entkoppelt.
Durch die Kombination der Rubin GPU für rechenintensive Prefill-Aufgaben mit der Groq 3 LPU für die Decode-Phase behauptet NVIDIA, dass die Architektur einen signifikant höheren Inferenzdurchsatz pro Megawatt liefern kann. Diese Verbesserung ist entscheidend für Unternehmen, die Modelle mit Billionen von Parametern betreiben, da sie ein nachhaltigeres Betriebsmodell ermöglicht.
Darüber hinaus spielt die Vera CPU eine entscheidende Rolle bei „CPU-nativen“ Workloads, wie z. B. Reinforcement-Learning-Umgebungen, in denen Agenten Code testen und validieren. Mit 1,2 Terabyte pro Sekunde Speicherbandbreite und voller Arm-Kompatibilität stellt die Vera CPU sicher, dass GPUs nicht auf Steuerbefehle warten müssen, wodurch einer der häufigsten Produktivitätsengpässe in modernen KI-Rechenzentren effektiv gelöst wird.
Während sich die Branche auf das Jahr 2026 und darüber hinaus zubewegt, wird die Definition einer „KI-Fabrik“ immer klarer. Sie wird nicht mehr durch die Fähigkeit einer einzelnen GPU definiert, sondern durch die Effizienz des gesamten System-Stacks. Die NVIDIA Vera Rubin-Plattform setzt mit ihrem Fokus auf systemweites Co-Design, Energieeffizienz und Skalierbarkeit einen neuen Maßstab für die globale KI-Infrastruktur.
Für Unternehmen und Hyperscaler, die komplexe autonome Agenten einsetzen wollen, ist die Botschaft der GTC 2026 klar: Der Hardware-Engpass wird durch tiefe Integration angegangen. Da Vera Rubin-basierte Produkte in der zweiten Jahreshälfte in die volle Produktion gehen, hat das Rennen um den Aufbau der Infrastruktur, die in der Lage ist, die nächste Welle intelligenter, logikbasierter Agenten anzutreiben, offiziell begonnen.