NVIDIA dévoile Vera Rubin POD au GTC 2026 : superordinateur IA à sept puces de 60 exaflops pour l'ère de l'IA agentive

L'aube de l'ère des agents (Agentic Era) : NVIDIA dévoile Vera Rubin au GTC 2026

Lors du GTC 2026, NVIDIA a officiellement instauré un nouveau paradigme pour l'intelligence artificielle, dépassant le simple entraînement et déploiement de modèles. L'entreprise a dévoilé la plateforme NVIDIA Vera Rubin, une architecture informatique transformative explicitement conçue pour propulser l'ère de l'IA agentique (Agentic AI). Ce lancement marque une rupture significative avec les sorties traditionnelles de puces autonomes, présentant à la place un système à grande échelle entièrement intégré, conçu pour fonctionner comme un supercalculateur unique et cohérent.

Le fondateur et PDG de NVIDIA, Jensen Huang, a déclaré que Vera Rubin était un « saut générationnel », soulignant que le point d'inflexion pour les agents autonomes capables de raisonnement est arrivé. Alors que les entreprises déplacent leur attention vers des flux de travail complexes — où les modèles doivent exécuter une logique en plusieurs étapes, valider les résultats et fonctionner de manière autonome — l'infrastructure sous-jacente doit évoluer de composants discrets vers des usines d'IA complètes. La plateforme Vera Rubin est la manifestation de cette vision, intégrant sept types de puces distincts dans une infrastructure cohérente capable de délivrer 60 exaflops de performance de calcul.

Architecturer l'usine d'IA : Sept puces, un seul système

L'innovation centrale de la plateforme Vera Rubin est sa philosophie de co-conception extrême. Plutôt que d'optimiser les puces de manière isolée, NVIDIA a développé un écosystème de sept puces spécialisées qui fonctionnent en synchronisation parfaite à travers les couches de réseau, de stockage et de calcul. Cette approche vise à éliminer les goulots d'étranglement traditionnels dans le mouvement de la mémoire et la communication, qui ont historiquement entravé le calcul haute performance (HPC) pour l'IA à grande échelle.

Les sept piliers de l'architecture silicium Vera Rubin comprennent :

Vera CPU : Le premier processeur NVIDIA conçu spécifiquement pour les flux de travail agentiques (Agentic Workflows) et l'apprentissage par renforcement, doté de 88 cœurs personnalisés et de mémoire LPDDR5X pour gérer l'orchestration et le contrôle logique.
Rubin GPU : Le principal moteur pour l'entraînement et l'inférence, construit sur un processus 3nm avec 336 milliards de transistors et une mémoire HBM4 à large bande passante.
Groq 3 LPU (Language Processing Unit) : Un nouvel accélérateur intégré optimisé spécifiquement pour la phase de décodage (decode) de l'inférence, réduisant considérablement la latence pour les interactions agentiques complexes.
NVLink 6 Switch : La structure d'interconnexion à haute vitesse qui permet à plusieurs GPU d'agir comme un accélérateur unique et unifié.
ConnectX-9 SuperNIC : Offrant des capacités réseau avancées pour gérer des flux de données massifs à grande échelle.
BlueField-4 DPU : Gérant les tâches de traitement de données, de stockage et de sécurité pour décharger les unités de calcul principales.
Spectrum-6 Ethernet Switch : Fournissant la dorsale robuste pour la communication à l'échelle du cluster au sein de l'usine d'IA (AI factory).

La puissance du POD : Cinq systèmes à l'échelle du rack

Au cœur de cette annonce se trouve le Vera Rubin POD, une configuration massive de supercalculateur à l'échelle de 40 racks. En intégrant les sept puces mentionnées ci-dessus dans cinq systèmes distincts conçus à l'échelle du rack, le POD atteint un débit et une efficacité inégalés.

Ces cinq systèmes — le rack GPU NVL72, le rack Groq 3 LPX, le rack Vera CPU, le rack BlueField-4 STX et le rack Spectrum-6 SPX — sont conçus pour travailler de concert afin de soutenir les paradigmes modernes de l'IA agentique (Agentic AI), y compris le routage par mélange d'experts (Mixture-of-Experts, MoE) et le stockage mémoire à contexte long.

Système de composants	Fonction principale	Métrique de performance clé
Vera Rubin NVL72	Moteur d'entraînement et d'inférence	72 GPU Rubin avec NVLink 6
Vera CPU Rack	Apprentissage par renforcement et orchestration	256 processeurs Vera pour le contrôle logique
Groq 3 LPX Rack	Accélération du décodage	256 LPU pour l'inférence à faible latence
BlueField-4 STX Rack	Stockage de données/cache KV	Débit mémoire amélioré
Spectrum-6 SPX Rack	Dorsale réseau	Synchronisation Ethernet haute vitesse

L'échelle est vertigineuse : une configuration complète de Vera Rubin POD englobe près de 20 000 puces NVIDIA, totalisant 1,2 quadrillion de transistors. Cette installation offre 60 exaflops de performance et 10 Po/s de bande passante, répondant aux exigences de calcul intensif des agents IA de nouvelle génération qui nécessitent des boucles de validation et d'itération constantes.

Redéfinir l'infrastructure pour les charges de travail agentiques

La transition vers l'IA agentique — où les systèmes doivent « raisonner » plutôt que de simplement prédire le jeton suivant — impose des demandes uniques au matériel. Les systèmes d'inférence traditionnels souffrent souvent d'une latence élevée et de coûts prohibitifs lorsqu'ils passent à l'échelle de l'autonomie requise pour des décisions critiques. La plateforme Vera Rubin de NVIDIA cible spécifiquement ces problèmes en découplant les phases de pré-remplissage (prefill, intensive en calcul) et de décodage (decode, sensible à la latence) de l'inférence.

En associant le GPU Rubin pour les tâches de pré-remplissage lourdes au LPU Groq 3 pour la phase de décodage, NVIDIA affirme que l'architecture peut fournir un débit d'inférence nettement plus élevé par mégawatt. Cette amélioration est cruciale pour les entreprises exploitant des modèles de mille milliards de paramètres, car elle permet un modèle opérationnel plus durable.

De plus, le Vera CPU joue un rôle crucial dans les charges de travail « CPU-natives », telles que les environnements d'apprentissage par renforcement où les agents testent et valident du code. Avec 1,2 téraoctet par seconde de bande passante mémoire et une compatibilité Arm complète, le processeur Vera garantit que les GPU n'attendent pas les instructions de contrôle, résolvant ainsi l'un des goulots d'étranglement de productivité les plus courants dans les centres de données d'IA modernes.

Conclusion : Définir la norme pour les usines du futur

Alors que l'industrie progresse vers 2026 et au-delà, la définition d'une « usine d'IA » devient plus claire. Elle n'est plus définie par la capacité d'un seul GPU, mais par l'efficacité de l'ensemble de la pile système. La plateforme NVIDIA Vera Rubin, avec son accent sur la co-conception à l'échelle du système, l'efficacité énergétique et l'évolutivité, établit une nouvelle référence pour l'infrastructure mondiale de l'IA.

Pour les entreprises et les fournisseurs de cloud à grande échelle (hyperscalers) visant à déployer des agents autonomes complexes, le message du GTC 2026 est clair : le goulot d'étranglement matériel est résolu grâce à une intégration profonde. Alors que les produits basés sur Vera Rubin s'orientent vers une production complète au second semestre de l'année, la course pour construire l'infrastructure capable de propulser la prochaine vague d'agents intelligents basés sur le raisonnement a officiellement commencé.