
Lors du GTC 2026, NVIDIA a officiellement instauré un nouveau paradigme pour l'intelligence artificielle, dépassant le simple entraînement et déploiement de modèles. L'entreprise a dévoilé la plateforme NVIDIA Vera Rubin, une architecture informatique transformative explicitement conçue pour propulser l'ère de l'IA agentique (Agentic AI). Ce lancement marque une rupture significative avec les sorties traditionnelles de puces autonomes, présentant à la place un système à grande échelle entièrement intégré, conçu pour fonctionner comme un supercalculateur unique et cohérent.
Le fondateur et PDG de NVIDIA, Jensen Huang, a déclaré que Vera Rubin était un « saut générationnel », soulignant que le point d'inflexion pour les agents autonomes capables de raisonnement est arrivé. Alors que les entreprises déplacent leur attention vers des flux de travail complexes — où les modèles doivent exécuter une logique en plusieurs étapes, valider les résultats et fonctionner de manière autonome — l'infrastructure sous-jacente doit évoluer de composants discrets vers des usines d'IA complètes. La plateforme Vera Rubin est la manifestation de cette vision, intégrant sept types de puces distincts dans une infrastructure cohérente capable de délivrer 60 exaflops de performance de calcul.
L'innovation centrale de la plateforme Vera Rubin est sa philosophie de co-conception extrême. Plutôt que d'optimiser les puces de manière isolée, NVIDIA a développé un écosystème de sept puces spécialisées qui fonctionnent en synchronisation parfaite à travers les couches de réseau, de stockage et de calcul. Cette approche vise à éliminer les goulots d'étranglement traditionnels dans le mouvement de la mémoire et la communication, qui ont historiquement entravé le calcul haute performance (HPC) pour l'IA à grande échelle.
Les sept piliers de l'architecture silicium Vera Rubin comprennent :
Au cœur de cette annonce se trouve le Vera Rubin POD, une configuration massive de supercalculateur à l'échelle de 40 racks. En intégrant les sept puces mentionnées ci-dessus dans cinq systèmes distincts conçus à l'échelle du rack, le POD atteint un débit et une efficacité inégalés.
Ces cinq systèmes — le rack GPU NVL72, le rack Groq 3 LPX, le rack Vera CPU, le rack BlueField-4 STX et le rack Spectrum-6 SPX — sont conçus pour travailler de concert afin de soutenir les paradigmes modernes de l'IA agentique (Agentic AI), y compris le routage par mélange d'experts (Mixture-of-Experts, MoE) et le stockage mémoire à contexte long.
| Système de composants | Fonction principale | Métrique de performance clé |
|---|---|---|
| Vera Rubin NVL72 | Moteur d'entraînement et d'inférence | 72 GPU Rubin avec NVLink 6 |
| Vera CPU Rack | Apprentissage par renforcement et orchestration | 256 processeurs Vera pour le contrôle logique |
| Groq 3 LPX Rack | Accélération du décodage | 256 LPU pour l'inférence à faible latence |
| BlueField-4 STX Rack | Stockage de données/cache KV | Débit mémoire amélioré |
| Spectrum-6 SPX Rack | Dorsale réseau | Synchronisation Ethernet haute vitesse |
L'échelle est vertigineuse : une configuration complète de Vera Rubin POD englobe près de 20 000 puces NVIDIA, totalisant 1,2 quadrillion de transistors. Cette installation offre 60 exaflops de performance et 10 Po/s de bande passante, répondant aux exigences de calcul intensif des agents IA de nouvelle génération qui nécessitent des boucles de validation et d'itération constantes.
La transition vers l'IA agentique — où les systèmes doivent « raisonner » plutôt que de simplement prédire le jeton suivant — impose des demandes uniques au matériel. Les systèmes d'inférence traditionnels souffrent souvent d'une latence élevée et de coûts prohibitifs lorsqu'ils passent à l'échelle de l'autonomie requise pour des décisions critiques. La plateforme Vera Rubin de NVIDIA cible spécifiquement ces problèmes en découplant les phases de pré-remplissage (prefill, intensive en calcul) et de décodage (decode, sensible à la latence) de l'inférence.
En associant le GPU Rubin pour les tâches de pré-remplissage lourdes au LPU Groq 3 pour la phase de décodage, NVIDIA affirme que l'architecture peut fournir un débit d'inférence nettement plus élevé par mégawatt. Cette amélioration est cruciale pour les entreprises exploitant des modèles de mille milliards de paramètres, car elle permet un modèle opérationnel plus durable.
De plus, le Vera CPU joue un rôle crucial dans les charges de travail « CPU-natives », telles que les environnements d'apprentissage par renforcement où les agents testent et valident du code. Avec 1,2 téraoctet par seconde de bande passante mémoire et une compatibilité Arm complète, le processeur Vera garantit que les GPU n'attendent pas les instructions de contrôle, résolvant ainsi l'un des goulots d'étranglement de productivité les plus courants dans les centres de données d'IA modernes.
Alors que l'industrie progresse vers 2026 et au-delà, la définition d'une « usine d'IA » devient plus claire. Elle n'est plus définie par la capacité d'un seul GPU, mais par l'efficacité de l'ensemble de la pile système. La plateforme NVIDIA Vera Rubin, avec son accent sur la co-conception à l'échelle du système, l'efficacité énergétique et l'évolutivité, établit une nouvelle référence pour l'infrastructure mondiale de l'IA.
Pour les entreprises et les fournisseurs de cloud à grande échelle (hyperscalers) visant à déployer des agents autonomes complexes, le message du GTC 2026 est clair : le goulot d'étranglement matériel est résolu grâce à une intégration profonde. Alors que les produits basés sur Vera Rubin s'orientent vers une production complète au second semestre de l'année, la course pour construire l'infrastructure capable de propulser la prochaine vague d'agents intelligents basés sur le raisonnement a officiellement commencé.