
En el GTC 2026, NVIDIA ha inaugurado oficialmente un nuevo paradigma para la inteligencia artificial, yendo más allá del simple entrenamiento y despliegue de modelos. La compañía presentó la plataforma NVIDIA Vera Rubin, una arquitectura de computación transformadora diseñada explícitamente para potenciar la era de la IA de agentes (Agentic AI). Este lanzamiento marca un alejamiento significativo de los lanzamientos tradicionales de chips independientes, presentando en su lugar un sistema a gran escala totalmente integrado, diseñado para funcionar como una supercomputadora singular y coherente.
El fundador y CEO de NVIDIA, Jensen Huang, declaró que Vera Rubin es un "salto generacional", enfatizando que el punto de inflexión para los agentes autónomos con capacidad de razonamiento ha llegado. A medida que las empresas cambian su enfoque hacia flujos de trabajo complejos —donde los modelos deben ejecutar lógica de múltiples pasos, validar resultados y operar de forma autónoma— la infraestructura subyacente debe evolucionar de componentes discretos a fábricas de IA (AI factories) integrales. La plataforma Vera Rubin es la manifestación de esta visión, integrando siete tipos de chips distintos en una infraestructura cohesiva capaz de ofrecer 60 exaflops de rendimiento computacional.
La innovación central de la plataforma Vera Rubin es su filosofía de codiseño extremo. En lugar de optimizar los chips de forma aislada, NVIDIA ha desarrollado un ecosistema de siete chips especializados que operan en sincronización perfecta a través de las capas de red, almacenamiento y computación. Este enfoque tiene como objetivo eliminar los cuellos de botella tradicionales en el movimiento de memoria y la comunicación, que históricamente han afectado a la computación de alto rendimiento (HPC) para la IA a gran escala.
Los siete pilares de la arquitectura de silicio de Vera Rubin incluyen:
En el centro de este anuncio se encuentra el Vera Rubin POD, una configuración masiva de supercomputadora a escala de 40 racks. Al integrar los siete chips mencionados anteriormente en cinco sistemas distintos diseñados a medida a escala de rack, el POD logra un rendimiento y una eficiencia sin precedentes.
Estos cinco sistemas —el rack de GPU NVL72, el rack Groq 3 LPX, el rack Vera CPU, el rack BlueField-4 STX y el rack Spectrum-6 SPX— están diseñados para trabajar en conjunto para soportar los paradigmas modernos de IA de agentes, incluyendo el enrutamiento de mezcla de expertos (Mixture-of-Experts - MoE) y el almacenamiento de memoria de contexto largo.
| Sistema de componentes | Función principal | Métrica clave de rendimiento |
|---|---|---|
| Vera Rubin NVL72 | Motor de entrenamiento e inferencia | 72 GPU Rubin con NVLink 6 |
| Vera CPU Rack | RL y orquestación | 256 CPU Vera para control de lógica |
| Groq 3 LPX Rack | Aceleración de decodificación | 256 LPU para inferencia de baja latencia |
| BlueField-4 STX Rack | Almacenamiento de caché de datos/KV | Rendimiento de memoria mejorado |
| Spectrum-6 SPX Rack | Columna vertebral de red | Sincronización Ethernet de alta velocidad |
La escala es asombrosa: una configuración completa de Vera Rubin POD abarca casi 20,000 matrices de NVIDIA, sumando un total de 1.2 cuatrillones de transistores. Esta configuración proporciona 60 exaflops de rendimiento y 10 PB/s de ancho de banda, abordando los pesados requisitos computacionales de los agentes de IA de próxima generación que requieren una validación constante y bucles de iteración.
La transición a la IA de agentes —donde los sistemas deben "razonar" en lugar de simplemente predecir el siguiente token— impone demandas únicas al hardware. Los sistemas de inferencia tradicionales suelen sufrir de alta latencia y costes prohibitivos cuando se escalan al nivel de autonomía requerido para decisiones críticas. La plataforma Vera Rubin de NVIDIA aborda específicamente estos problemas desacoplando las fases de prefill (intensiva en cómputo) y decode (sensible a la latencia) de la inferencia.
Al emparejar la GPU Rubin para las tareas de prefill pesadas con la Groq 3 LPU para la fase de decodificación, NVIDIA afirma que la arquitectura puede ofrecer un rendimiento de inferencia significativamente mayor por megavatio (megawatt). Esta mejora es crítica para las empresas que ejecutan modelos de billones de parámetros, ya que permite un modelo operativo más sostenible.
Además, la Vera CPU juega un papel crucial en las cargas de trabajo "nativas de CPU" (CPU-native), como los entornos de aprendizaje por refuerzo donde los agentes prueban y validan código. Con 1.2 terabytes por segundo de ancho de banda de memoria y compatibilidad total con Arm, la Vera CPU garantiza que las GPU no se queden esperando instrucciones de control, resolviendo eficazmente uno de los cuellos de botella de productividad más comunes en los centros de datos de IA modernos.
A medida que la industria avanza hacia 2026 y más allá, la definición de una "fábrica de IA" se vuelve más clara. Ya no se define por la capacidad de una sola GPU, sino por la eficiencia de toda la pila del sistema. La plataforma NVIDIA Vera Rubin, con su enfoque en el codiseño de todo el sistema, la eficiencia energética y la escalabilidad, establece un nuevo punto de referencia para la infraestructura de IA global.
Para las empresas y los hiperescaladores que aspiran a desplegar agentes autónomos complejos, el mensaje del GTC 2026 es claro: el cuello de botella del hardware se está abordando mediante una integración profunda. A medida que los productos basados en Vera Rubin avanzan hacia la producción a gran escala en la segunda mitad del año, la carrera para construir la infraestructura capaz de potenciar la próxima ola de agentes inteligentes basados en el razonamiento ha comenzado oficialmente.