NVIDIA presenta Vera Rubin POD en GTC 2026: supercomputadora de IA de siete chips con 60 exaflops para la era de la IA agentiva

El amanecer de la era de los agentes: NVIDIA presenta Vera Rubin en el GTC 2026

En el GTC 2026, NVIDIA ha inaugurado oficialmente un nuevo paradigma para la inteligencia artificial, yendo más allá del simple entrenamiento y despliegue de modelos. La compañía presentó la plataforma NVIDIA Vera Rubin, una arquitectura de computación transformadora diseñada explícitamente para potenciar la era de la IA de agentes (Agentic AI). Este lanzamiento marca un alejamiento significativo de los lanzamientos tradicionales de chips independientes, presentando en su lugar un sistema a gran escala totalmente integrado, diseñado para funcionar como una supercomputadora singular y coherente.

El fundador y CEO de NVIDIA, Jensen Huang, declaró que Vera Rubin es un "salto generacional", enfatizando que el punto de inflexión para los agentes autónomos con capacidad de razonamiento ha llegado. A medida que las empresas cambian su enfoque hacia flujos de trabajo complejos —donde los modelos deben ejecutar lógica de múltiples pasos, validar resultados y operar de forma autónoma— la infraestructura subyacente debe evolucionar de componentes discretos a fábricas de IA (AI factories) integrales. La plataforma Vera Rubin es la manifestación de esta visión, integrando siete tipos de chips distintos en una infraestructura cohesiva capaz de ofrecer 60 exaflops de rendimiento computacional.

Arquitectando la fábrica de IA: Siete chips, un sistema

La innovación central de la plataforma Vera Rubin es su filosofía de codiseño extremo. En lugar de optimizar los chips de forma aislada, NVIDIA ha desarrollado un ecosistema de siete chips especializados que operan en sincronización perfecta a través de las capas de red, almacenamiento y computación. Este enfoque tiene como objetivo eliminar los cuellos de botella tradicionales en el movimiento de memoria y la comunicación, que históricamente han afectado a la computación de alto rendimiento (HPC) para la IA a gran escala.

Los siete pilares de la arquitectura de silicio de Vera Rubin incluyen:

Vera CPU: El primer procesador de NVIDIA diseñado específicamente para flujos de trabajo de agentes (agentic workflows) y aprendizaje por refuerzo (reinforcement learning), con 88 núcleos diseñados a medida y memoria LPDDR5X para gestionar la orquestación y el control de la lógica.
Rubin GPU: El motor principal para el entrenamiento y la inferencia, construido en un proceso de 3nm con 336 mil millones de transistores y memoria HBM4 de alto ancho de banda.
Groq 3 LPU (Language Processing Unit): Un acelerador recién integrado, optimizado específicamente para la fase de decodificación (decode) de la inferencia, reduciendo drásticamente la latencia para interacciones complejas de agentes.
NVLink 6 Switch: El tejido de interconexión de alta velocidad que permite que múltiples GPU actúen como un único acelerador unificado.
ConnectX-9 SuperNIC: Ofrece capacidades de red avanzadas para gestionar flujos de datos masivos a escala.
BlueField-4 DPU: Gestiona las tareas de procesamiento de datos, almacenamiento y seguridad para descargar a las unidades de cómputo principales.
Spectrum-6 Ethernet Switch: Proporciona la columna vertebral robusta para la comunicación en todo el clúster dentro de la fábrica de IA.

El poder del POD: Cinco sistemas a escala de rack

En el centro de este anuncio se encuentra el Vera Rubin POD, una configuración masiva de supercomputadora a escala de 40 racks. Al integrar los siete chips mencionados anteriormente en cinco sistemas distintos diseñados a medida a escala de rack, el POD logra un rendimiento y una eficiencia sin precedentes.

Estos cinco sistemas —el rack de GPU NVL72, el rack Groq 3 LPX, el rack Vera CPU, el rack BlueField-4 STX y el rack Spectrum-6 SPX— están diseñados para trabajar en conjunto para soportar los paradigmas modernos de IA de agentes, incluyendo el enrutamiento de mezcla de expertos (Mixture-of-Experts - MoE) y el almacenamiento de memoria de contexto largo.

Sistema de componentes	Función principal	Métrica clave de rendimiento
Vera Rubin NVL72	Motor de entrenamiento e inferencia	72 GPU Rubin con NVLink 6
Vera CPU Rack	RL y orquestación	256 CPU Vera para control de lógica
Groq 3 LPX Rack	Aceleración de decodificación	256 LPU para inferencia de baja latencia
BlueField-4 STX Rack	Almacenamiento de caché de datos/KV	Rendimiento de memoria mejorado
Spectrum-6 SPX Rack	Columna vertebral de red	Sincronización Ethernet de alta velocidad

La escala es asombrosa: una configuración completa de Vera Rubin POD abarca casi 20,000 matrices de NVIDIA, sumando un total de 1.2 cuatrillones de transistores. Esta configuración proporciona 60 exaflops de rendimiento y 10 PB/s de ancho de banda, abordando los pesados requisitos computacionales de los agentes de IA de próxima generación que requieren una validación constante y bucles de iteración.

Redefiniendo la infraestructura para cargas de trabajo de agentes

La transición a la IA de agentes —donde los sistemas deben "razonar" en lugar de simplemente predecir el siguiente token— impone demandas únicas al hardware. Los sistemas de inferencia tradicionales suelen sufrir de alta latencia y costes prohibitivos cuando se escalan al nivel de autonomía requerido para decisiones críticas. La plataforma Vera Rubin de NVIDIA aborda específicamente estos problemas desacoplando las fases de prefill (intensiva en cómputo) y decode (sensible a la latencia) de la inferencia.

Al emparejar la GPU Rubin para las tareas de prefill pesadas con la Groq 3 LPU para la fase de decodificación, NVIDIA afirma que la arquitectura puede ofrecer un rendimiento de inferencia significativamente mayor por megavatio (megawatt). Esta mejora es crítica para las empresas que ejecutan modelos de billones de parámetros, ya que permite un modelo operativo más sostenible.

Además, la Vera CPU juega un papel crucial en las cargas de trabajo "nativas de CPU" (CPU-native), como los entornos de aprendizaje por refuerzo donde los agentes prueban y validan código. Con 1.2 terabytes por segundo de ancho de banda de memoria y compatibilidad total con Arm, la Vera CPU garantiza que las GPU no se queden esperando instrucciones de control, resolviendo eficazmente uno de los cuellos de botella de productividad más comunes en los centros de datos de IA modernos.

Conclusión: Estableciendo el estándar para las fábricas del futuro

A medida que la industria avanza hacia 2026 y más allá, la definición de una "fábrica de IA" se vuelve más clara. Ya no se define por la capacidad de una sola GPU, sino por la eficiencia de toda la pila del sistema. La plataforma NVIDIA Vera Rubin, con su enfoque en el codiseño de todo el sistema, la eficiencia energética y la escalabilidad, establece un nuevo punto de referencia para la infraestructura de IA global.

Para las empresas y los hiperescaladores que aspiran a desplegar agentes autónomos complejos, el mensaje del GTC 2026 es claro: el cuello de botella del hardware se está abordando mediante una integración profunda. A medida que los productos basados en Vera Rubin avanzan hacia la producción a gran escala en la segunda mitad del año, la carrera para construir la infraestructura capaz de potenciar la próxima ola de agentes inteligentes basados en el razonamiento ha comenzado oficialmente.