NVIDIA revela Vera Rubin POD na GTC 2026: supercomputador de IA com sete chips e 60 exaflops para a era da IA agente

O Amanhecer da Era Agêntica (Agentic Era): NVIDIA revela Vera Rubin no GTC 2026

No GTC 2026, a NVIDIA inaugurou oficialmente um novo paradigma para a inteligência artificial, indo além do simples treinamento e implantação de modelos. A empresa revelou a plataforma NVIDIA Vera Rubin, uma arquitetura de computação transformadora projetada explicitamente para impulsionar a era da IA agêntica (agentic AI). Este lançamento marca um afastamento significativo dos lançamentos tradicionais de chips independentes, apresentando, em vez disso, um sistema de escala massiva totalmente integrado, projetado para funcionar como um supercomputador singular e coerente.

O fundador e CEO da NVIDIA, Jensen Huang, declarou a Vera Rubin um "salto geracional", enfatizando que o ponto de inflexão para agentes autônomos e capazes de raciocínio chegou. À medida que as empresas mudam seu foco para fluxos de trabalho complexos — onde os modelos devem executar lógica de várias etapas, validar resultados e operar de forma autônoma — a infraestrutura subjacente deve evoluir de componentes discretos para fábricas de IA (AI factories) abrangentes. A plataforma Vera Rubin é a manifestação desta visão, integrando sete tipos distintos de chips em uma infraestrutura coesa capaz de entregar 60 exaflops de desempenho computacional.

Arquitetando a Fábrica de IA: Sete Chips, Um Sistema

A principal inovação da plataforma Vera Rubin é sua filosofia extrema de co-design. Em vez de otimizar chips isoladamente, a NVIDIA desenvolveu um ecossistema de sete chips especializados que operam em perfeita sincronização nas camadas de rede, armazenamento e computação. Esta abordagem visa eliminar os gargalos tradicionais no movimento de memória e na comunicação, que historicamente atormentam a computação de alto desempenho (High-Performance Computing - HPC) para IA em larga escala.

Os sete pilares da arquitetura de silício Vera Rubin incluem:

Vera CPU: O primeiro processador NVIDIA construído especificamente para fluxos de trabalho agênticos e aprendizado por reforço (reinforcement learning), apresentando 88 núcleos projetados sob medida e memória LPDDR5X para lidar com orquestração e controle lógico.
Rubin GPU: O principal cavalo de batalha para treinamento e inferência, construído em um processo de 3nm com 336 bilhões de transistores e memória HBM4 de alta largura de banda.
Groq 3 LPU (Language Processing Unit): Um acelerador recém-integrado, otimizado especificamente para a fase de decodificação (decode) da inferência, reduzindo drasticamente a latência para interações agênticas complexas.
NVLink 6 Switch: O tecido de interconexão de alta velocidade que permite que várias GPUs atuem como um acelerador único e unificado.
ConnectX-9 SuperNIC: Oferecendo recursos avançados de rede para lidar com fluxos de dados massivos em escala.
BlueField-4 DPU: Gerenciando tarefas de processamento de dados, armazenamento e segurança para aliviar as unidades de computação principais.
Spectrum-6 Ethernet Switch: Fornecendo a espinha dorsal robusta para a comunicação em todo o cluster dentro da fábrica de IA.

O Poder do POD: Cinco Sistemas em Escala de Rack

No centro deste anúncio está o Vera Rubin POD, uma configuração massiva de supercomputador em escala de 40 racks. Ao integrar os sete chips acima em cinco sistemas distintos construídos especificamente em escala de rack, o POD alcança uma taxa de transferência e eficiência incomparáveis.

Estes cinco sistemas — o rack de GPU NVL72, o rack Groq 3 LPX, o rack Vera CPU, o rack BlueField-4 STX e o rack Spectrum-6 SPX — são projetados para trabalhar em conjunto para suportar paradigmas modernos de IA agêntica, incluindo roteamento de mistura de especialistas (mixture-of-experts - MoE) e armazenamento de memória de contexto longo.

Sistema de Componentes	Função Principal	Métrica de Desempenho Chave
Vera Rubin NVL72	Motor de Treinamento e Inferência	72 GPUs Rubin com NVLink 6
Vera CPU Rack	RL e Orquestração	256 CPUs Vera para controle lógico
Groq 3 LPX Rack	Aceleração de Decodificação	256 LPUs para inferência de baixa latência
BlueField-4 STX Rack	Armazenamento de Cache de Dados/KV	Taxa de transferência de memória aprimorada
Spectrum-6 SPX Rack	Espinha Dorsal de Rede	Sincronização Ethernet de alta velocidade

A escala é impressionante: uma configuração completa do Vera Rubin POD abrange quase 20.000 matrizes (dies) da NVIDIA, totalizando 1,2 quatrilhão de transistores. Esta configuração fornece 60 exaflops de desempenho e 10 PB/s de largura de banda, atendendo aos pesados requisitos computacionais dos agentes de IA de próxima geração que exigem ciclos constantes de validação e iteração.

Redefinindo a Infraestrutura para Cargas de Trabalho Agênticas

A transição para a IA agêntica — onde os sistemas devem "raciocinar" em vez de apenas prever o próximo token — impõe demandas únicas ao hardware. Os sistemas de inferência tradicionais frequentemente sofrem com alta latência e custos proibitivos ao escalar para o nível de autonomia exigido para decisões críticas. A plataforma Vera Rubin da NVIDIA visa especificamente essas questões ao desacoplar as fases de prefill (intensiva em computação) e decode (sensível à latência) da inferência.

Ao combinar a GPU Rubin para tarefas de prefill pesadas em computação com a LPU Groq 3 para a fase de decode, a NVIDIA afirma que a arquitetura pode entregar uma taxa de transferência de inferência significativamente maior por megawatt. Esta melhoria é crítica para empresas que executam modelos de trilhões de parâmetros, pois permite um modelo operacional mais sustentável.

Além disso, a Vera CPU desempenha um papel crucial em cargas de trabalho "nativas de CPU", como ambientes de aprendizado por reforço onde os agentes testam e validam códigos. Com 1,2 terabytes por segundo de largura de banda de memória e compatibilidade total com Arm, a Vera CPU garante que as GPUs não fiquem esperando por instruções de controle, resolvendo efetivamente um dos gargalos de produtividade mais comuns nos modernos centros de dados de IA.

Conclusão: Estabelecendo o Padrão para as Fábricas do Futuro

À medida que a indústria avança para 2026 e além, a definição de uma "fábrica de IA" está se tornando mais clara. Ela não é mais definida pela capacidade de uma única GPU, mas pela eficiência de toda a pilha do sistema. A plataforma NVIDIA Vera Rubin, com seu foco em co-design de todo o sistema, eficiência energética e escalabilidade, estabelece um novo benchmark para a infraestrutura global de IA.

Para empresas e hyperscalers que visam implantar agentes autônomos complexos, a mensagem do GTC 2026 é clara: o gargalo de hardware está sendo abordado por meio de uma integração profunda. À medida que os produtos baseados na Vera Rubin avançam para a produção total na segunda metade do ano, a corrida para construir a infraestrutura capaz de impulsionar a próxima onda de agentes inteligentes e baseados em raciocínio começou oficialmente.