
No GTC 2026, a NVIDIA inaugurou oficialmente um novo paradigma para a inteligência artificial, indo além do simples treinamento e implantação de modelos. A empresa revelou a plataforma NVIDIA Vera Rubin, uma arquitetura de computação transformadora projetada explicitamente para impulsionar a era da IA agêntica (agentic AI). Este lançamento marca um afastamento significativo dos lançamentos tradicionais de chips independentes, apresentando, em vez disso, um sistema de escala massiva totalmente integrado, projetado para funcionar como um supercomputador singular e coerente.
O fundador e CEO da NVIDIA, Jensen Huang, declarou a Vera Rubin um "salto geracional", enfatizando que o ponto de inflexão para agentes autônomos e capazes de raciocínio chegou. À medida que as empresas mudam seu foco para fluxos de trabalho complexos — onde os modelos devem executar lógica de várias etapas, validar resultados e operar de forma autônoma — a infraestrutura subjacente deve evoluir de componentes discretos para fábricas de IA (AI factories) abrangentes. A plataforma Vera Rubin é a manifestação desta visão, integrando sete tipos distintos de chips em uma infraestrutura coesa capaz de entregar 60 exaflops de desempenho computacional.
A principal inovação da plataforma Vera Rubin é sua filosofia extrema de co-design. Em vez de otimizar chips isoladamente, a NVIDIA desenvolveu um ecossistema de sete chips especializados que operam em perfeita sincronização nas camadas de rede, armazenamento e computação. Esta abordagem visa eliminar os gargalos tradicionais no movimento de memória e na comunicação, que historicamente atormentam a computação de alto desempenho (High-Performance Computing - HPC) para IA em larga escala.
Os sete pilares da arquitetura de silício Vera Rubin incluem:
No centro deste anúncio está o Vera Rubin POD, uma configuração massiva de supercomputador em escala de 40 racks. Ao integrar os sete chips acima em cinco sistemas distintos construídos especificamente em escala de rack, o POD alcança uma taxa de transferência e eficiência incomparáveis.
Estes cinco sistemas — o rack de GPU NVL72, o rack Groq 3 LPX, o rack Vera CPU, o rack BlueField-4 STX e o rack Spectrum-6 SPX — são projetados para trabalhar em conjunto para suportar paradigmas modernos de IA agêntica, incluindo roteamento de mistura de especialistas (mixture-of-experts - MoE) e armazenamento de memória de contexto longo.
| Sistema de Componentes | Função Principal | Métrica de Desempenho Chave |
|---|---|---|
| Vera Rubin NVL72 | Motor de Treinamento e Inferência | 72 GPUs Rubin com NVLink 6 |
| Vera CPU Rack | RL e Orquestração | 256 CPUs Vera para controle lógico |
| Groq 3 LPX Rack | Aceleração de Decodificação | 256 LPUs para inferência de baixa latência |
| BlueField-4 STX Rack | Armazenamento de Cache de Dados/KV | Taxa de transferência de memória aprimorada |
| Spectrum-6 SPX Rack | Espinha Dorsal de Rede | Sincronização Ethernet de alta velocidade |
A escala é impressionante: uma configuração completa do Vera Rubin POD abrange quase 20.000 matrizes (dies) da NVIDIA, totalizando 1,2 quatrilhão de transistores. Esta configuração fornece 60 exaflops de desempenho e 10 PB/s de largura de banda, atendendo aos pesados requisitos computacionais dos agentes de IA de próxima geração que exigem ciclos constantes de validação e iteração.
A transição para a IA agêntica — onde os sistemas devem "raciocinar" em vez de apenas prever o próximo token — impõe demandas únicas ao hardware. Os sistemas de inferência tradicionais frequentemente sofrem com alta latência e custos proibitivos ao escalar para o nível de autonomia exigido para decisões críticas. A plataforma Vera Rubin da NVIDIA visa especificamente essas questões ao desacoplar as fases de prefill (intensiva em computação) e decode (sensível à latência) da inferência.
Ao combinar a GPU Rubin para tarefas de prefill pesadas em computação com a LPU Groq 3 para a fase de decode, a NVIDIA afirma que a arquitetura pode entregar uma taxa de transferência de inferência significativamente maior por megawatt. Esta melhoria é crítica para empresas que executam modelos de trilhões de parâmetros, pois permite um modelo operacional mais sustentável.
Além disso, a Vera CPU desempenha um papel crucial em cargas de trabalho "nativas de CPU", como ambientes de aprendizado por reforço onde os agentes testam e validam códigos. Com 1,2 terabytes por segundo de largura de banda de memória e compatibilidade total com Arm, a Vera CPU garante que as GPUs não fiquem esperando por instruções de controle, resolvendo efetivamente um dos gargalos de produtividade mais comuns nos modernos centros de dados de IA.
À medida que a indústria avança para 2026 e além, a definição de uma "fábrica de IA" está se tornando mais clara. Ela não é mais definida pela capacidade de uma única GPU, mas pela eficiência de toda a pilha do sistema. A plataforma NVIDIA Vera Rubin, com seu foco em co-design de todo o sistema, eficiência energética e escalabilidade, estabelece um novo benchmark para a infraestrutura global de IA.
Para empresas e hyperscalers que visam implantar agentes autônomos complexos, a mensagem do GTC 2026 é clara: o gargalo de hardware está sendo abordado por meio de uma integração profunda. À medida que os produtos baseados na Vera Rubin avançam para a produção total na segunda metade do ano, a corrida para construir a infraestrutura capaz de impulsionar a próxima onda de agentes inteligentes e baseados em raciocínio começou oficialmente.