
GTC 2026에서 NVIDIA는 단순한 모델 학습 및 배포를 넘어 인공지능의 새로운 패러다임을 공식적으로 예고했습니다. 이 회사는 에이전틱 AI(Agentic AI) 시대를 이끌기 위해 특별히 설계된 혁신적인 컴퓨팅 아키텍처인 NVIDIA 베라 루빈(Vera Rubin) 플랫폼을 발표했습니다. 이번 출시는 전통적인 단일 칩 출시와는 확연히 다른 행보로, 하나의 일관된 슈퍼컴퓨터로 작동하도록 설계된 완전 통합형 대규모 시스템을 선보였습니다.
NVIDIA 창립자이자 CEO인 젠슨 황(Jensen Huang)은 베라 루빈을 "세대적 도약"이라고 선언하며, 자율적이고 추론 능력을 갖춘 에이전트의 변곡점이 도래했음을 강조했습니다. 기업들이 모델이 다단계 로직을 실행하고, 결과를 검증하며, 자율적으로 운영되어야 하는 복잡한 워크플로우로 초점을 옮김에 따라, 기반 인프라는 개별 구성 요소에서 포괄적인 AI 팩토리(AI Factory)로 진화해야 합니다. 베라 루빈 플랫폼은 이러한 비전의 실현이며, 7가지의 서로 다른 칩 유형을 60엑사플롭스(exaflops)의 연산 성능을 제공할 수 있는 응집력 있는 인프라로 통합했습니다.
베라 루빈 플랫폼의 핵심 혁신은 극단적인 공동 설계(Co-design) 철학에 있습니다. NVIDIA는 칩을 개별적으로 최적화하는 대신 네트워킹, 스토리지 및 컴퓨팅 레이어 전반에서 완벽하게 동기화되어 작동하는 7개의 특화된 칩 생태계를 개발했습니다. 이 접근 방식은 대규모 AI를 위한 고성능 컴퓨팅(HPC)의 고질적인 문제였던 메모리 이동 및 통신의 병목 현상을 제거하는 것을 목표로 합니다.
베라 루빈 실리콘 아키텍처의 7가지 기둥은 다음과 같습니다:
이번 발표의 중심에는 40개 랙 규모의 거대한 슈퍼컴퓨터 구성인 **베라 루빈 POD(Vera Rubin POD)**가 있습니다. 위의 7가지 칩을 5개의 서로 다른 목적별 랙 규모 시스템으로 통합함으로써, POD는 타의 추종을 불허하는 처리량과 효율성을 달성합니다.
이 5가지 시스템(NVL72 GPU 랙, Groq 3 LPX 랙, Vera CPU 랙, BlueField-4 STX 랙, Spectrum-6 SPX 랙)은 전문가 혼합(Mixture-of-experts, MoE) 라우팅 및 긴 문맥(Long-context) 메모리 스토리지를 포함한 현대적인 에이전틱 AI 패러다임을 지원하기 위해 협력하도록 설계되었습니다.
| 구성 시스템 | 주요 기능 | 핵심 성능 지표 |
|---|---|---|
| Vera Rubin NVL72 | 학습 및 추론 엔진 | NVLink 6가 탑재된 72개의 Rubin GPU |
| Vera CPU Rack | RL 및 오케스트레이션 | 로직 제어를 위한 256개의 Vera CPU |
| Groq 3 LPX Rack | 디코드 가속 | 저지연 추론을 위한 256개의 LPU |
| BlueField-4 STX Rack | 데이터/KV 캐시 스토리지 | 향상된 메모리 처리량 |
| Spectrum-6 SPX Rack | 네트워킹 백본 | 고속 이더넷 동기화 |
그 규모는 압도적입니다. 전체 베라 루빈 POD 구성은 약 20,000개의 NVIDIA 다이(die)를 포함하며, 총 1,200조 개의 트랜지스터에 달합니다. 이 설정은 60엑사플롭스의 성능과 10PB/s의 대역폭을 제공하여, 지속적인 검증과 반복 루프가 필요한 차세대 AI 에이전트의 막대한 컴퓨팅 요구 사항을 해결합니다.
시스템이 단순히 다음 토큰을 예측하는 것이 아니라 "추론"해야 하는 에이전틱 AI로의 전환은 하드웨어에 독특한 요구 사항을 부과합니다. 기존의 추론 시스템은 미션 크리티컬한 의사 결정에 필요한 자율성 수준으로 확장할 때 높은 지연 시간과 막대한 비용 문제로 어려움을 겪는 경우가 많습니다. NVIDIA의 베라 루빈 플랫폼은 추론의 프리필(Prefill, 컴퓨팅 집약적) 단계와 디코드(Decode, 지연 시간에 민감) 단계를 분리함으로써 이러한 문제를 정면으로 겨냥합니다.
NVIDIA는 컴퓨팅 부하가 큰 프리필 작업을 위한 Rubin GPU와 디코드 단계를 위한 Groq 3 LPU를 결합함으로써, 아키텍처가 메가와트당 현저히 높은 추론 처리량을 제공할 수 있다고 주장합니다. 이러한 개선은 조 단위 파라미터 모델을 운영하는 기업에 매우 중요하며, 더욱 지속 가능한 운영 모델을 가능하게 합니다.
또한, Vera CPU는 에이전트가 코드를 테스트하고 검증하는 강화 학습 환경과 같은 "CPU 네이티브" 워크플로우에서 중요한 역할을 합니다. 초당 1.2테라바이트의 메모리 대역폭과 완전한 Arm 호환성을 갖춘 Vera CPU는 GPU가 제어 명령을 기다리며 대기하지 않도록 보장하여, 현대 AI 데이터 센터에서 가장 흔한 생산성 병목 현상 중 하나를 효과적으로 해결합니다.
업계가 2026년 이후로 나아감에 따라 "AI 팩토리"의 정의는 더욱 명확해지고 있습니다. 이는 더 이상 단일 GPU의 성능으로 정의되는 것이 아니라 전체 시스템 스택의 효율성에 의해 정의됩니다. 시스템 전반의 공동 설계, 에너지 효율성 및 확장성에 초점을 맞춘 NVIDIA 베라 루빈(Vera Rubin) 플랫폼은 글로벌 AI 인프라의 새로운 기준을 제시합니다.
복잡한 자율 에이전트를 배포하려는 기업과 하이퍼스케일러에게 GTC 2026에서의 메시지는 명확합니다. 하드웨어 병목 현상은 심층 통합을 통해 해결되고 있다는 것입니다. 베라 루빈 기반 제품이 하반기에 본격적인 생산에 들어감에 따라, 차세대 지능형 추론 기반 에이전트를 구동할 수 있는 인프라 구축 경쟁이 공식적으로 시작되었습니다.