
기술 부문에 파장을 일으킨 솔직한 공개 발언에서, Google DeepMind CEO 데미스 허사비스(Demis Hassabis)는 전 세계적인 메모리 칩 부족 현상을 현재 인공지능(Artificial Intelligence)의 발전을 저해하는 가장 결정적인 "초크 포인트(choke point, 병목 구간)"로 지목했습니다. 이번 주 초 CNBC와의 인터뷰에서 허사비스는 역사적으로 연산 능력이 주요 제약 요인이었으나, 이제 업계의 초점은 고대역폭 메모리(High-Bandwidth Memory, HBM) 공급망의 심각한 한계로 시급히 옮겨가야 한다고 강조했습니다.
이 경고는 범용 인공지능(Artificial General Intelligence, AGI)을 향한 경쟁이 심화되는 2026년 2월의 중대한 시점에 나왔습니다. Google 자체의 Gemini 2.0 Flash와 같이 생성형 AI(Generative AI) 모델들이 전례 없는 능력을 보여주었지만, 이러한 모델들을 대규모로 배포하는 데 필요한 물리적 인프라는 단단한 천장에 부딪히고 있습니다. 허사비스는 독자적인 텐서 처리 장치(TPU) 인프라로 유리한 위치에 있는 Google조차도 이러한 글로벌 공급망 마찰에서 자유롭지 못하다고 언급했습니다.
업계 내부자들 사이에서 구어체로 "RAMmageddon(RAM마게돈)"이라 불리는 이 위기는 반도체 제조의 구조적 변화에서 비롯되었습니다. AI 가속기는 거대 신경망 학습에 필요한 초고속 데이터 전송 속도를 달성하기 위해 동적 임의 접근 메모리(Dynamic Random-Access Memory, DRAM) 칩을 수직으로 쌓은 특수 메모리인 HBM을 필요로 합니다.
하지만 HBM 생산은 자원 집약적입니다. 업계 데이터에 따르면, 1기가바이트의 HBM을 제조하는 데는 가전제품에 사용되는 표준 DDR5 메모리보다 약 3배 많은 웨이퍼 용량이 필요합니다. TSMC, Samsung, SK Hynix와 같은 파운드리가 하이퍼스케일러(Hyperscalers)의 막대한 수요를 충족하기 위해 생산 라인을 공격적으로 재배치함에 따라, 가용 가능한 전체 메모리 볼륨이 수축되었습니다.
허사비스는 CNBC에 이 제로섬 게임이 소규모 AI 연구소와 스타트업에 거대한 진입 장벽을 형성하고 있다고 설명했습니다. "우리는 시장의 이분화(bifurcation)를 목격하고 있습니다"라고 허사비스는 말했습니다. "혁신 능력은 장기 메모리 공급 계약을 확보하는 능력과 엄격하게 상관관계를 갖게 되었습니다. 이제는 단순히 최고의 알고리즘을 보유하는 것이 문제가 아니라, 이를 실행할 실리콘을 보유하느냐의 문제입니다."
공급 부족은 주요 업체들이 하드웨어 전략을 재고하도록 강요했습니다. Nvidia가 GPU 시장을 계속 지배하고 있지만, 이러한 프로세서에 수반되는 HBM 칩의 희소성으로 인해 리드 타임이 연장되었습니다. Google의 경우, 이 상황은 맞춤형 실리콘에 대한 10년 간의 투자가 타당했음을 입증합니다. 자체 TPU를 설계하고 "베어 메탈(bare metal)"에서 데이터 센터에 이르기까지 전체 스택을 조율함으로써, Google은 제3자 벤더에만 의존하는 경쟁사들에게 영향을 미치는 변동성으로부터 스스로를 어느 정도 보호해 왔습니다.
그럼에도 불구하고 허사비스는 "상업적 압박"이 여전하다고 인정했습니다. 컨텍스트 윈도우와 활성 파라미터를 저장하기 위해 방대한 양의 메모리가 필요한 추론 집약적 모델의 배포는 차세대 프런티어 모델 학습에 필요한 메모리 자원과 실질적으로 경쟁하게 됩니다.
표: 섹터별 메모리 부족(Memory Shortage)의 영향
| 섹터 | 주요 과제 | 전략적 대응 |
|---|---|---|
| 하이퍼스케일러 (Google, Microsoft) | 10억 사용자 앱을 위한 추론 확장 | 수직 계열화; 효율성을 위한 "경량 칩" 개발 |
| AI 스타트업 | HBM 인스턴스의 엄청난 비용 | 소형 언어 모델(Small Language Models, SLMs) 및 증류로 초점 전환 |
| 가전제품 | AI 수요에 의한 공급 대체 | PC/스마트폰 RAM 가격 상승; 제품 주기 지연 |
| 반도체 파운드리 | 용량 할당 충돌 | DDR 라인을 HBM으로 전환; 100% 가동률 |
공급망 물류를 넘어 허사비스는 이러한 하드웨어 제약의 이론적 함의를 언급했습니다. 그는 현재의 AI 시스템을 국제 수학 올림피아드 메달을 딸 수 있으면서도 프롬프트 구성에 따라 초등 논리 퍼즐에는 실패하는 "들쭉날쭉한 지능(Jagged Intelligence)"을 가진 것으로 묘사했습니다.
이 "들쭉날쭉함"을 해결하려면 더 나은 아키텍처뿐만 아니라 사고의 연쇄(chain-of-thought) 추론과 장기 계획과 같은 기법을 촉진하기 위한 훨씬 더 많은 컴퓨팅과 메모리가 필요합니다. "다음 단어를 예측하는 챗봇에서 몇 주 또는 몇 달에 걸쳐 계획을 세우는 에이전트로 이동하려면 메모리가 필요합니다"라고 허사비스는 주장했습니다. "시스템이 활성 상태에서 일관된 세계 모델을 유지해야 합니다. 물리적으로 메모리 대역폭에 제약을 받는다면, 우리는 사실상 이러한 모델의 인지적 깊이를 제한하고 있는 것입니다."
이 하드웨어 병목 현상은 잠재적으로 AGI의 타임라인을 늦출 수 있습니다. 2024년과 2025년의 예측은 2027년까지 인간 수준의 능력에 도달하는 것에 대해 낙관적이었으나, 칩 제조의 물리적 현실이 이 지평을 연장할 수 있습니다. 전문가들 사이의 합의는 새로운 리소그래피 돌파구가 발생하거나 메모리 효율이 급격히 개선되지 않는 한(1-bit LLMs와 같은 기법을 통해), 업계는 진보가 기하급수적이기보다는 선형적인 "연마(grind)" 단계에 직면하게 될 것이라는 점입니다.
이러한 제약에 대응하여 Google DeepMind는 알고리즘 효율성에 박차를 가하고 있습니다. 허사비스는 AI 모델의 추론 단계를 위해 특별히 설계된 프로세서인 "경량 칩(light chips)"의 개발을 강조했습니다. 역전파를 위해 막대한 처리량이 필요한 학습용 칩과 달리, 추론 칩은 낮은 정밀도와 낮은 메모리 대역폭에 최적화될 수 있어 가용한 HBM 공급을 더 효과적으로 활용할 수 있습니다.
또한 DeepMind는 거대한 프런티어 모델이 더 작고 효율적인 모델을 가르치는 프로세스인 "증류(distillation)"를 우선시하고 있습니다. 이를 통해 Google은 연구 및 차세대 Gemini 학습을 위해 남겨둔 프리미엄 하드웨어 예비력을 소모하지 않고도 수십억 명의 사용자에게 유능한 AI 서비스를 배포할 수 있습니다.
이러한 메모리 부족의 충격파는 실리콘 밸리를 훨씬 넘어 느껴지고 있습니다. 보고서에 따르면 제조업체들이 수익성이 낮은 소비자 시장을 떠나 고수익 AI 계약을 쫓으면서 지난 1년 동안 소비자용 메모리 가격이 170% 이상 급등했습니다. 주요 메모리 벤더들이 소비자 중심 브랜드를 단계적으로 폐지할 가능성이 있다는 결정은 이러한 변화를 극명하게 보여주는 지표입니다.
AI 산업에 있어 "초크 포인트"는 현실을 직시하게 합니다. 더 많은 컴퓨팅을 추가하면 자동으로 더 나은 결과가 나오던 무한한 확장 법칙(scaling laws)의 시대가 물리학과 공급망 물류의 한계에 부딪히고 있습니다. 허사비스가 경고하듯, AI 혁명의 다음 단계는 누가 가장 똑똑한 연구원을 보유하고 있느냐가 아니라, 학습한 내용을 기억할 메모리를 누가 확보할 수 있느냐에 의해 정의될 것입니다.
이러한 제약된 환경에서 Google의 수직 계열화 전략은 점점 더 선견지명이 있는 것으로 보입니다. 스택을 소유함으로써 그들은 메모리가 부족한 시장에서 할당량을 받기 위해 업계의 나머지가 앞다투어 경쟁하는 와중에도 자신의 운명을 스스로 통제합니다. 2026년이 진행됨에 따라, 이 "RAMpocalypse"를 헤쳐나가는 능력이 생성형 AI 시대의 승자와 패자를 결정짓게 될 것입니다.