
Em uma revelação franca que gerou repercussões em todo o setor de tecnologia, o CEO da Google DeepMind, Demis Hassabis, identificou a escassez global de chips de memória como o "ponto de estrangulamento" mais crítico que atualmente inibe o avanço da inteligência artificial. Falando à CNBC no início desta semana, Hassabis destacou que, embora o poder computacional tenha sido historicamente a restrição primária, o foco da indústria deve agora mudar urgentemente para as severas limitações na cadeia de suprimentos de memória de alta largura de banda (High-Bandwidth Memory - HBM).
O alerta surge em um momento crucial em fevereiro de 2026, à medida que a corrida em direção à Inteligência Artificial Geral (Artificial General Intelligence - AGI) se intensifica. Embora os modelos de IA generativa (Generative AI) tenham demonstrado capacidades sem precedentes — como o próprio Gemini 2.0 Flash do Google — a infraestrutura física necessária para implantar esses modelos em escala está atingindo um teto rígido. Hassabis observou que mesmo o Google, apesar de sua posição vantajosa com a infraestrutura proprietária de Unidade de Processamento de Tensor (TPU), não está imune a esses atritos na cadeia de suprimentos global.
A crise, coloquialmente apelidada de "RAMmageddon" por especialistas do setor, decorre de uma mudança estrutural na fabricação de semicondutores. Os aceleradores de IA exigem HBM, um tipo especializado de memória que empilha chips de memória de acesso aleatório dinâmico (DRAM) verticalmente para alcançar as velocidades de transferência de dados extremamente rápidas necessárias para treinar redes neurais massivas.
No entanto, a produção de HBM consome muitos recursos. Dados da indústria revelam que a fabricação de um único gigabyte de HBM requer aproximadamente três vezes a capacidade de wafer da memória DDR5 padrão usada em eletrônicos de consumo. À medida que fundições como TSMC, Samsung e SK Hynix realocam agressivamente suas linhas de produção para atender à demanda insaciável dos hyperscalers, o volume total de memória disponível contraiu.
Hassabis explicou à CNBC que este jogo de soma zero cria uma barreira formidável à entrada de laboratórios de pesquisa de IA menores e startups. "Estamos vendo uma bifurcação no mercado", afirmou Hassabis. "A capacidade de inovar está se tornando estritamente correlacionada com a capacidade de garantir contratos de fornecimento de memória de longo prazo. Não se trata mais apenas de ter os melhores algoritmos; trata-se de ter o silício para executá-los."
A escassez forçou os principais players a repensarem suas estratégias de hardware. Enquanto a Nvidia continua a dominar o mercado de GPUs, a escassez dos chips HBM que acompanham esses processadores levou a tempos de espera prolongados. Para o Google, a situação valida seu investimento de uma década em silício personalizado. Ao projetar suas próprias TPUs e orquestrar toda a sua pilha — do "metal puro" ao data center — o Google se isolou de parte da volatilidade que afeta os concorrentes que dependem exclusivamente de fornecedores terceirizados.
No entanto, Hassabis admitiu que a "pressão comercial" permanece. A implantação de modelos com uso intensivo de inferência, que exigem vastas quantidades de memória para armazenar janelas de contexto e parâmetros ativos, compete efetivamente com os recursos de memória necessários para treinar a próxima geração de modelos de fronteira.
Tabela: Impacto da Escassez de Memória em diversos setores
| Setor | Desafio Principal | Resposta Estratégica |
|---|---|---|
| Hyperscalers (Google, Microsoft) | Escalonamento de inferência para apps de bilhões de usuários | Integração vertical; desenvolvimento de "chips leves" para eficiência |
| Startups de IA | Custo proibitivo de instâncias HBM | Mudança de foco para modelos de linguagem pequenos (SLMs) e destilação |
| Eletrônicos de Consumo | Deslocamento de suprimento pela demanda de IA | Aumento de preços para RAM de PCs/Smartphones; ciclos de produtos atrasados |
| Fundições de Semicondutores | Conflitos de alocação de capacidade | Conversão de linhas DDR para HBM; taxas de utilização de 100% |
Além da logística da cadeia de suprimentos, Hassabis abordou as implicações teóricas dessas restrições de hardware. Ele descreveu os sistemas de IA atuais como possuidores de uma "inteligência serrilhada" — capaz de ganhar medalhas na Olimpíada Internacional de Matemática, mas falhando em quebra-cabeças de lógica elementar, dependendo de como o prompt é redigido.
Resolver essa "serrilha" requer não apenas uma arquitetura melhor, mas significativamente mais computação e memória para facilitar técnicas como o raciocínio de cadeia de pensamento (chain-of-thought) e o planejamento de longo prazo. "Para passar de um chatbot que prevê a próxima palavra para um agente que planeja ao longo de semanas ou meses, você precisa de memória", argumentou Hassabis. "Você precisa que o sistema mantenha um modelo de mundo coerente em seu estado ativo. Se estivermos fisicamente restritos na largura de banda da memória, estaremos efetivamente limitando a profundidade cognitiva desses modelos."
Este gargalo de hardware poderia potencialmente atrasar o cronograma para a AGI. Embora as previsões em 2024 e 2025 fossem otimistas quanto ao alcance da capacidade de nível humano até 2027, a realidade física da fabricação de chips pode estender esse horizonte. O consenso entre os especialistas é que, a menos que ocorra um novo avanço na litografia ou que a eficiência da memória melhore radicalmente (através de técnicas como LLMs de 1 bit), a indústria enfrentará uma fase de "moagem" onde o progresso é linear em vez de exponencial.
Em resposta a essas restrições, a Google DeepMind está redobrando os esforços em eficiência algorítmica. Hassabis destacou o desenvolvimento de "chips leves" — processadores especializados projetados especificamente para a fase de inferência de modelos de IA. Ao contrário dos chips de treinamento, que exigem uma taxa de transferência massiva para retropropagação (backpropagation), os chips de inferência podem ser otimizados para menor precisão e menor largura de banda de memória, estendendo efetivamente o suprimento disponível de HBM.
Além disso, a DeepMind está priorizando a "destilação", um processo no qual um modelo de fronteira massivo ensina um modelo menor e mais eficiente. Isso permite que o Google implante serviços de IA capazes para bilhões de usuários sem consumir o nível premium de reservas de hardware, que são salvas para pesquisa e treinamento da próxima iteração do Gemini.
As ondas de choque dessa escassez de memória estão sendo sentidas muito além do Vale do Silício. Relatórios indicam que os preços da memória para o consumidor subiram mais de 170% no último ano, à medida que os fabricantes abandonam o mercado de consumo de baixa margem para buscar contratos de IA de alta margem. A decisão dos principais fornecedores de memória de possivelmente descontinuar marcas focadas no consumidor serve como um indicador nítido dessa mudança.
Para a indústria de IA, o "ponto de estrangulamento" serve como um choque de realidade. A era das leis de escalonamento ilimitadas, onde adicionar mais computação resultava automaticamente em melhores resultados, está colidindo com os limites da física e da logística da cadeia de suprimentos. Como alerta Hassabis, a próxima fase da revolução da IA será definida não apenas por quem tem os pesquisadores mais inteligentes, mas por quem consegue garantir a memória para lembrar o que aprendeu.
Neste ambiente restrito, a estratégia de integração vertical do Google parece cada vez mais visionária. Ao serem donos da pilha completa, eles controlam seu próprio destino, mesmo enquanto o resto da indústria luta por alocação em um mercado faminto por memória. À medida que 2026 avança, a capacidade de navegar neste "RAMpocalypse" provavelmente determinará os vencedores e perdedores da era da IA generativa.