
在一次引发科技界震动的坦诚披露中,Google DeepMind 执行长 Demis Hassabis 指出,全球内存芯片(Memory chips)短缺是目前阻碍人工智能发展的唯一最关键「瓶颈」。Hassabis 在本周早些时候接受 CNBC 采访时强调,虽然计算能力在历史上一直是主要限制因素,但行业的关注点现在必须紧急转向高带宽内存(High-Bandwidth Memory,HBM)供应链的严重局限。
这一警告出现在 2026 年 2 月的关键时刻,此时通往 通用人工智能(Artificial General Intelligence) (AGI) 的竞赛正日益白热化。虽然生成式 AI(Generative AI)模型已经展示了前所未有的能力——例如 Google 自家的 Gemini 2.0 Flash——但大规模部署这些模型所需的物理基础设施正面临硬性天花板。Hassabis 指出,即便 Google 拥有自有的张量处理单元(Tensor Processing Unit,TPU)基础设施这一优势地位,也无法免受这些全球供应链摩擦的影响。
这场被行业内部人士戏称为「内存大劫难」(RAMmageddon)的危机,源于半导体制造的结构性转变。AI 加速器需要 HBM,这是一种特殊的内存类型,通过垂直堆叠动态随机存取内存(Dynamic Random-Access Memory,DRAM)芯片,以实现训练大型神经网络所需的极快数据传输速度。
然而,生产 HBM 是资源密集型的。行业数据显示,制造 1GB 的 HBM 所需的晶圆产能大约是消费级电子产品中使用的标准 DDR5 内存的三倍。随着 TSMC、Samsung 和 SK Hynix 等代工厂积极重新分配生产线以满足超大规模厂商(Hyperscalers)永无止境的需求,可用内存的总量已经收缩。
Hassabis 向 CNBC 解释说,这种零和博弈为较小的 AI 研究实验室和初创公司制造了巨大的准入门槛。「我们正看到市场的两极分化,」Hassabis 表示,「创新能力正变得与锁定长期内存供应合同的能力严格相关。这不再仅仅关乎拥有最好的算法,而是关乎拥有运行这些算法的硅片。」
短缺已迫使主要参与者重新思考其硬体策略。虽然 Nvidia 继续主导 GPU 市场,但随附这些处理器的 HBM 芯片稀缺导致了交货周期延长。对于 Google 而言,这种情况印证了其在定制化硅片领域长达十年的投资价值。通过设计自有的 TPU 并编排整个技术栈——从「裸机」到数据中心——Google 已经让自己在一定程度上免受了影响那些完全依赖第三方供应商的竞争对手的波动。
尽管如此,Hassabis 承认「商业压力」依然存在。部署推理重型(Inference-heavy)模型需要大量内存来存储上下文窗口和活动参数,这实际上是在与训练下一代前沿模型所需的内存资源竞争。
表格:内存短缺(Memory Shortage)跨部门影响
| 部门 | 主要挑战 | 战略应对 |
|---|---|---|
| 超大规模厂商 (Google, Microsoft) | 为数十亿用户应用扩充推理规模 | 垂直整合;开发「轻量化芯片(light chips)」以提高效率 |
| AI 初创公司 | HBM 实例成本过高 | 将重点转向小型语言模型(Small Language Models,SLMs)和蒸馏(distillation) |
| 消费电子产品 | AI 需求导致的供应置换 | 个人电脑/智能手机 RAM 价格上涨;产品周期延迟 |
| 半导体代工厂 | 产能分配冲突 | 将 DDR 生产线转换为 HBM;100% 利用率 |
除了供应链物流,Hassabis 还谈到了这些硬体限制的理论含义。他将当前的 AI 系统描述为拥有「参差不齐的智能」——能够赢得国际数学奥林匹克(IMO)奖牌,却在一些取决于提示词表述方式的基础逻辑谜题上失败。
解决这种「参差不齐性」不仅需要更好的架构,还需要显著更多的计算和内存,以促进思维链推理(Chain-of-thought reasoning)和长期规划等技术。「要从一个预测下一个词的聊天机器人转变为一个能规划数周或数月的代理,你需要内存,」Hassabis 争辩道,「你需要系统在其活动状态下保持一个连贯的世界模型。如果我们物理上受限于内存带宽,我们实际上是在限制这些模型的认知深度。」
这种硬体瓶颈可能会推迟 AGI 的实现时间表。虽然 2024 年和 2025 年的预测乐观地认为能在 2027 年达到人类水平的能力,但芯片制造的物理现实可能会延长这一预期。专家的共识是,除非出现新的光刻技术突破或内存效率发生根本性提高(通过 1-bit LLMs 等技术),否则行业将面临一个进展呈线性而非指数级的「磨合」阶段。
针对这些限制,Google DeepMind 正在加倍投入算法效率。Hassabis 强调了「轻量化芯片」的开发——这是专门为 AI 模型推理阶段设计的专用处理器。与需要巨大吞吐量进行反向传播的训练芯片不同,推理芯片可以针对较低精度和较低内存带宽进行优化,从而有效延长 HBM 的可用供应。
此外,DeepMind 正在优先考虑「蒸馏」,即由一个巨大的前沿模型教导一个更小、更高效的模型的过程。这使得 Google 能够向数十亿用户部署能力强大的 AI 服务,而无需消耗预留给研究和训练下一代 Gemini 的顶级硬体储备。
这场内存短缺的冲击波远不止于硅谷。报告显示,随着制造商退出低利润的消费者市场以追逐高利润的 AI 合同,过去一年消费者内存价格飙升了 170% 以上。主要内存供应商可能关停以消费者为中心的品牌的决定,是这一转变的鲜明指标。
对于 AI 行业来说,这个「瓶颈」是一次现实检验。无限扩充定律(Scaling laws)——即增加更多计算量就会自动产生更好结果的时代——正与物理极限和供应链物流发生碰撞。正如 Hassabis 警告的那样,AI 革命的下一阶段将不仅由谁拥有最聪明的学者来定义,还将由谁能获得内存来记住他们所学到的知识来定义。
在这种受限的环境下,Google 的垂直整合策略显得越来越有先见之明。通过掌握整个技术栈,即使行业其他成员在内存匮乏的市场中争夺配额,他们也能控制自己的命运。随着 2026 年的推进,应对这场「内存末日」的能力很可能将决定生成式 AI 时代的赢家和输家。