
In einer unverblümten Enthüllung, die Wellen durch den Technologiesektor geschlagen hat, hat der CEO von Google DeepMind, Demis Hassabis, den weltweiten Mangel an Speicherchips als den kritischsten „Engpass“ (Choke Point) identifiziert, der derzeit den Fortschritt der Künstlichen Intelligenz (KI) hemmt. In einem Gespräch mit CNBC Anfang dieser Woche hob Hassabis hervor, dass zwar historisch gesehen die Rechenleistung die primäre Einschränkung war, der Fokus der Branche nun jedoch dringend auf die gravierenden Limitierungen in der Lieferkette für Speicher mit hoher Bandbreite (High-Bandwidth Memory, HBM) verlagert werden muss.
Die Warnung kommt zu einem entscheidenden Zeitpunkt im Februar 2026, während sich das Rennen um Allgemeine Künstliche Intelligenz (Artificial General Intelligence, AGI) intensiviert. Während generative KI-Modelle beispiellose Fähigkeiten demonstriert haben – wie Googles eigenes Gemini 2.0 Flash –, stößt die physische Infrastruktur, die für den flächendeckenden Einsatz dieser Modelle erforderlich ist, an eine harte Grenze. Hassabis merkte an, dass selbst Google trotz seiner vorteilhaften Position mit der eigenen Tensor Processing Unit (TPU)-Infrastruktur nicht immun gegen diese globalen Lieferketten-Reibungen ist.
Die Krise, die von Brancheninsidern umgangssprachlich als „RAMmageddon“ bezeichnet wird, resultiert aus einer strukturellen Verschiebung in der Halbleiterfertigung. KI-Beschleuniger benötigen HBM, eine spezialisierte Art von Speicher, bei der Dynamic Random-Access Memory (DRAM)-Chips vertikal gestapelt werden, um die extrem schnellen Datentransferraten zu erreichen, die für das Training massiver neuronaler Netze erforderlich sind.
Die Produktion von HBM ist jedoch ressourcenintensiv. Branchendaten zeigen, dass die Herstellung eines einzigen Gigabytes HBM etwa das Dreifache der Waferkapazität von Standard-DDR5-Speicher erfordert, der in der Unterhaltungselektronik verwendet wird. Da Foundries wie TSMC, Samsung und SK Hynix ihre Produktionslinien aggressiv umstellen, um die unersättliche Nachfrage der Hyperscaler zu decken, hat sich das Gesamtvolumen des verfügbaren Speichers verringert.
Hassabis erklärte gegenüber CNBC, dass dieses Nullsummenspiel eine gewaltige Eintrittsbarriere für kleinere KI-Forschungslabore und Startups schafft. „Wir sehen eine Bifurkation im Markt“, erklärte Hassabis. „Die Fähigkeit zur Innovation korreliert zunehmend strikt mit der Fähigkeit, langfristige Speicherlieferverträge zu sichern. Es geht nicht mehr nur darum, die besten Algorithmen zu haben; es geht darum, das Silizium zu haben, um sie auszuführen.“
Der Mangel hat die Hauptakteure gezwungen, ihre Hardware-Strategien zu überdenken. Während Nvidia weiterhin den GPU-Markt dominiert, hat die Knappheit der HBM-Chips, die diese Prozessoren begleiten, zu verlängerten Vorlaufzeiten geführt. Für Google bestätigt die Situation seine jahrzehntelange Investition in maßgeschneidertes Silizium. Durch das Design eigener TPUs und die Orchestrierung des gesamten Stacks – vom „Bare Metal“ bis zum Rechenzentrum – hat sich Google von einigen der Volatilitäten isoliert, die Wettbewerber betreffen, die ausschließlich auf Drittanbieter angewiesen sind.
Dennoch gab Hassabis zu, dass der „kommerzielle Druck“ bestehen bleibt. Der Einsatz von inferenzintensiven Modellen, die enorme Mengen an Speicher benötigen, um Kontextfenster und aktive Parameter zu speichern, konkurriert effektiv mit den Speicherressourcen, die für das Training der nächsten Generation von Frontier-Modellen benötigt werden.
Tabelle: Auswirkungen des Speichermangels über Sektoren hinweg
| Sektor | Primäre Herausforderung | Strategische Reaktion |
|---|---|---|
| Hyperscaler (Google, Microsoft) | Skalierung der Inferenz für Apps mit Milliarden Nutzern | Vertikale Integration; Entwicklung von „Light Chips“ für Effizienz |
| KI-Startups | Unerschwingliche Kosten für HBM-Instanzen | Fokusverlagerung auf kleine Sprachmodelle (Small Language Models, SLMs) und Destillation |
| Unterhaltungselektronik | Angebotsverdrängung durch KI-Nachfrage | Steigende Preise für PC/Smartphone-RAM; verzögerte Produktzyklen |
| Halbleiter-Foundries | Konflikte bei der Kapazitätsallokation | Umstellung von DDR-Linien auf HBM; 100 % Auslastungsraten |
Über die Logistik der Lieferkette hinaus ging Hassabis auf die theoretischen Implikationen dieser Hardware-Einschränkungen ein. Er beschrieb aktuelle KI-Systeme als im Besitz einer „gekerbten Intelligenz“ (Jagged Intelligence) – fähig, Goldmedaillen bei der Internationalen Mathematik-Olympiade zu gewinnen, jedoch an elementaren Logikrätseln scheiternd, je nachdem, wie der Prompt formuliert ist.
Um diese „Gekerbtheit“ zu lösen, ist nicht nur eine bessere Architektur erforderlich, sondern signifikant mehr Rechenleistung und Speicher, um Techniken wie Chain-of-Thought-Reasoning und langfristige Planung zu ermöglichen. „Um von einem Chatbot, der das nächste Wort vorhersagt, zu einem Agenten zu gelangen, der über Wochen oder Monate plant, benötigt man Speicher“, argumentierte Hassabis. „Man braucht das System, um ein kohärentes Weltmodell in seinem aktiven Zustand zu halten. Wenn wir physisch durch die Speicherbandbreite begrenzt sind, kappen wir effektiv die kognitive Tiefe dieser Modelle.“
Dieser Hardware-Engpass könnte potenziell den Zeitplan für AGI verzögern. Während Vorhersagen in den Jahren 2024 und 2025 optimistisch waren, bis 2027 menschliches Leistungsniveau zu erreichen, könnte die physische Realität der Chip-Herstellung diesen Horizont erweitern. Der Konsens unter Experten ist, dass die Branche vor einer Phase des „Abarbeitens“ (Grind Phase) steht, in der der Fortschritt eher linear als exponentiell verläuft, sofern nicht ein neuer Durchbruch in der Lithografie erfolgt oder sich die Speichereffizienz radikal verbessert (etwa durch Techniken wie 1-bit LLMs).
Als Reaktion auf diese Einschränkungen verdoppelt Google DeepMind seine Bemühungen um algorithmische Effizienz. Hassabis hob die Entwicklung von „Light Chips“ hervor – spezialisierte Prozessoren, die gezielt für die Inferenzphase von KI-Modellen entwickelt wurden. Im Gegensatz zu Trainingschips, die einen massiven Durchsatz für die Backpropagation erfordern, können Inferenzchips für geringere Präzision und niedrigere Speicherbandbreite optimiert werden, wodurch der verfügbare HBM-Vorrat effektiv weiter gestreckt wird.
Darüber hinaus priorisiert DeepMind die „Destillation“ (Distillation), ein Prozess, bei dem ein massives Frontier-Modell ein kleineres, effizienteres Modell lehrt. Dies ermöglicht es Google, leistungsfähige KI-Dienste für Milliarden von Nutzern bereitzustellen, ohne die erstklassigen Hardware-Reserven zu verbrauchen, die für die Forschung und das Training der nächsten Iteration von Gemini aufgespart werden.
Die Schockwellen dieses Speichermangels sind weit über das Silicon Valley hinaus zu spüren. Berichten zufolge sind die Preise für Verbraucherspeicher im letzten Jahr um über 170 % gestiegen, da Hersteller den margenschwachen Verbrauchermarkt verlassen, um lukrativen KI-Verträgen nachzujagen. Die Entscheidung großer Speicheranbieter, sich potenziell von verbraucherorientierten Marken zu trennen, dient als deutlicher Indikator für diesen Wandel.
Für die KI-Industrie dient der „Engpass“ als Realitätscheck. Die Ära der grenzenlosen Skalierungsgesetze, in der mehr Rechenleistung automatisch bessere Ergebnisse lieferte, kollidiert mit den Grenzen der Physik und der Lieferkettenlogistik. Wie Hassabis warnt, wird die nächste Phase der KI-Revolution nicht nur dadurch definiert, wer die klügsten Forscher hat, sondern auch dadurch, wer sich den Speicher sichern kann, um sich an das zu erinnern, was sie lernen.
In diesem eingeschränkten Umfeld erscheint Googles Strategie der vertikalen Integration zunehmend vorausschauend. Indem sie den Stack besitzen, kontrollieren sie ihr eigenes Schicksal, selbst während der Rest der Branche in einem speicherhungrigen Markt um Allokationen kämpft. Im weiteren Verlauf des Jahres 2026 wird die Fähigkeit, diese „RAMpocalypse“ zu navigieren, wahrscheinlich über die Gewinner und Verlierer der Ära der generativen KI entscheiden.