KI-Agent hackte McKinseys interne KI-Plattform in unter zwei Stunden mithilfe einer jahrzehntealten Prompt-Injection-Technik

Der Weckruf: Wenn autonome Agenten sich gegen Unternehmenssysteme wenden

Die jüngste Demonstration von Cybersicherheitsforschern bei CodeWall hat eine beunruhigende Botschaft an den Sektor der Unternehmens-KI gesendet. Ein autonomer offensiver KI-Agent (Autonomous AI Agent) – der ohne menschliches Eingreifen, Anmeldedaten oder vorheriges Insiderwissen agierte – kompromittierte in weniger als zwei Stunden McKinseys interne Plattform für Generative KI (Generative AI), „Lilli“. Während die Tech-Industrie hyperfokussiert auf die existenziellen Risiken von „Killer-Robotern“ oder komplexen Prompt-Injection-Angriffen (Prompt Injection Attacks) war, dient dieser Vorfall als brutale Erinnerung daran, dass die gefährlichsten Bedrohungen für die KI-Infrastruktur oft auf grundlegenden Sicherheitsmängeln beruhen, die seit Jahrzehnten bestehen.

Dieses Ereignis ist nicht nur eine Datenpanne; es ist ein Proof-of-Concept für eine neue Ära der Cyber-Kriegsführung. Während Unternehmen sich beeilen, Generative KI in ihre Arbeitsabläufe zu integrieren, erweitern sie unbeabsichtigt ihre Angriffsflächen und schaffen Umgebungen, in denen autonome Agenten Systeme in Maschinengeschwindigkeit identifizieren, ausnutzen und durchdringen können. Für McKinsey, ein Unternehmen, das auf den Säulen des Datenschutzes und der strategischen Vertraulichkeit aufgebaut ist, verdeutlicht diese Kompromittierung einer internen Plattform – die von über 40.000 Mitarbeitern genutzt wird – die dringende Notwendigkeit eines Paradigmenwechsels bei der Absicherung von Unternehmens-KI.

Die Anatomie einer Sicherheitsverletzung in Maschinengeschwindigkeit

Die Sicherheitsverletzung, die von CodeWall durchgeführt wurde, nutzte einen autonomen Agenten, der darauf ausgelegt ist, Schwachstellen in öffentlich zugänglichen API-Dokumentationen zu identifizieren. Im Gegensatz zu menschlichen Angreifern, die Tage oder Wochen mit der Aufklärung verbringen könnten, agierte der Agent von CodeWall mit der Geschwindigkeit von Rechenprozessen. Innerhalb von 120 Minuten hatte der Agent vollständigen Lese- und Schreibzugriff auf die Produktionsdatenbank erhalten, auf der Lilli basiert.

Wie der autonome Agent operierte

Der Agent verließ sich nicht auf exotische KI-spezifische Exploits. Stattdessen kartierte er systematisch die Infrastruktur und identifizierte offengelegte technische Dokumentationen, die über 200 Endpunkte auflisteten. Von diesen Endpunkten erforderten 22 keine Authentifizierung. Durch das Durchlaufen dieser Endpunkte entdeckte der Agent eine klassische SQL-Injection-Schwachstelle.

Die Wirksamkeit des Agenten wurde durch seine autonome Natur verstärkt. Er war in der Lage:

Automatisierte Aufklärung durchzuführen: Scannen von Hunderten von API-Endpunkten ohne menschliche Ermüdung.
Iterative Exploits auszuführen: Versuch von fünfzehn Blind-SQL-Injection-Variationen, wobei er aus den Fehlermeldungen jedes fehlgeschlagenen Versuchs lernte, bis er den erfolgreichen Vektor fand.
Daten in großem Umfang zu exfiltrieren: Einmal im System, katalogisierte er 46,5 Millionen Chat-Nachrichten, 728,000 interne Dateien und 57.000 Benutzerkonten. Dies demonstrierte, dass der KI-Agent komplexe Datenstrukturen ebenso effektiv wie ein Mensch navigieren konnte, jedoch signifikant schneller.

Die Ironie der „jahrzehntealten“ Sicherheitslücke

Der vielleicht am meisten erschreckende Aspekt des McKinsey-Falls ist der Angriffsvektor selbst: SQL-Injection (SQL Injection). Dies ist eine Schwachstellenklasse, die seit den 1990er Jahren dokumentiert ist. Die Tatsache, dass eine hochmoderne Plattform für Generative KI einer „einfachen“ Web-Schwachstelle zum Opfer fallen konnte, verdeutlicht eine Kluft zwischen der Entwicklung von KI-Fähigkeiten und der Reife der sie umgebenden Sicherheitsinfrastruktur.

Der Vorfall unterstreicht eine entscheidende Lektion für Entwickler: KI-Systeme sind in erster Linie Softwaresysteme. Wenn Entwickler Wrapper um große Sprachmodelle (Large Language Models, LLMs) bauen, um sie mit Datenbanken zu verbinden, erstellen sie effektiv neue Webanwendungen. Wenn die API-Schicht, die das LLM mit der Datenbank verbindet, die Eingaben nicht bereinigt (Sanitization) – wie es bei Lilli der Fall war, wo JSON-Feldnamen direkt in Abfragen injiziert wurden –, werden die fortgeschrittenen Argumentationsfähigkeiten der KI zweitrangig gegenüber den Schwachstellen des Host-Servers.

Vergleich der Schwachstellenlandschaft

Die folgende Tabelle stellt die traditionellen Sicherheitsherausforderungen von Standard-Webanwendungen den eskalierten Risikoprofilen moderner, KI-integrierter Plattformen gegenüber.

Schwachstellentyp	Angriffsmechanismus	Risikostufe für KI-Plattformen
SQL-Injection	Injizieren von bösartigem Code in Datenbankabfragen über nicht validierte Eingaben	Hoch Direkter Zugriff auf RAG-Daten und System-Prompts
Prompt-Injection	Manipulieren von LLM-Anweisungen, um Leitplanken (Guardrails) zu umgehen	Kritisch Kann zu Datenexfiltration oder Ausführung von bösartigem Code führen
Unbefugter API-Zugriff	Ausnutzen nicht authentifizierter Endpunkte in Microservices	Hoch Bietet den Einstiegspunkt für automatisierte Agenten
Modell-Inversion	Rekonstruktion von Trainingsdaten aus Modell-Outputs	Mittel Risiko der Offenlegung sensibler Kundeninformationen

KI-Agenten als neuer Bedrohungsvektor

Obwohl die Sicherheitsverletzung bei McKinsey eine kontrollierte Red-Teaming-Übung war, demonstriert sie eine Zukunft, in der autonome Agenten von böswilligen Akteuren genutzt werden, um Angriffe zu skalieren. Die Fähigkeit eines Agenten, autonom ein Ziel auszuwählen, dessen Dokumentation zu untersuchen, einen schwachen Endpunkt zu identifizieren und einen Exploit-Zyklus auszuführen, ist ein Kraftmultiplikator.

Traditionell könnte sich ein menschlicher Hacker entscheiden, weiterzuziehen, wenn sich ein Ziel als zu widerstandsfähig oder zeitaufwendig erweist. Ein KI-Agent leidet nicht unter solchen Einschränkungen. Er kann kontinuierlich, rund um die Uhr (24/7), an mehreren Zielen gleichzeitig arbeiten, was ihn zu einem unverzichtbaren Werkzeug für die nächste Generation von Cyber-Bedrohungen macht.

Auswirkungen auf die Unternehmenssicherheit

Für Unternehmen ist die Erkenntnis klar: „Schatten-KI“ (Shadow AI) und schnell bereitgestellte interne Tools können zu Haftungsrisiken werden, wenn sie nicht mit denselben strengen Sicherheitsstandards behandelt werden wie zentrale Finanz- oder Kundensysteme.

Red-Teaming ist unerlässlich: Wie CodeWall gezeigt hat, können KI-Agenten eingesetzt werden, um autorisierte Penetrationstests durchzuführen. Unternehmen sollten ihre eigenen defensiven Agenten einsetzen, um ihre Infrastruktur ständig zu sondieren, bevor böswillige Agenten dies tun.
Eingabebereinigung ist immer noch entscheidend: Die KI-Schicht darf kein Schutzschild für schlampigen Backend-Code sein. Sichere Codierungspraktiken – parametrisierte Abfragen, Eingabevalidierung und strikte API-Authentifizierung – sind die erste und effektivste Verteidigungslinie.
Rollenbasierte Zugriffsrechte für KI: Systeme wie Lilli haben oft Zugriff auf riesige Datenmengen. KI-Agenten sollten nach dem Prinzip der „geringsten Privilegien“ (Least Privilege) gesteuert werden, um sicherzustellen, dass ein Angreifer selbst bei einer Kompromittierung der KI nicht auf die gesamte Produktionsdatenbank zugreifen kann.

Ein Weg nach vorne

Der Vorfall bei McKinsey ist kein Zeichen dafür, dass KI von Natur aus unsicher ist, sondern eher, dass die Sicherheitsbranche versucht, mit der Geschwindigkeit der KI-Bereitstellung Schritt zu halten. Da diese Plattformen zum „Nervensystem“ großer Beratungsunternehmen und Konzerne werden, verlagert sich die Verantwortung für deren Absicherung von der IT-Abteilung in die Vorstandsebene.

Die Tatsache, dass McKinsey die Plattform offline nahm und die Schwachstellen innerhalb weniger Stunden behob, ist ein Beweis für die Bedeutung einer robusten, proaktiven Offenlegungspolitik und eines agilen Sicherheitsreaktionsteams. Da KI-Agenten jedoch immer ausgefeilter werden, wird das Zeitfenster für menschliche Reaktionen schrumpfen. Das ultimative Ziel für Unternehmen wird es sein, KI-Plattformen zu entwickeln, die „sicher durch Design“ (secure by design) sind, wobei die Architektur selbst die Art von automatisierter Ausnutzung in Maschinengeschwindigkeit verhindert, die dieses jüngste Ereignis definierte.

Creati.ai verfolgt diese Entwicklungen weiterhin genau. Die Ära der Mensch-gegen-Mensch-Cybersicherheit weicht rasch einer Zukunft von KI-gegen-KI, und für Unternehmen bedeutet dies, dass die defensiven Werkzeuge von gestern nicht mehr ausreichen, um die Geschäftsmodelle von morgen zu sichern.