
In einer bedeutenden Entwicklung für den Bereich der Sicherheit künstlicher Intelligenz (Artificial Intelligence, AI) haben Forscher der University of Florida (UF) eine neuartige Jailbreaking-Technik entwickelt, die in der Lage ist, die Sicherheitsprotokolle führender großer Sprachmodelle (Large Language Models, LLMs) systematisch zu umgehen, einschließlich jener, die von Branchenriesen wie Meta und Microsoft entwickelt wurden. Die Methode mit dem Namen Head-Masked Nullspace Steering (HMNS) stellt einen Paradigmenwechsel bei der Identifizierung von KI-Schwachstellen dar, indem sie über oberflächliches Prompt-Engineering (Prompt Engineering) hinausgeht, um die interne Entscheidungsarchitektur neuronaler Netze zu untersuchen.
Das Forschungsteam unter der Leitung von Professor Sumit Kumar Jha von der Abteilung für Computer- und Informationswissenschaften sowie Ingenieurwesen (Computer & Information Science & Engineering, CISE) hat seine Ergebnisse in einem Papier mit dem Titel „Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion“ veröffentlicht. Die Arbeit wurde zur Präsentation auf der 2026 International Conference on Learning Representations (ICLR) angenommen, was ihren Status als erstklassiger Beitrag zur Deep-Learning-Forschung (Deep Learning) bestätigt.
Jahrelang beruhte das „Jailbreaking“ eines KI-Modells – also das Überlisten des Modells zur Erzeugung eingeschränkter oder schädlicher Inhalte – stark auf cleveren Wortspielen. Angreifer nutzten „Oma-Exploits“ oder Rollenspielszenarien, um Sicherheitsfilter zu umgehen. Da KI-Anbieter wie OpenAI, Anthropic und Google jedoch ihre Verteidigung gegen diese semantischen Angriffe verstärkt haben, ist die Wirksamkeit herkömmlicher Prompt-Injection (Prompt Injection) gesunken.
Der Ansatz des UF-Teams mit HMNS verzichtet auf die Abhängigkeit von externen linguistischen Tricks zugunsten einer direkten Intervention in den Rechenprozess des Modells. Dem Forschungsbericht zufolge arbeitet HMNS, indem es „unter die Haube“ des LLM schaut. Es identifiziert spezifische Attention-Heads (Aufmerksamkeitsköpfe) – die Komponenten, die für die Verarbeitung von Kontext und Sicherheitsprüfungen verantwortlich sind – und bringt diese effektiv zum Schweigen.
Durch das Ausnullen dieser aktiven Komponenten in der Entscheidungsmatrix des Modells und das „Steuern“ (Steering) der verbleibenden Pfade können die Forscher die KI zwingen, ihr Sicherheitstraining zu ignorieren. Dies ermöglicht es dem Modell, auf Anfragen zu reagieren, die es normalerweise ablehnen würde, wie etwa die Erzeugung von Malware-Code oder die Bereitstellung von Anleitungen für illegale Aktivitäten, ohne die üblichen Verweigerungsmechanismen auszulösen.
Die HMNS-Methode (HMNS method) basiert auf dem Konzept des „Nullraums“ (Nullspace) – ein mathematischer Begriff, der sich auf eine Region bezieht, in der bestimmte Eingaben keine Änderung in der Ausgabe einer spezifischen Funktion (in diesem Fall der Sicherheitsfilter) bewirken. Durch das Steuern der Aktivierungsmuster des Modells in diesen Nullraum relativ zu den Sicherheitsmechanismen macht der Angriff die Schutzmechanismen (Guardrails) für die interne Überwachung des Modells unsichtbar.
Professor Jha beschreibt den Prozess als das Testen der „internen Drähte“ des Systems und nicht nur seiner Benutzeroberfläche. „Man kann so etwas nicht einfach mit Prompts von außen testen und sagen, es sei in Ordnung“, erklärte Jha. „Wir öffnen die Haube, ziehen an den internen Drähten und prüfen, was bricht. So macht man es sicherer. Dafür gibt es keine Abkürzung.“
Die Methodik umfasst drei verschiedene Phasen:
Um die Wirksamkeit von HMNS zu validieren, nutzte das Forschungsteam den HiPerGator-Supercomputer der UF, um massive Stresstests gegen führende kommerzielle und Open-Source-Modelle durchzuführen. Die Hauptziele umfassten Systeme von Meta und Microsoft, die weithin als Modelle mit einigen der robustesten Sicherheitsausrichtungen (Safety Alignments) in der Branche gelten.
Die Ergebnisse waren eindeutig. HMNS erwies sich als bemerkenswert effektiv und übertraf modernste (State-of-the-art, SOTA) Jailbreaking-Methoden in vier etablierten Branchen-Benchmarks. Die Forscher führten eine Metrik für „rechenbewusste Berichterstattung“ (Compute-aware Reporting) ein, um faire Vergleiche zu gewährleisten, was zeigte, dass HMNS nicht nur höhere Erfolgsquoten erzielte, sondern dies auch effizienter tat als bisherige Methoden.
Vergleich der Jailbreaking-Methoden
| Merkmal | Traditionelle Prompt-Injection | HMNS (Head-Masked Nullspace Steering) |
|---|---|---|
| Primärer Angriffsvektor | Externe semantische Manipulation (z. B. Rollenspiel) | Interne Architekturmanipulation (Gewichts-/Aktivierungssteuerung) |
| Zielmechanismus | Eingabefilter und RLHF-Trainingsmuster | Attention-Heads und Entscheidungsmatrizen |
| Resilienz gegen Patching | Niedrig (leicht durch System-Prompt-Updates behebbar) | Hoch (erfordert architektonische Eingriffe oder erneutes Training) |
| Ressourcenbedarf | Niedrig (kann von Standardbenutzern durchgeführt werden) | Hoch (erfordert Zugriff auf Modellinterna/Gradienten) |
| Erfolgsmetrik | Inkonsistent, oft modellspezifisch | Konsistent hoch über mehrere Architekturen hinweg |
Die Fähigkeit von HMNS, Verteidigungsschichten in Meta- und Microsoft-Systemen zu umgehen, verdeutlicht eine kritische Lücke in den aktuellen KI-Sicherheitsstandards. Während diese Plattformen ausgefeilte Sicherheitsschichten zur Filterung von Ein- und Ausgaben integrieren, demonstriert HMNS, dass diese Schichten systematisch umgangen werden können, wenn die internen Verarbeitungspfade zugänglich oder replizierbar sind.
Die Entwicklung von HMNS war eine Gemeinschaftsarbeit akademischer und forschender Institutionen. Neben Professor Sumit Kumar Jha gehören zum Team:
Das Team nutzte die immense Rechenleistung des HiPerGator-Supercomputers und griff auf dessen NVIDIA A100- und H100-GPU-Cluster zurück, um die komplexen Matrixberechnungen durchzuführen, die für die Identifizierung der Nullraum-Vektoren in Echtzeit erforderlich sind. Diese Rechenkapazität war entscheidend für das „Stresstesten“ der Modelle in einem Ausmaß, das potenzielle Angriffe durch hochentwickelte staatliche Akteure imitiert.
Die Veröffentlichung dieser Forschung auf der ICLR 2026 erfolgt zu einem entscheidenden Zeitpunkt. Da KI-Agenten von neuartigen Chat-Schnittstellen zu kritischer Infrastruktur übergehen – etwa bei der Unterstützung der Softwareentwicklung, Finanzanalysen und medizinischen Diagnosen –, sind die Kosten eines Sicherheitsversagens sprunghaft angestiegen.
Die Strategie der „gestaffelten Verteidigung“ (Defense in Depth), die von Cybersicherheitsexperten oft zitiert wird, postuliert, dass mehrere Sicherheitsschichten notwendig sind, um ein System zu schützen. Die Ergebnisse des UF-Teams legen jedoch nahe, dass aktuelle Techniken zur „Ausrichtung“ (Alignment, die Modelle darauf trainieren, schädliche Anfragen abzulehnen) anfällig sein können, wenn die zugrunde liegenden neuronalen Aktivierungen direkt manipuliert werden.
„Indem wir genau zeigen, wie diese Verteidigungen brechen, geben wir KI-Entwicklern die Informationen, die sie benötigen, um Schutzmechanismen zu bauen, die tatsächlich standhalten“, erklärte Jha. „Die öffentliche Freigabe leistungsstarker KI ist nur dann nachhaltig, wenn die Sicherheitsmaßnahmen einer echten Überprüfung standhalten, und im Moment zeigt unsere Arbeit, dass es noch eine Lücke gibt. Wir wollen helfen, diese zu schließen.“
Die Forschung impliziert, dass zukünftige KI-Verteidigungsmechanismen nicht allein auf „Feintuning“ (Fine-tuning) oder „RLHF“ (Reinforcement Learning from Human Feedback) basieren können, um schädliche Ausgaben zu unterdrücken. Stattdessen müssen Entwickler möglicherweise Modelle mit einer intrinsischen Resistenz gegen interne Steuerung entwerfen, potenziell durch die Schaffung „verschränkter“ (entangled) Repräsentationen, bei denen Sicherheitsmerkmale nicht isoliert und maskiert werden können, ohne den allgemeinen Nutzen des Modells zu zerstören.
Obwohl Meta und Microsoft keine spezifischen Kommentare zur HMNS-Schwachstelle abgegeben haben, besteht die standardmäßige Branchenreaktion auf solche „Red Teaming“-Ergebnisse darin, die Angriffsvektoren in zukünftige Trainingsläufe zu integrieren. Indem sie diese Schwachstellen in einem kontrollierten akademischen Rahmen aufzeigen, „impfen“ die UF-Forscher effektiv die nächste Generation von Modellen gegen ähnliche Angriffe.
Die Annahme des Papiers für die ICLR 2026 stellt sicher, dass die Methodik von der globalen KI-Forschungsgemeinschaft genau unter die Lupe genommen und wahrscheinlich weiterentwickelt wird. Da das Wettrüsten zwischen KI-Fähigkeiten und KI-Sicherheit weitergeht, dienen Methoden wie Head-Masked Nullspace Steering als Erinnerung daran, dass mit zunehmender Komplexität der Modelle auch die Methoden zu ihrer Sicherung entsprechend anspruchsvoller werden müssen.
Vorerst steht die Arbeit als Zeugnis für die Notwendigkeit offensiver Sicherheitsforschung. Indem das Team der University of Florida die Matrix bricht, trägt es dazu bei, dass die KI-Infrastruktur der Zukunft auf einem Fundament verifizierbarer Sicherheit aufgebaut wird und nicht nur auf der Illusion davon.