'Claudy Day'-Angriffskette: Trio von Claude-AI-Schwachstellen ermöglicht lautlosen Datendiebstahl über Google Ads

Die „Claudy Day“-Angriffskette: Aufdeckung von Schwachstellen in Anthropics Claude

Eine hochentwickelte, mehrstufige Angriffskette, die auf Benutzer des KI-Assistenten Claude von Anthropic abzielt, wurde von Forschern von Oasis Security ans Licht gebracht. Diese Entdeckung mit dem Namen „Claudy Day“ beleuchtet eine kritische und oft übersehene Komponente der Sicherheit generativer KI (Generative AI): die Integrität des Bereitstellungsmechanismus und die verborgenen Grenzen zwischen Benutzereingaben und Modellanweisungen.

Der Angriff, der eine Kombination aus drei unterschiedlichen Schwachstellen nutzt, ermöglicht es Bedrohungsakteuren, heimlich sensible Daten aus dem Konversationsverlauf eines Benutzers zu exfiltrieren. Bemerkenswerterweise erfordert der Angriff nicht den Einsatz herkömmlicher Malware, Phishing-E-Mails oder verdächtiger Dateidownloads. Stattdessen nutzt er das inhärente Design des Interaktionsflusses der KI-Plattform aus und verwandelt die eigenen Funktionen der KI in eine Exfiltrations-Engine.

Die Anatomie von „Claudy Day“ verstehen

Die Raffinesse – und Gefahr – des „Claudy Day“-Angriffs liegt in seiner Einfachheit. Er kombiniert drei Schwachstellen, die für sich genommen als geringfügig oder „geringfügig belastend“ angesehen werden könnten, zu einer zusammenhängenden Pipeline, die den heimlichen Datendiebstahl erleichtert. Laut dem Forschungsteam von Oasis Security ermöglicht die Angriffspipeline einem Bedrohungsakteur, einen infizierten Link über Google Ads zu verbreiten, der dann versteckte Befehle innerhalb der Claude-Umgebung ausführt.

Das Trio der Schwachstellen

Der Angriff stützt sich auf eine bestimmte Sequenz, um sein Ziel zu erreichen. Jede Komponente spielt eine entscheidende Rolle dabei, sicherzustellen, dass der Benutzer getäuscht, das Modell manipuliert und die Daten erfolgreich exfiltriert werden.

Die folgende Tabelle fasst die drei in der „Claudy Day“-Angriffskette identifizierten Schwachstellen zusammen:

Komponente	Mechanismus	Sicherheitstechnische Auswirkung
Prompt-Injection via URL	Verborgene HTML-Attribute im Parameter `?q=`	Claude führt Anweisungen aus, die für den Benutzer verborgen sind, und setzt das normale Verhalten außer Kraft.
Files-API-Exfiltration	Unbefugte Nutzung der Files-API von Anthropic	Ermöglicht den Datentransfer zu einem vom Angreifer kontrollierten Speicher innerhalb der Sandbox-Umgebung.
Offener Redirect (Open Redirect)	Schwachstelle auf `claude.com/redirect/`	Ermöglicht es Angreifern, bösartige Links als legitimen Datenverkehr zu maskieren und so das Misstrauen der Benutzer zu umgehen.

Schritt-für-Schritt-Ausführung: Wie der Angriff abläuft

Der Lebenszyklus eines „Claudy Day“-Angriffs beginnt lange bevor der Benutzer mit der KI interagiert. Durch die Nutzung einer Schwachstelle für einen offenen Redirect (Open Redirect) auf claude.com können Angreifer URLs erstellen, die den Anschein erwecken, von der legitimen Anthropic-Domäne zu stammen. Diese Fähigkeit ist besonders tödlich, wenn sie mit Suchmaschinenwerbung kombiniert wird; ein Angreifer kann eine Google-Anzeige erstellen, die eine vertrauenswürdige claude.com-URL anzeigt, während sie den Benutzer tatsächlich zu einem infizierten Weiterleitungspunkt führt.

Sobald der Benutzer auf die Anzeige klickt, wird er auf eine speziell gestaltete URL claude.ai/new?q= weitergeleitet. Diese URL enthält einen vorausgefüllten Prompt. Entscheidend ist, dass die Forscher entdeckten, dass die Schnittstelle HTML-Tags, die innerhalb dieser URL-Parameter platziert wurden, nicht bereinigte. Während der Benutzer einen harmlosen, vorausgefüllten Text im Chat-Fenster sieht, erhält und führt das Modell selbst die versteckten Befehle aus, die in den zugrunde liegenden HTML-Attributen eingebettet sind.

Die letzte Phase – die Exfiltration – ist vielleicht die heimtückischste. Da die Claude-Sandbox so konzipiert ist, dass sie ausgehende Verbindungen zu externen Servern blockiert, stellten die Forscher fest, dass ein direkter „Call Home“ zu einem Server des Angreifers fehlschlagen würde. Stattdessen nutzt der Angriff die plattforminterne Files-API aus. Der versteckte Prompt weist Claude an, Konversationsdaten zu sammeln, sie in eine Datei zu schreiben und sie über die Files-API in den Speicher des Angreifers hochzuladen. Der Angreifer ruft die Daten dann nach Belieben ab, während der Benutzer völlig ahnungslos bleibt, dass sein Chatverlauf kompromittiert wurde.

Auswirkungen auf die Sicherheit generativer KI

Die Offenlegung von „Claudy Day“ dient als eindringliche Erinnerung an die sich entwickelnde Angriffsfläche, die agentischer KI (Agentic AI) eigen ist. Da Unternehmen KI-Agenten zunehmend in ihre Arbeitsabläufe integrieren – und ihnen dabei oft Berechtigungen für den Zugriff auf interne Dokumente, Codebasen und APIs von Drittanbietern gewähren – wächst das Potenzial solcher „Low-Tech“-Exploits mit weitreichenden Folgen erheblich.

Überdenken der Vertrauensgrenze des „ersten Prompts“

Eine der tiefgreifendsten Erkenntnisse aus dieser Forschung ist die Fragilität der „ersten Interaktion“. In vielen KI-Implementierungen ist das Modell bereit zu agieren, sobald der Benutzer die Schnittstelle öffnet. Der „Claudy Day“-Angriff verdeutlicht, dass dies eine kritische Sicherheitsgrenze ist. Da der injizierte Prompt gleich zu Beginn einer Sitzung eintrifft, verarbeitet der Agent den Befehl, bevor eine Vertrauensbeziehung aufgebaut wurde oder eine manuelle Benutzerüberprüfung stattfinden kann.

Branchenexperten schlagen vor, dass KI-Plattformen zu einem „Zero-Trust“-Modell für erste Prompts übergehen müssen. Dies würde Folgendes beinhalten:

Explizite Benutzergenehmigung: Die Anforderung an Benutzer, jede Aktion, die Tools, APIs oder den Abruf aus dem Speicher betrifft, manuell zu bestätigen oder zu genehmigen, insbesondere während der ersten Runde eines Gesprächs.
Prompt-Bereinigung (Sanitization): Sicherstellen, dass alle Eingaben – ob aus URL-Parametern, dem Browserverlauf oder externen Integrationen – streng bereinigt werden und dass das Modell nicht in der Lage ist, versteckte, für den Benutzer unsichtbare Anweisungen auszuführen.
Granularität der Zugriffskontrolle: KI-Agenten mit der gleichen sicherheitstechnischen Strenge zu behandeln wie privilegierte Dienstkonten. Dies bedeutet die Anwendung des Prinzips der geringsten Privilegien (Least Privilege), um sicherzustellen, dass selbst wenn ein Agent über eine Prompt-Injection kompromittiert wird, seine Fähigkeit zur Interaktion mit sensiblen APIs (wie einer Files-API) eingeschränkt bleibt.

Ausblick: Stärkung der KI-Verteidigung

Anthropic hat bereits Maßnahmen ergriffen, um die in der „Claudy Day“-Kette identifizierten spezifischen Schwachstellen zu beheben, das Problem der Prompt-Injection behoben und arbeitet an der Behebung der anderen Punkte. Der Vorfall dient jedoch als Wegweiser für die breitere Landschaft der KI-Sicherheit (AI Security).

Für Entwickler und Organisationen, die KI-Agenten einsetzen, ist die Lektion klar: Sicherheit darf kein nachträglicher Gedanke sein. Die Integrität von Prompts muss als Kernsicherheitskontrolle betrachtet werden. Da sich die Branche in Richtung autonomerer Agenten bewegt, die in der Lage sind, komplexe Aufgaben auszuführen, ist das Vertrauen auf das „gute Benehmen“ des Modells eine unzureichende Strategie. Sicherheitsteams müssen die Möglichkeit einkalkulieren, dass der Bereitstellungsmechanismus – die URL, das Suchergebnis, die E-Mail – ein Vektor für Manipulationen ist, und das Berechtigungs-Framework der KI entsprechend gestalten.

Die „Claudy Day“-Forschung unterstreicht, dass zwar die Technologie der generativen KI weiter voranschreitet, die Grundlagen der sicheren Softwareentwicklung jedoch konstant bleiben. Selbst das hochentwickeltste Modell ist nur so sicher wie das System, auf dem es gehostet wird, und die Kanäle, über die die Benutzer darauf zugreifen.