Anthropic beschuldigt chinesische KI-Labore, Claude durch Distillationsangriffe auszubeuten

Anthropic deckt massiven Destillations-Ring unter Beteiligung führender chinesischer KI-Labore auf

In einer signifikanten Eskalation des laufenden Wettrüstens im Bereich der Künstlichen Intelligenz (KI) hat Anthropic drei prominente chinesische KI-Labore — DeepSeek, Moonshot AI und MiniMax — öffentlich beschuldigt, eine systematische Kampagne im industriellen Maßstab durchgeführt zu haben, um Fähigkeiten aus seinen Claude-Modellen zu extrahieren. Die Vorwürfe, die in einem neuen am Montag veröffentlichten Sicherheitsbericht detailliert dargelegt werden, skizzieren, wie diese Organisationen mutmaßlich Tausende von betrügerischen Konten nutzten, um Claudes fortgeschrittene Argumentations- und Programmierfähigkeiten in ihre eigenen proprietären Modelle zu „destillieren“ (distill).

Diese Enthüllung erfolgt zu einem kritischen Zeitpunkt für die globale KI-Industrie und fällt mit intensivierten Debatten in Washington über die Wirksamkeit von Halbleiter-Exportkontrollen zusammen. Während US-Politiker darum ringen, Chinas Zugang zu modernster Hardware zu begrenzen, deuten die Ergebnisse von Anthropic darauf hin, dass der Diebstahl geistigen Eigentums durch Modelldestillation (Model Distillation) zu einem primären Weg für Wettbewerber geworden ist, um Hardware-Beschränkungen zu umgehen und die Fähigkeitslücke zu schließen.

Das Ausmaß der „Destillations“-Operation

Laut Anthropics Untersuchung umfasste die koordinierte Bemühung die Generierung von über 16 Millionen Interaktionen mit Claude-Modellen durch ein ausgeklügeltes Netzwerk von etwa 24.000 betrügerischen Konten. Diese Konten, die angeblich über kommerzielle Proxy-Dienste verwaltet wurden, um ihre Herkunft zu verschleiern, wurden verwendet, um Claude systematisch abzufragen und seine Ausgaben aufzuzeichnen, um kleinere, heimische Modelle zu trainieren — ein Prozess, der im maschinellen Lernen als Destillation (Distillation) bekannt ist.

Während die Destillation eine legitime Technik ist, die von Entwicklern verwendet wird, um ihre eigenen großen Modelle in effizientere Versionen zu komprimieren, verstößt das Extrahieren von Daten aus dem Modell eines Wettbewerbers ohne Genehmigung gegen die Nutzungsbedingungen und stellt einen Diebstahl geistigen Eigentums dar. Die Daten von Anthropic deuten darauf hin, dass die Operation kein zufälliges Experiment war, sondern eine hochgradig organisierte Extraktion wertvoller kognitiver Verhaltensweisen.

Das Ausmaß des Angriffs variierte erheblich zwischen den beschuldigten Institutionen, wobei MiniMax als der aggressivste Akteur erschien. Die folgende Aufschlüsselung veranschaulicht den Umfang der mutmaßlichen Aktivitäten:

Tabelle: Aufschlüsselung der mutmaßlichen Destillations-Aktivitäten nach Labor

Name des Labors	Geschätzte Interaktionen	Primäre Zielfähigkeiten
MiniMax	~13 Millionen	Agentische Programmierung, Tool-Orchestrierung und komplexe Argumentationssequenzen
Moonshot AI	~3,4 Millionen	Agentisches Denken, Datenanalyse und Computer-Vision-Aufgaben
DeepSeek	>150.000	Grundlegende Logik, Alignment-Protokolle und richtliniensensible Abfragen

Anatomie eines KI-Raubzugs

Die von Anthropic beschriebene Methodik offenbart ein ausgefeiltes Verständnis von Trainings-Pipelines für Große Sprachmodelle (Large Language Models, LLM). Die Angreifer stellten nicht bloß zufällige Fragen; sie zielten auf spezifische Lehrer-Verhaltensweisen (Teacher Model) ab, die schwer und teuer von Grund auf zu replizieren sind.

MiniMax, das als der größte Verursacher identifiziert wurde, leitete Berichten zufolge fast die Hälfte seines eigenen Datenverkehrs innerhalb von 24 Stunden nach der Veröffentlichung eines neuen Modells an Claude um, wodurch die Infrastruktur von Anthropic effektiv genutzt wurde, um die Fähigkeiten des eigenen Systems anzukurbeln. Durch das Einspeisen von Benutzer-Prompts in Claude und die Nutzung der qualitativ hochwertigen Antworten zum Trainieren eigener Modelle könnten diese Labore theoretisch nahezu Gleichstand mit hochmodernen US-Modellen erreichen, während sie nur einen Bruchteil der Rechenressourcen aufwenden.

Im Bericht identifizierte Haupttaktiken umfassen:

Chain-of-Thought-Elicitation (Gedankenkettenerzeugung): Claude dazu auffordern, „seinen Rechenweg zu zeigen“ oder seine Argumentationsschritte zu erklären, wodurch reichhaltige Trainingsdaten generiert werden, die Studenten-Modellen (Student Models) beibringen, wie man denkt, und nicht nur, was man antwortet.
Verschleierung durch Proxy-Netzwerke: Nutzung dezentraler privater Proxy-Netzwerke zur Verteilung von Anfragen, sodass der Datenverkehr so erscheint, als käme er von Tausenden unterschiedlichen, legitimen Benutzern.
Gezieltes Entfernen von Schutzplanken (Guardrail Stripping): Spezifisches Abfragen sensibler Themen, um zu verstehen, wie Claude Sicherheitsanfragen ablehnt oder handhabt, potenziell um Modelle zu trainieren, die ähnliche Einschränkungen umgehen.

Die Dimension der nationalen Sicherheit: Entfernte Sicherheitsvorkehrungen

Jenseits der kommerziellen Auswirkungen des Diebstahls geistigen Eigentums hob Anthropic ein schwerwiegendes Sicherheitsrisiko hervor: das Entfernen von Sicherheitsvorkehrungen. US-Frontier-Modelle wie Claude werden einem strengen Training der verfassungsbasierten KI (Constitutional AI) unterzogen, um zu verhindern, dass sie bei der Erstellung von Biowaffen, Cyberangriffen oder Desinformationskampagnen helfen.

Wenn ein Modell illegal destilliert wird, lernt das Studenten-Modell oft die Fähigkeiten des Lehrers, ohne dessen Sicherheitshemmungen zu übernehmen. Anthropic warnt davor, dass diese „entfesselten“ Klone ein einzigartiges Proliferationsrisiko darstellen. Wenn ein destilliertes Modell Claudes Programmierkenntnisse beibehält, aber seine Ablehnungsmechanismen für die Generierung von Malware fehlen, wird es zu einer mächtigen Waffe für böswillige Akteure.

„Illegal destillierte Modelle lassen notwendige Schutzmaßnahmen vermissen, was erhebliche Risiken für die nationale Sicherheit schafft“, erklärte Anthropic in seinem Forschungspapier mit dem Titel Detecting and Preventing Distillation Attacks. Das Unternehmen argumentiert, dass es die Sicherheitsprotokolle untergräbt, zu deren Einführung die US-Regierung die Branche gedrängt hat, wenn man es ausländischen Entitäten erlaubt, amerikanische KI-Fähigkeiten zu klonen.

Neue Verteidigungsmaßnahmen: Behavioral Fingerprinting

Gleichzeitig mit der Anschuldigung hat Anthropic Details zu neuen Verteidigungsmechanismen veröffentlicht, die darauf ausgelegt sind, Destillations-Versuche in Echtzeit zu identifizieren und zu blockieren. Der Kern dieser Verteidigung ist „Verhaltens-Fingerabdruck“ (Behavioral Fingerprinting), eine Technik, die die statistischen Muster der API-Nutzung analysiert.

Im Gegensatz zu legitimen Benutzern, die organische, vielfältige Interaktionsmuster zeigen, hinterlassen Destillations-Skripte oft subtile statistische Signaturen. Diese beinhalten:

Unnatürliche Prompt-Verteilungen: Eine hohe Frequenz von Prompts, die darauf ausgelegt sind, den gesamten „Wissensraum“ eines Modells abzudecken, anstatt unmittelbare Benutzerprobleme zu lösen.
Systematische Parameter-Variationen (Parameter Sweeping): Systematisches Variieren von Temperatur- oder Sampling-Einstellungen, um vielfältige Ausgaben für denselben Prompt zu extrahieren.
Latenz-Korrelation: Zeitmuster, die darauf hindeuten, dass die API programmatisch als Reaktion auf eine Benutzereingabe eines Drittanbieters aufgerufen wird (ein „Man-in-the-Middle“-Setup).

Anthropic hat angekündigt, diese technischen Indikatoren mit anderen großen US-KI-Laboren (wie OpenAI und Google DeepMind), Cloud-Anbietern und Regierungsbehörden zu teilen, um ein branchenweites Verteidigungsnetz gegen Model-Mining aufzubauen.

Geopolitische Auswirkungen: Die Verbindung zum Chip-Krieg

Dieser Vorfall wirft ein Schlaglicht auf die komplexen Mechanismen der technologischen Beziehungen zwischen den USA und China. Der Zeitpunkt ist besonders sensibel, da das US-Handelsministerium derzeit die Wirksamkeit von Exportkontrollen überprüft, die den Verkauf von fortschrittlichen GPUs wie NVIDIAs H100 und der neueren Blackwell-Serie an chinesische Unternehmen verbieten.

Kritiker der aktuellen Exportverbote argumentieren, dass diese unzureichend sind, wenn chinesische Labore Hardware-Defizite einfach dadurch intelligent umgehen können, indem sie die Intelligenz von US-Modellen kopieren. Wenn ein Labor ein wettbewerbsfähiges Modell mit 10 % der Rechenleistung durch die Destillation von Claude trainieren kann, wird die Rechenbarriere (Compute Barrier), die darauf abzielt, Chinas KI-Fortschritt zu verlangsamen, wesentlich durchlässiger.

Implikationen für die Politik:

Strengere API-Kontrollen: Wir könnten erleben, dass US-Regulierungsbehörden „Know Your Customer“-Standards (KYC) für den Zugang zu KI-APIs fordern, ähnlich wie bei Bankenvorschriften, um anonymen ausländischen Zugang zu verhindern.
Ausweitung der Exportkontrollen: Die Definition von „Export“ könnte ausgeweitet werden, um nicht nur physische Chips oder Modellgewichte einzubeziehen, sondern auch den Zugang zu Modell-Inferenz-APIs, die für das Training verwendet werden können.
Vergeltungsmaßnahmen: Dieses öffentliche „Naming and Shaming“ könnte vergeltende Cyber-Aktivitäten oder Sanktionen aus Peking provozieren und das globale KI-Ökosystem weiter spalten.

Fazit

Die von Anthropic erhobenen Vorwürfe markieren einen Übergang von theoretischen Risiken zu einem dokumentierten Konflikt im KI-Sektor. Da Modelle immer wertvoller werden, sind sie nicht mehr nur Produkte, sondern strategische nationale Vermögenswerte. Der „Destillations-Raubzug“ dient als eindringliche Erinnerung daran, dass im digitalen Zeitalter Fähigkeiten ebenso leicht gestohlen wie aufgebaut werden können. Für die Branche muss sich der Fokus nun von der bloßen Entwicklung intelligenterer Modelle hin zum Bau von Modellen verlagern, die schwerer zu stehlen sind, um sicherzustellen, dass die Früchte amerikanischer Innovation nicht unbeabsichtigt genau die Wettbewerber befeuern, die sie eigentlich überflügeln sollten.