Anthropic accuse des laboratoires d'IA chinois d'extraire des informations de Claude via des attaques de distillation

Anthropic expose un vaste réseau de distillation impliquant de grands laboratoires d'IA chinois

Dans une escalade significative de la course aux armements de l'intelligence artificielle (IA) en cours, Anthropic a publiquement accusé trois éminents laboratoires d'IA chinois — DeepSeek, Moonshot AI et MiniMax — de mener une campagne systématique à l'échelle industrielle pour extraire les capacités de ses modèles Claude. Les allégations, détaillées dans un nouveau rapport de sécurité publié lundi, décrivent comment ces organisations auraient utilisé des milliers de comptes frauduleux pour « distiller » les capacités avancées de raisonnement et de codage de Claude dans leurs propres modèles propriétaires.

Cette révélation intervient à un moment critique pour l'industrie mondiale de l'IA, coïncidant avec des débats intensifiés à Washington concernant l'efficacité des contrôles à l'exportation de semi-conducteurs. Alors que les décideurs américains s'efforcent de limiter l'accès de la Chine au matériel de pointe, les conclusions d'Anthropic suggèrent que le vol de propriété intellectuelle via la distillation de modèles est devenu une voie principale pour les concurrents afin de contourner les contraintes matérielles et de combler l'écart de capacité.

L'ampleur de l'opération de « distillation »

Selon l'enquête d'Anthropic, l'effort coordonné a impliqué la génération de plus de 16 millions d'échanges avec les modèles Claude via un réseau sophistiqué d'environ 24 000 comptes frauduleux. Ces comptes, prétendument gérés par des services de proxy commerciaux pour masquer leurs origines, ont été utilisés pour interroger Claude de manière systématique, enregistrant ses sorties pour entraîner des modèles domestiques plus petits — un processus connu en apprentissage automatique (Machine Learning) sous le nom de « distillation ».

Bien que la distillation soit une technique légitime utilisée par les développeurs pour compresser leurs propres grands modèles en des versions plus efficaces, l'extraction de données à partir du modèle d'un concurrent sans autorisation viole les conditions de service et constitue un vol de propriété intellectuelle. Les données d'Anthropic indiquent que l'opération n'était pas une expérience fortuite mais une extraction hautement organisée de comportements cognitifs à haute valeur ajoutée.

L'ampleur de l'attaque a varié de manière significative selon les institutions accusées, MiniMax semblant être l'agresseur le plus agressif. La répartition suivante illustre la portée des activités présumées :

Tableau : Répartition des activités de distillation présumées par laboratoire

Nom du laboratoire	Échanges estimés	Capacités cibles principales
MiniMax	~13 millions	Codage agentique, orchestration d'outils et séquences de raisonnement complexes
Moonshot AI	~3,4 millions	Raisonnement agentique, analyse de données et tâches de vision par ordinateur
DeepSeek	>150 000	Logique fondamentale, protocoles d'alignement et requêtes sensibles aux politiques

Anatomie d'un hold-up de l'IA

La méthodologie décrite par Anthropic révèle une compréhension sophistiquée des pipelines d'entraînement des modèles de langage étendus (Large Language Models ou LLM). Les attaquants ne se sont pas contentés de poser des questions au hasard ; ils ont ciblé des comportements spécifiques de « l'enseignant » qui sont difficiles et coûteux à reproduire de zéro.

MiniMax, identifié comme le plus grand auteur, aurait redirigé près de la moitié de son propre trafic vers Claude dans les 24 heures suivant la sortie d'un nouveau modèle, utilisant efficacement l'infrastructure d'Anthropic pour booster les capacités de son propre système. En injectant des invites d'utilisateurs dans Claude et en utilisant les réponses de haute qualité pour entraîner leurs propres modèles, ces laboratoires pourraient théoriquement atteindre une parité quasi totale avec les modèles américains de pointe tout en ne dépensant qu'une fraction des ressources de calcul (Compute).

Les tactiques clés identifiées dans le rapport incluent :

Élicitation de chaîne de pensée (Chain-of-Thought Elicitation) : inciter Claude à « montrer son travail » ou à expliquer ses étapes de raisonnement, générant des données d'entraînement riches qui enseignent aux modèles « étudiants » comment réfléchir, et non seulement quoi répondre.
Obscurcissement par réseau de proxy : utiliser des réseaux de proxy résidentiels décentralisés pour distribuer les requêtes, faisant apparaître le trafic comme s'il provenait de milliers d'utilisateurs distincts et légitimes.
Suppression ciblée des garde-fous : interroger spécifiquement des sujets sensibles pour comprendre comment Claude refuse ou gère les demandes de sécurité, potentiellement pour entraîner des modèles qui contournent des restrictions similaires.

La dimension de sécurité nationale : des garde-fous supprimés

Au-delà des implications commerciales du vol de propriété intellectuelle, Anthropic a souligné une grave préoccupation en matière de sécurité : la suppression des garde-fous de sécurité. Les modèles frontières américains comme Claude sont soumis à un entraînement rigoureux d'« IA constitutionnelle » (Constitutional AI) pour les empêcher d'aider à la création d'armes biologiques, de cyberattaques ou de campagnes de désinformation.

Lorsqu'un modèle est distillé de manière illicite, le modèle « étudiant » apprend souvent les capacités de « l'enseignant » sans hériter de ses inhibitions de sécurité. Anthropic prévient que ces clones « déchaînés » posent un risque de prolifération unique. Si un modèle distillé conserve la compétence de codage de Claude mais manque de ses mécanismes de refus pour la génération de logiciels malveillants, il devient une arme puissante pour les acteurs malveillants.

« Les modèles distillés de manière illicite manquent des garde-fous nécessaires, créant des risques importants pour la sécurité nationale », a déclaré Anthropic dans son document de recherche intitulé Detecting and Preventing Distillation Attacks. L'entreprise soutient que permettre à des entités étrangères de cloner les capacités d'IA américaines sape les protocoles de sécurité mêmes que le gouvernement américain a exhorté l'industrie à adopter.

Nouvelles mesures défensives : l'empreinte comportementale

Coïncidant avec l'accusation, Anthropic a publié des détails sur de nouveaux mécanismes de défense conçus pour identifier et bloquer les tentatives de distillation en temps réel. Le cœur de cette défense est l'« empreinte comportementale » (behavioral fingerprinting), une technique qui analyse les schémas statistiques de l'utilisation des API.

Contrairement aux utilisateurs légitimes qui présentent des schémas d'interaction organiques et variés, les scripts de distillation laissent souvent des signatures statistiques subtiles. Celles-ci incluent :

Distributions d'invites non naturelles : Une fréquence élevée d'invites conçues pour couvrir tout « l'espace de connaissance » d'un modèle plutôt que de résoudre les problèmes immédiats des utilisateurs.
Balayage systématique des paramètres : Varier systématiquement la température ou les paramètres d'échantillonnage pour extraire des sorties diverses pour la même invite.
Corrélation de latence : Des schémas temporels suggérant que l'API est appelée par programme en réponse à une entrée d'utilisateur tiers (une configuration de type « homme du milieu »).

Anthropic a annoncé qu'elle partageait ces indicateurs techniques avec d'autres grands laboratoires d'IA américains (tels qu'OpenAI et Google DeepMind), les fournisseurs de cloud et les autorités gouvernementales afin d'établir une grille de défense à l'échelle de l'industrie contre le minage de modèles.

Retombées géopolitiques : le lien avec la guerre des puces

Cet incident jette un pavé dans la mare des relations technologiques complexes entre les États-Unis et la Chine. Le moment est particulièrement sensible, car le Département du Commerce des États-Unis examine actuellement l'efficacité des contrôles à l'exportation qui interdisent la vente de GPU avancés, comme le H100 de NVIDIA et la nouvelle série Blackwell, aux entreprises chinoises.

Les critiques des interdictions d'exportation actuelles soutiennent qu'elles sont insuffisantes si les laboratoires chinois peuvent simplement « contourner intelligemment » les déficits matériels en copiant l'intelligence des modèles américains. Si un laboratoire peut entraîner un modèle compétitif en utilisant 10 % de la puissance de calcul en distillant Claude, la « barrière de calcul » visant à ralentir les progrès de l'IA en Chine devient nettement plus poreuse.

Implications pour les politiques :

Contrôles d'API plus stricts : Nous pourrions voir les régulateurs américains exiger des normes « Know Your Customer » (KYC) pour l'accès aux API d'IA, similaires aux réglementations bancaires, afin d'empêcher l'accès étranger anonyme.
Expansion des contrôles à l'exportation : La définition d'« exportation » pourrait être élargie pour inclure non seulement les puces physiques ou les poids des modèles, mais aussi l'accès aux API d'inférence de modèles qui peuvent être utilisées pour l'entraînement.
Mesures de rétorsion : Cette dénonciation publique pourrait provoquer des cyberactivités de rétorsion ou des sanctions de la part de Pékin, bifurquant davantage l'écosystème mondial de l'IA.

Conclusion

Les accusations portées par Anthropic marquent une transition des risques théoriques vers un conflit documenté dans le secteur de l'IA. À mesure que les modèles deviennent plus précieux, ils ne sont plus seulement des produits mais des actifs stratégiques nationaux. Le « hold-up de la distillation » sert de rappel brutal que, à l'ère numérique, la capacité peut être volée tout aussi facilement qu'elle peut être construite. Pour l'industrie, l'accent doit désormais passer de la simple construction de modèles plus intelligents à la construction de modèles plus difficiles à voler, garantissant que les fruits de l'innovation américaine n'alimentent pas par inadvertance les concurrents mêmes qu'ils étaient censés dépasser.