
Dans une escalade significative de la course aux armements de l'intelligence artificielle (IA) en cours, Anthropic a publiquement accusé trois éminents laboratoires d'IA chinois — DeepSeek, Moonshot AI et MiniMax — de mener une campagne systématique à l'échelle industrielle pour extraire les capacités de ses modèles Claude. Les allégations, détaillées dans un nouveau rapport de sécurité publié lundi, décrivent comment ces organisations auraient utilisé des milliers de comptes frauduleux pour « distiller » les capacités avancées de raisonnement et de codage de Claude dans leurs propres modèles propriétaires.
Cette révélation intervient à un moment critique pour l'industrie mondiale de l'IA, coïncidant avec des débats intensifiés à Washington concernant l'efficacité des contrôles à l'exportation de semi-conducteurs. Alors que les décideurs américains s'efforcent de limiter l'accès de la Chine au matériel de pointe, les conclusions d'Anthropic suggèrent que le vol de propriété intellectuelle via la distillation de modèles est devenu une voie principale pour les concurrents afin de contourner les contraintes matérielles et de combler l'écart de capacité.
Selon l'enquête d'Anthropic, l'effort coordonné a impliqué la génération de plus de 16 millions d'échanges avec les modèles Claude via un réseau sophistiqué d'environ 24 000 comptes frauduleux. Ces comptes, prétendument gérés par des services de proxy commerciaux pour masquer leurs origines, ont été utilisés pour interroger Claude de manière systématique, enregistrant ses sorties pour entraîner des modèles domestiques plus petits — un processus connu en apprentissage automatique (Machine Learning) sous le nom de « distillation ».
Bien que la distillation soit une technique légitime utilisée par les développeurs pour compresser leurs propres grands modèles en des versions plus efficaces, l'extraction de données à partir du modèle d'un concurrent sans autorisation viole les conditions de service et constitue un vol de propriété intellectuelle. Les données d'Anthropic indiquent que l'opération n'était pas une expérience fortuite mais une extraction hautement organisée de comportements cognitifs à haute valeur ajoutée.
L'ampleur de l'attaque a varié de manière significative selon les institutions accusées, MiniMax semblant être l'agresseur le plus agressif. La répartition suivante illustre la portée des activités présumées :
Tableau : Répartition des activités de distillation présumées par laboratoire
| Nom du laboratoire | Échanges estimés | Capacités cibles principales |
|---|---|---|
| MiniMax | ~13 millions | Codage agentique, orchestration d'outils et séquences de raisonnement complexes |
| Moonshot AI | ~3,4 millions | Raisonnement agentique, analyse de données et tâches de vision par ordinateur |
| DeepSeek | >150 000 | Logique fondamentale, protocoles d'alignement et requêtes sensibles aux politiques |
La méthodologie décrite par Anthropic révèle une compréhension sophistiquée des pipelines d'entraînement des modèles de langage étendus (Large Language Models ou LLM). Les attaquants ne se sont pas contentés de poser des questions au hasard ; ils ont ciblé des comportements spécifiques de « l'enseignant » qui sont difficiles et coûteux à reproduire de zéro.
MiniMax, identifié comme le plus grand auteur, aurait redirigé près de la moitié de son propre trafic vers Claude dans les 24 heures suivant la sortie d'un nouveau modèle, utilisant efficacement l'infrastructure d'Anthropic pour booster les capacités de son propre système. En injectant des invites d'utilisateurs dans Claude et en utilisant les réponses de haute qualité pour entraîner leurs propres modèles, ces laboratoires pourraient théoriquement atteindre une parité quasi totale avec les modèles américains de pointe tout en ne dépensant qu'une fraction des ressources de calcul (Compute).
Les tactiques clés identifiées dans le rapport incluent :
Au-delà des implications commerciales du vol de propriété intellectuelle, Anthropic a souligné une grave préoccupation en matière de sécurité : la suppression des garde-fous de sécurité. Les modèles frontières américains comme Claude sont soumis à un entraînement rigoureux d'« IA constitutionnelle » (Constitutional AI) pour les empêcher d'aider à la création d'armes biologiques, de cyberattaques ou de campagnes de désinformation.
Lorsqu'un modèle est distillé de manière illicite, le modèle « étudiant » apprend souvent les capacités de « l'enseignant » sans hériter de ses inhibitions de sécurité. Anthropic prévient que ces clones « déchaînés » posent un risque de prolifération unique. Si un modèle distillé conserve la compétence de codage de Claude mais manque de ses mécanismes de refus pour la génération de logiciels malveillants, il devient une arme puissante pour les acteurs malveillants.
« Les modèles distillés de manière illicite manquent des garde-fous nécessaires, créant des risques importants pour la sécurité nationale », a déclaré Anthropic dans son document de recherche intitulé Detecting and Preventing Distillation Attacks. L'entreprise soutient que permettre à des entités étrangères de cloner les capacités d'IA américaines sape les protocoles de sécurité mêmes que le gouvernement américain a exhorté l'industrie à adopter.
Coïncidant avec l'accusation, Anthropic a publié des détails sur de nouveaux mécanismes de défense conçus pour identifier et bloquer les tentatives de distillation en temps réel. Le cœur de cette défense est l'« empreinte comportementale » (behavioral fingerprinting), une technique qui analyse les schémas statistiques de l'utilisation des API.
Contrairement aux utilisateurs légitimes qui présentent des schémas d'interaction organiques et variés, les scripts de distillation laissent souvent des signatures statistiques subtiles. Celles-ci incluent :
Anthropic a annoncé qu'elle partageait ces indicateurs techniques avec d'autres grands laboratoires d'IA américains (tels qu'OpenAI et Google DeepMind), les fournisseurs de cloud et les autorités gouvernementales afin d'établir une grille de défense à l'échelle de l'industrie contre le minage de modèles.
Cet incident jette un pavé dans la mare des relations technologiques complexes entre les États-Unis et la Chine. Le moment est particulièrement sensible, car le Département du Commerce des États-Unis examine actuellement l'efficacité des contrôles à l'exportation qui interdisent la vente de GPU avancés, comme le H100 de NVIDIA et la nouvelle série Blackwell, aux entreprises chinoises.
Les critiques des interdictions d'exportation actuelles soutiennent qu'elles sont insuffisantes si les laboratoires chinois peuvent simplement « contourner intelligemment » les déficits matériels en copiant l'intelligence des modèles américains. Si un laboratoire peut entraîner un modèle compétitif en utilisant 10 % de la puissance de calcul en distillant Claude, la « barrière de calcul » visant à ralentir les progrès de l'IA en Chine devient nettement plus poreuse.
Implications pour les politiques :
Les accusations portées par Anthropic marquent une transition des risques théoriques vers un conflit documenté dans le secteur de l'IA. À mesure que les modèles deviennent plus précieux, ils ne sont plus seulement des produits mais des actifs stratégiques nationaux. Le « hold-up de la distillation » sert de rappel brutal que, à l'ère numérique, la capacité peut être volée tout aussi facilement qu'elle peut être construite. Pour l'industrie, l'accent doit désormais passer de la simple construction de modèles plus intelligents à la construction de modèles plus difficiles à voler, garantissant que les fruits de l'innovation américaine n'alimentent pas par inadvertance les concurrents mêmes qu'ils étaient censés dépasser.