Anthropic acusa laboratórios de IA chineses de minerar o Claude por meio de ataques de destilação

Anthropic Expõe Rede Massiva de Destilação Envolvendo Principais Laboratórios de IA Chineses

Em uma escalada significativa da atual corrida armamentista de inteligência artificial (IA), a Anthropic acusou publicamente três proeminentes laboratórios de IA chineses — DeepSeek, Moonshot AI e MiniMax — de conduzir uma campanha sistemática em escala industrial para extrair capacidades de seus modelos Claude. As alegações, detalhadas em um novo relatório de segurança divulgado na segunda-feira, descrevem como essas organizações supostamente utilizaram milhares de contas fraudulentas para "destilar" as habilidades avançadas de raciocínio e codificação do Claude em seus próprios modelos proprietários.

Esta revelação ocorre em um momento crítico para a indústria global de IA, coincidindo com debates intensificados em Washington sobre a eficácia dos controles de exportação de semicondutores. Enquanto os formuladores de políticas dos EUA lutam para limitar o acesso da China a hardware de última geração, as descobertas da Anthropic sugerem que o roubo de propriedade intelectual via destilação de modelos (model distillation) tornou-se uma via principal para os concorrentes contornarem as restrições de hardware e fecharem a lacuna de capacidade.

A Escala da Operação de "Destilação"

De acordo com a investigação da Anthropic, o esforço coordenado envolveu a geração de mais de 16 milhões de trocas com modelos Claude por meio de uma rede sofisticada de aproximadamente 24.000 contas fraudulentas. Essas contas, supostamente gerenciadas por meio de serviços de proxy comercial para mascarar suas origens, foram usadas para consultar o Claude sistematicamente, registrando seus resultados para treinar modelos domésticos menores — um processo conhecido no aprendizado de máquina (machine learning) como "destilação".

Embora a destilação seja uma técnica legítima usada por desenvolvedores para comprimir seus próprios modelos grandes em versões mais eficientes, extrair dados do modelo de um concorrente sem autorização viola os termos de serviço e constitui roubo de propriedade intelectual. Os dados da Anthropic indicam que a operação não foi um experimento casual, mas uma extração altamente organizada de comportamentos cognitivos de alto valor.

A escala do ataque variou significativamente entre as instituições acusadas, com a MiniMax parecendo ser o agressor mais agressivo. O detalhamento a seguir ilustra o escopo das supostas atividades:

Tabela: Detalhamento das Supostas Atividades de Destilação por Laboratório

Nome do Laboratório	Trocas Estimadas	Principais Capacidades Alvo
MiniMax	~13 milhões	Codificação agêntica, orquestração de ferramentas e sequências de raciocínio complexas
Moonshot AI	~3,4 milhões	Raciocínio agêntico, análise de dados e tarefas de visão computacional
DeepSeek	>150.000	Lógica fundamental, protocolos de alinhamento e consultas sensíveis a políticas

Anatomia de um Assalto de IA

A metodologia descrita pela Anthropic revela uma compreensão sofisticada dos pipelines de treinamento de Modelos de Linguagem de Grande Escala (Large Language Models - LLMs). Os atacantes não apenas fizeram perguntas aleatórias; eles visaram comportamentos específicos de "professor" que são difíceis e caros de replicar do zero.

A MiniMax, identificada como a maior perpetradora, supostamente redirecionou quase metade de seu próprio tráfego para o Claude dentro de 24 horas após o lançamento de um novo modelo, usando efetivamente a infraestrutura da Anthropic para impulsionar as capacidades de seu próprio sistema. Ao alimentar prompts de usuários no Claude e usar as respostas de alta qualidade para treinar seus próprios modelos, esses laboratórios poderiam, teoricamente, alcançar quase a paridade com os modelos de ponta dos EUA, gastando uma fração dos recursos de computação.

As principais táticas identificadas no relatório incluem:

Elicitação de Cadeia de Pensamento (Chain-of-Thought Elicitation): induzir o Claude a "mostrar seu trabalho" ou explicar seus passos de raciocínio, gerando dados de treinamento ricos que ensinam aos modelos alunos como pensar, não apenas o que responder.
Ofuscação de Rede Proxy: utilizar redes de proxy residenciais descentralizadas para distribuir solicitações, fazendo com que o tráfego pareça vir de milhares de usuários distintos e legítimos.
Remoção Direcionada de Salvaguardas: consultar especificamente tópicos sensíveis para entender como o Claude recusa ou lida com solicitações de segurança, potencialmente para treinar modelos que contornem restrições semelhantes.

A Dimensão da Segurança Nacional: Salvaguardas Removidas

Além das implicações comerciais do roubo de propriedade intelectual, a Anthropic destacou uma grave preocupação de segurança: a remoção de salvaguardas de segurança. Modelos de fronteira dos EUA, como o Claude, são submetidos a um rigoroso treinamento de "IA Constitucional (Constitutional AI)" para evitar que auxiliem na criação de armas biológicas, ataques cibernéticos ou campanhas de desinformação.

Quando um modelo é destilado ilicitamente, o modelo "aluno" frequentemente aprende as capacidades do "professor" sem herdar suas inibições de segurança. A Anthropic alerta que esses clones "desacorrentados" representam um risco de proliferação único. Se um modelo destilado retém a proficiência em codificação do Claude, mas carece de seus mecanismos de recusa para geração de malware, ele se torna uma arma potente para atores mal-intencionados.

"Modelos destilados ilicitamente carecem das salvaguardas necessárias, criando riscos significativos à segurança nacional", afirmou a Anthropic em seu artigo de pesquisa intitulado Detecting and Preventing Ataques de Destilação. A empresa argumenta que permitir que entidades estrangeiras clonem capacidades de IA americanas prejudica os próprios protocolos de segurança que o governo dos EUA tem instado a indústria a adotar.

Novas Medidas Defensivas: Impressão Digital Comportamental

Coincidindo com a acusação, a Anthropic divulgou detalhes sobre novos mecanismos de defesa projetados para identificar e bloquear tentativas de destilação em tempo real. O cerne desta defesa é a "impressão digital comportamental (behavioral fingerprinting)", uma técnica que analisa os padrões estatísticos de uso da API.

Ao contrário dos usuários legítimos que exibem padrões de interação orgânicos e variados, os scripts de destilação frequentemente deixam assinaturas estatísticas sutis. Estas incluem:

Distribuições de Prompt Não Naturais: Uma alta frequência de prompts projetados para cobrir todo o "espaço de conhecimento" de um modelo, em vez de resolver problemas imediatos do usuário.
Varredura Sistemática de Parâmetros: Variar sistematicamente as configurações de temperatura ou amostragem para extrair diversas saídas para o mesmo prompt.
Correlação de Latência: Padrões de tempo que sugerem que a API está sendo chamada programaticamente em resposta à entrada de um usuário de terceiros (uma configuração do tipo "homem-no-meio").

A Anthropic anunciou que está compartilhando esses indicadores técnicos com outros grandes laboratórios de IA dos EUA (como OpenAI e Google DeepMind), provedores de nuvem e autoridades governamentais para estabelecer uma rede de defesa em toda a indústria contra a mineração de modelos.

Desdobramentos Geopolíticos: A Conexão com a Guerra dos Chips

Este incidente coloca um obstáculo na complexa engrenagem das relações tecnológicas entre EUA e China. O momento é particularmente sensível, pois o Departamento de Comércio dos EUA está revisando atualmente a eficácia dos controles de exportação que proíbem a venda de GPUs avançadas, como a H100 da NVIDIA e a nova série Blackwell, para empresas chinesas.

Os críticos das atuais proibições de exportação argumentam que elas são insuficientes se os laboratórios chineses puderem simplesmente "usar a inteligência" para contornar os déficits de hardware, copiando a inteligência dos modelos dos EUA. Se um laboratório puder treinar um modelo competitivo usando 10% do poder de computação ao destilar o Claude, a "barreira de computação" destinada a retardar o progresso da IA na China torna-se significativamente mais porosa.

Implicações para a Política:

Controles de API Mais Rígidos: Podemos ver reguladores dos EUA exigindo padrões de "Conheça seu Cliente (Know Your Customer - KYC)" para acesso à API de IA, semelhantes às regulamentações bancárias, para evitar o acesso estrangeiro anônimo.
Expansão do Controle de Exportação: A definição de "exportação" pode ser ampliada para incluir não apenas chips físicos ou pesos de modelos, mas o acesso a APIs de inferência de modelos que podem ser usadas para treinamento.
Medidas de Retaliação: Esta exposição pública pode provocar atividades cibernéticas retaliatórias ou sanções de Pequim, bifurcando ainda mais o ecossistema global de IA.

Conclusão

As acusações feitas pela Anthropic marcam uma transição de riscos teóricos para conflitos documentados no setor de IA. À medida que os modelos se tornam mais valiosos, eles não são mais apenas produtos, mas ativos estratégicos nacionais. O "Assalto por Destilação" serve como um lembrete contundente de que, na era digital, a capacidade pode ser roubada tão facilmente quanto pode ser construída. Para a indústria, o foco deve agora mudar de simplesmente construir modelos mais inteligentes para construir modelos mais difíceis de roubar, garantindo que os frutos da inovação americana não alimentem inadvertidamente os mesmos concorrentes que deveriam superar.