Anthropic acusa a laboratorios de IA chinos de minar a Claude mediante ataques de destilación

Anthropic expone una red masiva de destilación que involucra a importantes laboratorios chinos de IA

En una escalada significativa de la actual carrera armamentista de la inteligencia artificial, Anthropic ha acusado públicamente a tres destacados laboratorios chinos de IA —DeepSeek, Moonshot AI y MiniMax— de llevar a cabo una campaña sistemática a escala industrial para extraer capacidades de sus modelos Claude. Las acusaciones, detalladas en un nuevo informe de seguridad publicado el lunes, describen cómo estas organizaciones supuestamente utilizaron miles de cuentas fraudulentas para "destilar" las habilidades avanzadas de razonamiento y codificación de Claude en sus propios modelos propietarios.

Esta revelación llega en un momento crítico para la industria global de la IA, coincidiendo con intensos debates en Washington sobre la eficacia de los controles de exportación de semiconductores. Mientras los responsables políticos de EE. UU. luchan por limitar el acceso de China al hardware de vanguardia, los hallazgos de Anthropic sugieren que el robo de propiedad intelectual a través de la destilación de modelos (model distillation) se ha convertido en una vía principal para que los competidores eludan las limitaciones de hardware y cierren la brecha de capacidad.

La escala de la operación de "destilación"

Según la investigación de Anthropic, el esfuerzo coordinado involucró la generación de más de 16 millones de intercambios con modelos Claude a través de una sofisticada red de aproximadamente 24,000 cuentas fraudulentas. Estas cuentas, supuestamente gestionadas a través de servicios de proxy comerciales para ocultar sus orígenes, se utilizaron para consultar a Claude de forma sistemática, registrando sus respuestas para entrenar modelos nacionales más pequeños, un proceso conocido en el aprendizaje automático (machine learning) como destilación (distillation).

Si bien la destilación es una técnica legítima utilizada por los desarrolladores para comprimir sus propios modelos grandes en versiones más eficientes, extraer datos del modelo de un competidor sin autorización viola los términos de servicio y constituye un robo de propiedad intelectual. Los datos de Anthropic indican que la operación no fue un experimento casual, sino una extracción altamente organizada de comportamientos cognitivos de alto valor.

La escala del ataque varió significativamente entre las instituciones acusadas, siendo MiniMax aparentemente el agresor más activo. El siguiente desglose ilustra el alcance de las actividades alegadas:

Tabla: Desglose de las presuntas actividades de destilación por laboratorio

Nombre del laboratorio	Intercambios estimados	Capacidades principales objetivo
MiniMax	~13 millones	Codificación agéntica, orquestación de herramientas y secuencias de razonamiento complejo
Moonshot AI	~3.4 millones	Razonamiento agéntico, análisis de datos y tareas de visión por computadora
DeepSeek	>150,000	Lógica fundamental, protocolos de alineación y consultas sensibles a políticas

Anatomía de un atraco de IA

La metodología descrita por Anthropic revela una comprensión sofisticada de los procesos de entrenamiento de Grandes Modelos de Lenguaje (Large Language Model o LLM). Los atacantes no se limitaron a hacer preguntas al azar; se dirigieron a comportamientos específicos de "maestro" que son difíciles y costosos de replicar desde cero.

MiniMax, identificado como el mayor perpetrador, supuestamente redirigió casi la mitad de su propio tráfico a Claude a las 24 horas del lanzamiento de un nuevo modelo, utilizando efectivamente la infraestructura de Anthropic para impulsar las capacidades de su propio sistema. Al alimentar a Claude con las instrucciones (prompts) de los usuarios y utilizar las respuestas de alta calidad para entrenar sus propios modelos, estos laboratorios podrían, teóricamente, alcanzar una paridad cercana con los modelos estadounidenses de vanguardia gastando solo una fracción de los recursos de cómputo.

Las tácticas clave identificadas en el informe incluyen:

Elicitación de cadena de pensamiento (Chain-of-Thought Elicitation): incitar a Claude a "mostrar su trabajo" o explicar sus pasos de razonamiento, generando datos de entrenamiento enriquecidos que enseñan a los modelos estudiantes cómo pensar, no solo qué responder.
Ofuscación mediante redes proxy: utilizar redes de proxy residenciales descentralizadas para distribuir las solicitudes, haciendo que el tráfico parezca provenir de miles de usuarios distintos y legítimos.
Eliminación selectiva de salvaguardas (Guardrails): consultar específicamente temas sensibles para comprender cómo Claude rechaza o maneja las solicitudes de seguridad, potencialmente para entrenar modelos que eludan restricciones similares.

La dimensión de la seguridad nacional: salvaguardas eliminadas

Más allá de las implicaciones comerciales del robo de propiedad intelectual, Anthropic destacó una grave preocupación de seguridad: la eliminación de las salvaguardas de seguridad (safety guardrails). Los modelos de frontera de EE. UU. como Claude se someten a un riguroso entrenamiento de IA Constitucional (Constitutional AI) para evitar que ayuden en la creación de armas biológicas, ciberataques o campañas de desinformación.

Cuando un modelo se destila ilícitamente, el modelo "estudiante" a menudo aprende las capacidades del "maestro" sin heredar sus inhibiciones de seguridad. Anthropic advierte que estos clones "liberados" plantean un riesgo de proliferación único. Si un modelo destilado conserva la competencia de codificación de Claude pero carece de sus mecanismos de rechazo para la generación de malware, se convierte en un arma potente para actores maliciosos.

"Los modelos destilados ilícitamente carecen de las salvaguardas necesarias, lo que crea riesgos significativos para la seguridad nacional", afirmó Anthropic en su documento de investigación titulado Detecting and Preventing Distillation Attacks. La empresa argumenta que permitir que entidades extranjeras clonen las capacidades de IA estadounidenses socava los mismos protocolos de seguridad que el gobierno de EE. UU. ha estado instando a la industria a adoptar.

Nuevas medidas defensivas: huella digital conductual

Coincidiendo con la acusación, Anthropic ha publicado detalles sobre nuevos mecanismos de defensa diseñados para identificar y bloquear los intentos de destilación en tiempo real. El núcleo de esta defensa es la "huella digital conductual (behavioral fingerprinting)", una técnica que analiza los patrones estadísticos del uso de la API.

A diferencia de los usuarios legítimos que exhiben patrones de interacción orgánicos y variados, los scripts de destilación a menudo dejan firmas estadísticas sutiles. Estas incluyen:

Distribuciones de prompts antinaturales: Una alta frecuencia de prompts diseñados para cubrir todo el "espacio de conocimiento" de un modelo en lugar de resolver problemas inmediatos del usuario.
Barrido sistemático de parámetros: Variar sistemáticamente la temperatura o los ajustes de muestreo para extraer diversas salidas para el mismo prompt.
Correlación de latencia: Patrones de tiempo que sugieren que la API se está llamando programáticamente en respuesta a la entrada de un usuario de terceros (una configuración de "ataque de intermediario" o man-in-the-middle).

Anthropic ha anunciado que compartirá estos indicadores técnicos con otros importantes laboratorios de IA de EE. UU. (como OpenAI y Google DeepMind), proveedores de la nube y autoridades gubernamentales para establecer una red de defensa en toda la industria contra la minería de modelos.

Consecuencias geopolíticas: la conexión con la guerra de los chips

Este incidente complica aún más la maquinaria de las relaciones tecnológicas entre EE. UU. y China. El momento es particularmente sensible, ya que el Departamento de Comercio de EE. UU. está revisando actualmente la efectividad de los controles de exportación que prohíben la venta de GPUs avanzadas, como las H100 de NVIDIA y la nueva serie Blackwell, a empresas chinas.

Los críticos de las actuales prohibiciones de exportación argumentan que son insuficientes si los laboratorios chinos pueden simplemente "abrirse paso de forma inteligente" ante el déficit de hardware copiando la inteligencia de los modelos estadounidenses. Si un laboratorio puede entrenar un modelo competitivo utilizando el 10% de la potencia de cómputo mediante la destilación de Claude, la "barrera de cómputo" destinada a frenar el progreso de la IA en China se vuelve significativamente más porosa.

Implicaciones para la política:

Controles de API más estrictos: Es posible que veamos a los reguladores de EE. UU. exigiendo estándares de "Conozca a su cliente" (KYC) para el acceso a las API de IA, similares a las regulaciones bancarias, para evitar el acceso extranjero anónimo.
Expansión de los controles de exportación: La definición de "exportación" podría ampliarse para incluir no solo chips físicos o pesos de modelos, sino también el acceso a las API de inferencia de modelos que pueden utilizarse para el entrenamiento.
Medidas de represalia: Esta denuncia pública podría provocar actividades cibernéticas de represalia o sanciones por parte de Beijing, bifurcando aún más el ecosistema global de la IA.

Conclusión

Las acusaciones formuladas por Anthropic marcan una transición de riesgos teóricos a un conflicto documentado en el sector de la IA. A medida que los modelos se vuelven más valiosos, ya no son solo productos, sino activos estratégicos nacionales. El "Atraco de Destilación" sirve como un recordatorio contundente de que en la era digital, la capacidad se puede robar con la misma facilidad con la que se construye. Para la industria, el enfoque ahora debe pasar de simplemente construir modelos más inteligentes a construir otros más difíciles de robar, asegurando que los frutos de la innovación estadounidense no alimenten inadvertidamente a los mismos competidores a los que estaban destinados a superar.