
En una escalada significativa de la actual carrera armamentista de la inteligencia artificial, Anthropic ha acusado públicamente a tres destacados laboratorios chinos de IA —DeepSeek, Moonshot AI y MiniMax— de llevar a cabo una campaña sistemática a escala industrial para extraer capacidades de sus modelos Claude. Las acusaciones, detalladas en un nuevo informe de seguridad publicado el lunes, describen cómo estas organizaciones supuestamente utilizaron miles de cuentas fraudulentas para "destilar" las habilidades avanzadas de razonamiento y codificación de Claude en sus propios modelos propietarios.
Esta revelación llega en un momento crítico para la industria global de la IA, coincidiendo con intensos debates en Washington sobre la eficacia de los controles de exportación de semiconductores. Mientras los responsables políticos de EE. UU. luchan por limitar el acceso de China al hardware de vanguardia, los hallazgos de Anthropic sugieren que el robo de propiedad intelectual a través de la destilación de modelos (model distillation) se ha convertido en una vía principal para que los competidores eludan las limitaciones de hardware y cierren la brecha de capacidad.
Según la investigación de Anthropic, el esfuerzo coordinado involucró la generación de más de 16 millones de intercambios con modelos Claude a través de una sofisticada red de aproximadamente 24,000 cuentas fraudulentas. Estas cuentas, supuestamente gestionadas a través de servicios de proxy comerciales para ocultar sus orígenes, se utilizaron para consultar a Claude de forma sistemática, registrando sus respuestas para entrenar modelos nacionales más pequeños, un proceso conocido en el aprendizaje automático (machine learning) como destilación (distillation).
Si bien la destilación es una técnica legítima utilizada por los desarrolladores para comprimir sus propios modelos grandes en versiones más eficientes, extraer datos del modelo de un competidor sin autorización viola los términos de servicio y constituye un robo de propiedad intelectual. Los datos de Anthropic indican que la operación no fue un experimento casual, sino una extracción altamente organizada de comportamientos cognitivos de alto valor.
La escala del ataque varió significativamente entre las instituciones acusadas, siendo MiniMax aparentemente el agresor más activo. El siguiente desglose ilustra el alcance de las actividades alegadas:
Tabla: Desglose de las presuntas actividades de destilación por laboratorio
| Nombre del laboratorio | Intercambios estimados | Capacidades principales objetivo |
|---|---|---|
| MiniMax | ~13 millones | Codificación agéntica, orquestación de herramientas y secuencias de razonamiento complejo |
| Moonshot AI | ~3.4 millones | Razonamiento agéntico, análisis de datos y tareas de visión por computadora |
| DeepSeek | >150,000 | Lógica fundamental, protocolos de alineación y consultas sensibles a políticas |
La metodología descrita por Anthropic revela una comprensión sofisticada de los procesos de entrenamiento de Grandes Modelos de Lenguaje (Large Language Model o LLM). Los atacantes no se limitaron a hacer preguntas al azar; se dirigieron a comportamientos específicos de "maestro" que son difíciles y costosos de replicar desde cero.
MiniMax, identificado como el mayor perpetrador, supuestamente redirigió casi la mitad de su propio tráfico a Claude a las 24 horas del lanzamiento de un nuevo modelo, utilizando efectivamente la infraestructura de Anthropic para impulsar las capacidades de su propio sistema. Al alimentar a Claude con las instrucciones (prompts) de los usuarios y utilizar las respuestas de alta calidad para entrenar sus propios modelos, estos laboratorios podrían, teóricamente, alcanzar una paridad cercana con los modelos estadounidenses de vanguardia gastando solo una fracción de los recursos de cómputo.
Las tácticas clave identificadas en el informe incluyen:
Más allá de las implicaciones comerciales del robo de propiedad intelectual, Anthropic destacó una grave preocupación de seguridad: la eliminación de las salvaguardas de seguridad (safety guardrails). Los modelos de frontera de EE. UU. como Claude se someten a un riguroso entrenamiento de IA Constitucional (Constitutional AI) para evitar que ayuden en la creación de armas biológicas, ciberataques o campañas de desinformación.
Cuando un modelo se destila ilícitamente, el modelo "estudiante" a menudo aprende las capacidades del "maestro" sin heredar sus inhibiciones de seguridad. Anthropic advierte que estos clones "liberados" plantean un riesgo de proliferación único. Si un modelo destilado conserva la competencia de codificación de Claude pero carece de sus mecanismos de rechazo para la generación de malware, se convierte en un arma potente para actores maliciosos.
"Los modelos destilados ilícitamente carecen de las salvaguardas necesarias, lo que crea riesgos significativos para la seguridad nacional", afirmó Anthropic en su documento de investigación titulado Detecting and Preventing Distillation Attacks. La empresa argumenta que permitir que entidades extranjeras clonen las capacidades de IA estadounidenses socava los mismos protocolos de seguridad que el gobierno de EE. UU. ha estado instando a la industria a adoptar.
Coincidiendo con la acusación, Anthropic ha publicado detalles sobre nuevos mecanismos de defensa diseñados para identificar y bloquear los intentos de destilación en tiempo real. El núcleo de esta defensa es la "huella digital conductual (behavioral fingerprinting)", una técnica que analiza los patrones estadísticos del uso de la API.
A diferencia de los usuarios legítimos que exhiben patrones de interacción orgánicos y variados, los scripts de destilación a menudo dejan firmas estadísticas sutiles. Estas incluyen:
Anthropic ha anunciado que compartirá estos indicadores técnicos con otros importantes laboratorios de IA de EE. UU. (como OpenAI y Google DeepMind), proveedores de la nube y autoridades gubernamentales para establecer una red de defensa en toda la industria contra la minería de modelos.
Este incidente complica aún más la maquinaria de las relaciones tecnológicas entre EE. UU. y China. El momento es particularmente sensible, ya que el Departamento de Comercio de EE. UU. está revisando actualmente la efectividad de los controles de exportación que prohíben la venta de GPUs avanzadas, como las H100 de NVIDIA y la nueva serie Blackwell, a empresas chinas.
Los críticos de las actuales prohibiciones de exportación argumentan que son insuficientes si los laboratorios chinos pueden simplemente "abrirse paso de forma inteligente" ante el déficit de hardware copiando la inteligencia de los modelos estadounidenses. Si un laboratorio puede entrenar un modelo competitivo utilizando el 10% de la potencia de cómputo mediante la destilación de Claude, la "barrera de cómputo" destinada a frenar el progreso de la IA en China se vuelve significativamente más porosa.
Implicaciones para la política:
Las acusaciones formuladas por Anthropic marcan una transición de riesgos teóricos a un conflicto documentado en el sector de la IA. A medida que los modelos se vuelven más valiosos, ya no son solo productos, sino activos estratégicos nacionales. El "Atraco de Destilación" sirve como un recordatorio contundente de que en la era digital, la capacidad se puede robar con la misma facilidad con la que se construye. Para la industria, el enfoque ahora debe pasar de simplemente construir modelos más inteligentes a construir otros más difíciles de robar, asegurando que los frutos de la innovación estadounidense no alimenten inadvertidamente a los mismos competidores a los que estaban destinados a superar.