Agente de IA hackeó la plataforma de IA interna de McKinsey en menos de dos horas usando una técnica de inyección de prompts con décadas de antigüedad

La llamada de alerta: Cuando los agentes autónomos se vuelven contra los sistemas empresariales

La reciente demostración realizada por investigadores de ciberseguridad en CodeWall ha enviado un mensaje escalofriante al sector de la IA empresarial. Un agente de IA ofensivo autónomo (Autonomous offensive AI agent) —que actúa sin intervención humana, credenciales ni conocimiento interno previo— comprometió con éxito la plataforma interna de IA generativa (Generative AI) de McKinsey, "Lilli", en menos de dos horas. Mientras que la industria tecnológica se ha centrado obsesivamente en los riesgos existenciales de los "robots asesinos" o en ataques complejos de inyección de prompts (Prompt injection), este incidente sirve como un recordatorio brutal de que las amenazas más peligrosas para la infraestructura de IA a menudo surgen de fallos de seguridad fundamentales que han existido durante décadas.

Este evento no es simplemente una filtración de datos; es una prueba de concepto para la nueva era de la guerra cibernética. A medida que las organizaciones se apresuran a integrar la IA generativa en sus flujos de trabajo, están expandiendo inadvertidamente sus superficies de ataque, creando entornos donde los agentes autónomos pueden identificar, explotar y penetrar sistemas a velocidad de máquina. Para McKinsey, una firma construida sobre los pilares de la privacidad de los datos y la confidencialidad estratégica, este compromiso de una plataforma interna —utilizada por más de 40.000 empleados— ilustra la necesidad urgente de un cambio de paradigma en la forma en que aseguramos la IA empresarial.

La anatomía de una brecha a velocidad de máquina

La brecha, llevada a cabo por CodeWall, utilizó un agente autónomo diseñado para identificar vulnerabilidades en la documentación de API pública. A diferencia de los atacantes humanos que podrían pasar días o semanas realizando reconocimientos, el agente de CodeWall operó a la velocidad de la computación. En 120 minutos, el agente logró acceso total de lectura y escritura a la base de datos de producción que sustenta a Lilli.

Cómo operó el agente autónomo

El agente no se basó en exploits exóticos específicos de IA. En su lugar, mapeó sistemáticamente la infraestructura e identificó documentación técnica expuesta que enumeraba más de 200 puntos finales (endpoints). De ellos, 22 endpoints no requerían autenticación. Al iterar a través de estos, el agente descubrió una vulnerabilidad clásica de inyección SQL (SQL injection).

La eficacia del agente se vio amplificada por su naturaleza autónoma. Fue capaz de:

Realizar reconocimiento automatizado: Escanear cientos de endpoints de API sin fatiga humana.
Ejecutar exploits iterativos: Intentar quince variaciones de inyección SQL ciega, aprendiendo de los mensajes de error de cada intento fallido hasta encontrar el vector exitoso.
Exfiltrar datos a escala: Una vez dentro, catalogó 46,5 millones de mensajes de chat, 728.000 archivos internos y 57.000 cuentas de usuario, demostrando que el agente de IA podía navegar estructuras de datos complejas tan eficazmente como un humano, pero significativamente más rápido.

La ironía de la vulnerabilidad "de hace décadas"

Quizás el aspecto más sorprendente del caso McKinsey es el propio vector de ataque: la inyección SQL. Esta es una clase de vulnerabilidad que ha sido documentada desde la década de 1990. El hecho de que una plataforma de IA generativa de vanguardia pudiera ser víctima de una vulnerabilidad web "básica" resalta una desconexión entre el desarrollo de las capacidades de IA y la madurez de la infraestructura de seguridad que las rodea.

El incidente subraya una lección crucial para los desarrolladores: los sistemas de IA son, ante todo, sistemas de software. Cuando los desarrolladores construyen envoltorios alrededor de modelos de lenguaje de gran tamaño (LLM - Large Language Models) para conectarlos con bases de datos, están construyendo efectivamente nuevas aplicaciones web. Si la capa de API que conecta el LLM con la base de datos no sanea las entradas —como fue el caso de Lilli, donde los nombres de los campos JSON se inyectaron directamente en las consultas—, las capacidades avanzadas de razonamiento de la IA pasan a ser secundarias frente a las vulnerabilidades del servidor host.

Comparación del panorama de vulnerabilidades

La siguiente tabla contrasta los desafíos de seguridad tradicionales que enfrentan las aplicaciones web estándar con el perfil de riesgo escalado de las plataformas modernas integradas con IA.

Tipo de vulnerabilidad	Mecanismo de ataque	Nivel de riesgo para plataformas de IA
Inyección SQL	Inyección de código malicioso en consultas de base de datos a través de entradas no validadas	Alto Acceso directo a datos de generación aumentada por recuperación (RAG - Retrieval-Augmented Generation) y prompts del sistema
Inyección de prompts	Manipulación de las instrucciones del LLM para eludir las protecciones	Crítico Can lead to data exfiltration or malicious code execution
Acceso no autorizado a API	Explotación de endpoints no autenticados en microservicios	Alto Proporciona el punto de entrada para agentes automatizados
Inversión de modelo	Reconstrucción de datos de entrenamiento a partir de las salidas del modelo	Medio Riesgo de exponer información confidencial de clientes

Agentes de IA como el nuevo vector de amenaza

Aunque la brecha de McKinsey fue un ejercicio controlado de Red Teaming (Equipo Rojo), demuestra un futuro donde los agentes autónomos serán utilizados por actores maliciosos para escalar los ataques. La capacidad de un agente para elegir autónomamente un objetivo, investigar su documentación, identificar un endpoint débil y ejecutar un ciclo de explotación es un multiplicador de fuerzas.

Tradicionalmente, un hacker humano podría optar por seguir adelante si un objetivo resulta demasiado resistente o consume demasiado tiempo. Un agente de IA no sufre tales limitaciones. Puede trabajar continuamente, las 24 horas del día, los 7 días de la semana, en múltiples objetivos simultáneamente, lo que lo convierte en una herramienta esencial para la próxima generación de ciberamenazas.

Implicaciones para la seguridad empresarial

Para las empresas, la conclusión es clara: la "IA en la sombra" (Shadow AI) y las herramientas internas desplegadas rápidamente pueden convertirse en pasivos si no se tratan con los mismos estándares de seguridad rigurosos que los sistemas financieros o de cara al cliente principales.

El Red Teaming es esencial: Como demostró CodeWall, los agentes de IA (AI agents) pueden utilizarse para realizar pruebas de penetración autorizadas. Las empresas deberían desplegar sus propios agentes defensivos para sondear constantemente su infraestructura antes de que lo hagan los maliciosos.
El saneamiento de entradas sigue mandando: La capa de IA no puede ser un escudo para un código de backend descuidado. Las prácticas de codificación segura —consultas parametrizadas, validación de entradas y autenticación estricta de API— son la primera y más eficaz línea de defensa.
Acceso basado en roles para la IA: Sistemas como Lilli a menudo tienen acceso a vastos repositorios de datos. Los agentes de IA deben regirse por principios de "mínimo privilegio", asegurando que incluso si una IA se ve comprometida, el atacante no pueda pivotar hacia toda la base de datos de producción.

Un camino a seguir

El incidente en McKinsey no es una señal de que la IA sea inherentemente insegura, sino más bien de que la industria de la seguridad está tratando de ponerse al día con la velocidad del despliegue de la IA. A medida que estas plataformas se convierten en el "sistema nervioso" de las principales consultorías y corporaciones, la responsabilidad de asegurarlas se traslada del departamento de TI a la junta directiva.

El hecho de que McKinsey pusiera la plataforma fuera de línea y parcheara las vulnerabilidades en cuestión de horas es un testimonio de la importancia de una política de divulgación proactiva y robusta, y de un equipo de respuesta de seguridad ágil. Sin embargo, a medida que los agentes de IA se vuelven más sofisticados, la ventana de tiempo disponible para la respuesta humana se reducirá. El objetivo final para la empresa será construir plataformas de IA que sean "seguras por diseño", donde la propia arquitectura evite el tipo de explotación automatizada a velocidad de máquina que definió este evento reciente.

Creati.ai continúa siguiendo de cerca estos desarrollos. La era de la ciberseguridad (cybersecurity) de humano contra humano está cediendo rápidamente a un futuro de IA contra IA, y para las empresas, esto significa que las herramientas defensivas de ayer ya no son suficientes para asegurar los modelos de negocio del mañana.