
La reciente demostración realizada por investigadores de ciberseguridad en CodeWall ha enviado un mensaje escalofriante al sector de la IA empresarial. Un agente de IA ofensivo autónomo (Autonomous offensive AI agent) —que actúa sin intervención humana, credenciales ni conocimiento interno previo— comprometió con éxito la plataforma interna de IA generativa (Generative AI) de McKinsey, "Lilli", en menos de dos horas. Mientras que la industria tecnológica se ha centrado obsesivamente en los riesgos existenciales de los "robots asesinos" o en ataques complejos de inyección de prompts (Prompt injection), este incidente sirve como un recordatorio brutal de que las amenazas más peligrosas para la infraestructura de IA a menudo surgen de fallos de seguridad fundamentales que han existido durante décadas.
Este evento no es simplemente una filtración de datos; es una prueba de concepto para la nueva era de la guerra cibernética. A medida que las organizaciones se apresuran a integrar la IA generativa en sus flujos de trabajo, están expandiendo inadvertidamente sus superficies de ataque, creando entornos donde los agentes autónomos pueden identificar, explotar y penetrar sistemas a velocidad de máquina. Para McKinsey, una firma construida sobre los pilares de la privacidad de los datos y la confidencialidad estratégica, este compromiso de una plataforma interna —utilizada por más de 40.000 empleados— ilustra la necesidad urgente de un cambio de paradigma en la forma en que aseguramos la IA empresarial.
La brecha, llevada a cabo por CodeWall, utilizó un agente autónomo diseñado para identificar vulnerabilidades en la documentación de API pública. A diferencia de los atacantes humanos que podrían pasar días o semanas realizando reconocimientos, el agente de CodeWall operó a la velocidad de la computación. En 120 minutos, el agente logró acceso total de lectura y escritura a la base de datos de producción que sustenta a Lilli.
El agente no se basó en exploits exóticos específicos de IA. En su lugar, mapeó sistemáticamente la infraestructura e identificó documentación técnica expuesta que enumeraba más de 200 puntos finales (endpoints). De ellos, 22 endpoints no requerían autenticación. Al iterar a través de estos, el agente descubrió una vulnerabilidad clásica de inyección SQL (SQL injection).
La eficacia del agente se vio amplificada por su naturaleza autónoma. Fue capaz de:
Quizás el aspecto más sorprendente del caso McKinsey es el propio vector de ataque: la inyección SQL. Esta es una clase de vulnerabilidad que ha sido documentada desde la década de 1990. El hecho de que una plataforma de IA generativa de vanguardia pudiera ser víctima de una vulnerabilidad web "básica" resalta una desconexión entre el desarrollo de las capacidades de IA y la madurez de la infraestructura de seguridad que las rodea.
El incidente subraya una lección crucial para los desarrolladores: los sistemas de IA son, ante todo, sistemas de software. Cuando los desarrolladores construyen envoltorios alrededor de modelos de lenguaje de gran tamaño (LLM - Large Language Models) para conectarlos con bases de datos, están construyendo efectivamente nuevas aplicaciones web. Si la capa de API que conecta el LLM con la base de datos no sanea las entradas —como fue el caso de Lilli, donde los nombres de los campos JSON se inyectaron directamente en las consultas—, las capacidades avanzadas de razonamiento de la IA pasan a ser secundarias frente a las vulnerabilidades del servidor host.
La siguiente tabla contrasta los desafíos de seguridad tradicionales que enfrentan las aplicaciones web estándar con el perfil de riesgo escalado de las plataformas modernas integradas con IA.
| Tipo de vulnerabilidad | Mecanismo de ataque | Nivel de riesgo para plataformas de IA |
|---|---|---|
| Inyección SQL | Inyección de código malicioso en consultas de base de datos a través de entradas no validadas | Alto Acceso directo a datos de generación aumentada por recuperación (RAG - Retrieval-Augmented Generation) y prompts del sistema |
| Inyección de prompts | Manipulación de las instrucciones del LLM para eludir las protecciones | Crítico Can lead to data exfiltration or malicious code execution |
| Acceso no autorizado a API | Explotación de endpoints no autenticados en microservicios | Alto Proporciona el punto de entrada para agentes automatizados |
| Inversión de modelo | Reconstrucción de datos de entrenamiento a partir de las salidas del modelo | Medio Riesgo de exponer información confidencial de clientes |
Aunque la brecha de McKinsey fue un ejercicio controlado de Red Teaming (Equipo Rojo), demuestra un futuro donde los agentes autónomos serán utilizados por actores maliciosos para escalar los ataques. La capacidad de un agente para elegir autónomamente un objetivo, investigar su documentación, identificar un endpoint débil y ejecutar un ciclo de explotación es un multiplicador de fuerzas.
Tradicionalmente, un hacker humano podría optar por seguir adelante si un objetivo resulta demasiado resistente o consume demasiado tiempo. Un agente de IA no sufre tales limitaciones. Puede trabajar continuamente, las 24 horas del día, los 7 días de la semana, en múltiples objetivos simultáneamente, lo que lo convierte en una herramienta esencial para la próxima generación de ciberamenazas.
Para las empresas, la conclusión es clara: la "IA en la sombra" (Shadow AI) y las herramientas internas desplegadas rápidamente pueden convertirse en pasivos si no se tratan con los mismos estándares de seguridad rigurosos que los sistemas financieros o de cara al cliente principales.
El incidente en McKinsey no es una señal de que la IA sea inherentemente insegura, sino más bien de que la industria de la seguridad está tratando de ponerse al día con la velocidad del despliegue de la IA. A medida que estas plataformas se convierten en el "sistema nervioso" de las principales consultorías y corporaciones, la responsabilidad de asegurarlas se traslada del departamento de TI a la junta directiva.
El hecho de que McKinsey pusiera la plataforma fuera de línea y parcheara las vulnerabilidades en cuestión de horas es un testimonio de la importancia de una política de divulgación proactiva y robusta, y de un equipo de respuesta de seguridad ágil. Sin embargo, a medida que los agentes de IA se vuelven más sofisticados, la ventana de tiempo disponible para la respuesta humana se reducirá. El objetivo final para la empresa será construir plataformas de IA que sean "seguras por diseño", donde la propia arquitectura evite el tipo de explotación automatizada a velocidad de máquina que definió este evento reciente.
Creati.ai continúa siguiendo de cerca estos desarrollos. La era de la ciberseguridad (cybersecurity) de humano contra humano está cediendo rápidamente a un futuro de IA contra IA, y para las empresas, esto significa que las herramientas defensivas de ayer ya no son suficientes para asegurar los modelos de negocio del mañana.