Investigadores de la Universidad de Florida desarrollan un método de jailbreak de IA para fortalecer la seguridad

Investigadores de la Universidad de Florida presentan el método "HMNS" para eludir las protecciones avanzadas de IA

En un avance significativo para el campo de la seguridad de la inteligencia artificial, investigadores de la Universidad de Florida (UF) han ideado una novedosa técnica de jailbreaking capaz de eludir sistemáticamente los protocolos de seguridad de los principales modelos de lenguaje extensos (Large Language Models, LLMs), incluidos los desarrollados por gigantes de la industria como Meta y Microsoft. El método, denominado Direccionamiento del Espacio Nulo con Enmascaramiento de Cabezales (Head-Masked Nullspace Steering, HMNS), representa un cambio de paradigma en la forma en que se identifican las vulnerabilidades de la IA, yendo más allá de la ingeniería de prompts superficial para sondear la arquitectura interna de toma de decisiones de las redes neuronales.

El equipo de investigación, liderado por el profesor Sumit Kumar Jha del departamento de Ciencias e Ingeniería de la Computación e Información (Computer & Information Science & Engineering, CISE), ha publicado sus hallazgos en un artículo titulado "Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion". El trabajo ha sido aceptado para su presentación en la Conferencia Internacional sobre Representaciones de Aprendizaje de 2026 (International Conference on Learning Representations, ICLR), lo que confirma su estatus como una contribución de primer nivel a la investigación del aprendizaje profundo (deep learning).

El cambio de la inyección de prompts al direccionamiento interno

Durante años, el "jailbreaking" de un modelo de IA —engañarlo para que genere contenido restringido o dañino— dependía en gran medida de juegos de palabras ingeniosos. Los atacantes utilizaban "exploits de la abuela" o escenarios de juegos de rol para eludir los filtros de seguridad. Sin embargo, a medida que los proveedores de IA como OpenAI, Anthropic y Google han fortalecido sus defensas contra estos ataques semánticos, la efectividad de la inyección de prompts tradicional ha disminuido.

El enfoque del equipo de la UF con HMNS descarta la dependencia de trucos lingüísticos externos en favor de una intervención directa en el proceso computacional del modelo. Según la investigación, el HMNS funciona "abriendo el capó" del LLM. Identifica cabezales de atención (attention heads) específicos —los componentes responsables de procesar el contexto y las comprobaciones de seguridad— y los silencia de manera efectiva.

Al poner a cero estos componentes activos en la matriz de decisión del modelo y "direccionar" las rutas restantes, los investigadores pueden obligar a la IA a ignorar su entrenamiento de seguridad. Esto permite que el modelo responda a consultas que normalmente rechazaría, como generar código de malware o proporcionar instrucciones para actividades ilícitas, sin activar los mecanismos de rechazo habituales.

Desglose técnico: Direccionamiento del Espacio Nulo con Enmascaramiento de Cabezales

El método HMNS se basa en el concepto de "espacio nulo" (nullspace), un término matemático que se refiere a una región donde ciertas entradas no producen cambios en la salida de una función específica (en este caso, el filtro de seguridad). Al direccionar los patrones de activación del modelo hacia este espacio nulo en relación con los mecanismos de seguridad, el ataque hace que las protecciones sean invisibles para el propio monitoreo interno del modelo.

El profesor Jha describe el proceso como una prueba de los "cables internos" del sistema en lugar de solo su interfaz de usuario. "Uno no puede simplemente probar algo así usando prompts desde el exterior y decir que está bien", afirmó Jha. "Estamos abriendo el capó, tirando de los cables internos y comprobando qué se rompe. Así es como se hace más seguro. No hay atajos para eso".

La metodología consta de tres fases distintas:

Identificación (Identification): El sistema analiza la respuesta del LLM a los prompts del usuario para determinar qué "cabezales" (mecanismos de atención) están más activos durante la generación de un rechazo (p. ej., "No puedo cumplir con esta solicitud").
Enmascaramiento (Masking): Estos cabezales críticos para la seguridad identificados se silencian o "enmascaran" poniendo a cero su contribución a la matriz de decisión.
Direccionamiento (Steering): Los componentes restantes se orientan sutilmente para generar el contenido prohibido, utilizando el "espacio nulo" para evitar la reactivación de los protocolos de seguridad.

Evaluación del éxito frente a los gigantes de la industria

Para validar la eficacia de HMNS, el equipo de investigación utilizó el supercomputador HiPerGator de la UF para realizar pruebas de estrés a gran escala contra los principales modelos comerciales y de código abierto. Los objetivos principales incluyeron sistemas de Meta y Microsoft, que son ampliamente considerados como poseedores de algunas de las alineaciones de seguridad más robustas de la industria.

Los resultados fueron contundentes. HMNS demostró ser notablemente efectivo, superando a los métodos de jailbreaking de vanguardia (state-of-the-art, SOTA) en cuatro evaluaciones comparativas (benchmarks) establecidas de la industria. Los investigadores introdujeron una métrica de "informe consciente del cómputo" (compute-aware reporting) para garantizar comparaciones justas, revelando que HMNS no solo logró mayores tasas de éxito, sino que lo hizo de manera más eficiente que los métodos anteriores.

Comparación de metodologías de Jailbreaking

Característica	Inyección de prompts tradicional	HMNS (Head-Masked Nullspace Steering)
Vector de ataque principal	Manipulación semántica externa (p. ej., juego de rol)	Manipulación de la arquitectura interna (direccionamiento de pesos/activaciones)
Mecanismo objetivo	Filtros de entrada y patrones de entrenamiento RLHF	Cabezales de atención y matrices de decisión
Resiliencia al parcheo	Baja (se parchea fácilmente mediante actualizaciones de prompts del sistema)	Alta (requiere intervenciones arquitectónicas o de reentrenamiento)
Requisito de recursos	Bajo (puede ser realizado por usuarios estándar)	Alto (requiere acceso a los componentes internos/gradientes del modelo)
Métrica de éxito	Inconsistente, a menudo específica del modelo	Consistentemente alta en múltiples arquitecturas

La capacidad de HMNS para eludir capas de defensa en los sistemas de Meta y Microsoft resalta una brecha crítica en los estándares actuales de seguridad de la IA. Si bien estas plataformas incorporan capas de seguridad sofisticadas destinadas a filtrar entradas y salidas, HMNS demuestra que estas capas pueden eludirse sistemáticamente si las rutas de procesamiento interno son accesibles o replicables.

El equipo detrás del avance

El desarrollo de HMNS fue un esfuerzo colaborativo en el que participaron instituciones académicas y de investigación. Junto al profesor Sumit Kumar Jha, el equipo incluye a:

Vishal Pramanik: Estudiante de doctorado en el departamento CISE de la UF, fundamental en el desarrollo de los algoritmos de direccionamiento.
Maisha Maliha: Colaboradora de la Universidad de Oklahoma.
Susmit Jha, Ph.D.: Investigador de SRI International.

El equipo aprovechó la inmensa potencia de cálculo del supercomputador HiPerGator, utilizando sus clústeres de GPU NVIDIA A100 y H100 para realizar los complejos cálculos matriciales necesarios para identificar los vectores del espacio nulo en tiempo real. Esta capacidad computacional fue crucial para realizar "pruebas de estrés" a los modelos a una escala que imita los posibles ataques adversarios de actores sofisticados a nivel estatal.

Implicaciones para la seguridad y gobernanza de la IA

La publicación de esta investigación en ICLR 2026 llega en un momento crucial. A medida que los agentes de IA pasan de ser interfaces de chat novedosas a infraestructuras críticas —asistiendo en el desarrollo de software, análisis financiero y diagnósticos médicos—, el costo de un fallo de seguridad se ha disparado.

La estrategia de "Defensa en Profundidad" (Defense in Depth) citada a menudo por los profesionales de la ciberseguridad postula que son necesarias múltiples capas de seguridad para proteger un sistema. Sin embargo, los hallazgos del equipo de la UF sugieren que las técnicas de "alineación" actuales (que entrenan modelos para rechazar consultas dañinas) pueden ser frágiles cuando las activaciones neuronales subyacentes se manipulan directamente.

"Al mostrar exactamente cómo se rompen estas defensas, brindamos a los desarrolladores de IA la información que necesitan para construir defensas que realmente resistan", explicó Jha. "El lanzamiento público de una IA potente solo es sostenible si las medidas de seguridad pueden soportar un escrutinio real y, en este momento, nuestro trabajo muestra que todavía hay una brecha. Queremos ayudar a cerrarla".

La investigación implica que los futuros mecanismos de defensa de la IA no pueden depender únicamente del "ajuste fino" (fine-tuning) o del "RLHF" (aprendizaje por refuerzo a partir de la retroalimentación humana, Reinforcement Learning from Human Feedback) para suprimir las salidas dañinas. En su lugar, los desarrolladores pueden necesitar diseñar modelos con resistencia intrínseca al direccionamiento interno, potencialmente creando representaciones "entrelazadas" donde las características de seguridad no puedan aislarse y enmascararse sin destruir la utilidad general del modelo.

Respuesta de la industria y perspectivas futuras

Aunque Meta y Microsoft no han emitido comentarios específicos sobre la vulnerabilidad HMNS, la respuesta estándar de la industria ante tales hallazgos de "Red Teaming" es integrar los vectores de ataque en futuras ejecuciones de entrenamiento. Al exponer estas vulnerabilidades en un entorno académico controlado, los investigadores de la UF están inoculando de manera efectiva a la próxima generación de modelos contra ataques similares.

La aceptación del artículo en ICLR 2026 garantiza que la metodología será escrutada y probablemente ampliada por la comunidad global de investigación en IA. A medida que continúa la carrera armamentista entre las capacidades de la IA y la seguridad de la IA, métodos como el Direccionamiento del Espacio Nulo con Enmascaramiento de Cabezales sirven como recordatorio de que a medida que los modelos se vuelven más complejos, los métodos requeridos para asegurarlos deben volverse igualmente sofisticados.

Por ahora, el trabajo se erige como un testimonio de la necesidad de la investigación de seguridad ofensiva. Al romper la matriz, el equipo de la Universidad de Florida está ayudando a garantizar que la infraestructura de IA del futuro se construya sobre una base de seguridad verificable, en lugar de solo la ilusión de esta.