AI News

Investigadores de la Universidad de Florida presentan el método "HMNS" para eludir las protecciones avanzadas de IA

En un avance significativo para el campo de la seguridad de la inteligencia artificial, investigadores de la Universidad de Florida (UF) han ideado una novedosa técnica de jailbreaking capaz de eludir sistemáticamente los protocolos de seguridad de los principales modelos de lenguaje extensos (Large Language Models, LLMs), incluidos los desarrollados por gigantes de la industria como Meta y Microsoft. El método, denominado Direccionamiento del Espacio Nulo con Enmascaramiento de Cabezales (Head-Masked Nullspace Steering, HMNS), representa un cambio de paradigma en la forma en que se identifican las vulnerabilidades de la IA, yendo más allá de la ingeniería de prompts superficial para sondear la arquitectura interna de toma de decisiones de las redes neuronales.

El equipo de investigación, liderado por el profesor Sumit Kumar Jha del departamento de Ciencias e Ingeniería de la Computación e Información (Computer & Information Science & Engineering, CISE), ha publicado sus hallazgos en un artículo titulado "Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion". El trabajo ha sido aceptado para su presentación en la Conferencia Internacional sobre Representaciones de Aprendizaje de 2026 (International Conference on Learning Representations, ICLR), lo que confirma su estatus como una contribución de primer nivel a la investigación del aprendizaje profundo (deep learning).

El cambio de la inyección de prompts al direccionamiento interno

Durante años, el "jailbreaking" de un modelo de IA —engañarlo para que genere contenido restringido o dañino— dependía en gran medida de juegos de palabras ingeniosos. Los atacantes utilizaban "exploits de la abuela" o escenarios de juegos de rol para eludir los filtros de seguridad. Sin embargo, a medida que los proveedores de IA como OpenAI, Anthropic y Google han fortalecido sus defensas contra estos ataques semánticos, la efectividad de la inyección de prompts tradicional ha disminuido.

El enfoque del equipo de la UF con HMNS descarta la dependencia de trucos lingüísticos externos en favor de una intervención directa en el proceso computacional del modelo. Según la investigación, el HMNS funciona "abriendo el capó" del LLM. Identifica cabezales de atención (attention heads) específicos —los componentes responsables de procesar el contexto y las comprobaciones de seguridad— y los silencia de manera efectiva.

Al poner a cero estos componentes activos en la matriz de decisión del modelo y "direccionar" las rutas restantes, los investigadores pueden obligar a la IA a ignorar su entrenamiento de seguridad. Esto permite que el modelo responda a consultas que normalmente rechazaría, como generar código de malware o proporcionar instrucciones para actividades ilícitas, sin activar los mecanismos de rechazo habituales.

Desglose técnico: Direccionamiento del Espacio Nulo con Enmascaramiento de Cabezales

El método HMNS se basa en el concepto de "espacio nulo" (nullspace), un término matemático que se refiere a una región donde ciertas entradas no producen cambios en la salida de una función específica (en este caso, el filtro de seguridad). Al direccionar los patrones de activación del modelo hacia este espacio nulo en relación con los mecanismos de seguridad, el ataque hace que las protecciones sean invisibles para el propio monitoreo interno del modelo.

El profesor Jha describe el proceso como una prueba de los "cables internos" del sistema en lugar de solo su interfaz de usuario. "Uno no puede simplemente probar algo así usando prompts desde el exterior y decir que está bien", afirmó Jha. "Estamos abriendo el capó, tirando de los cables internos y comprobando qué se rompe. Así es como se hace más seguro. No hay atajos para eso".

La metodología consta de tres fases distintas:

  1. Identificación (Identification): El sistema analiza la respuesta del LLM a los prompts del usuario para determinar qué "cabezales" (mecanismos de atención) están más activos durante la generación de un rechazo (p. ej., "No puedo cumplir con esta solicitud").
  2. Enmascaramiento (Masking): Estos cabezales críticos para la seguridad identificados se silencian o "enmascaran" poniendo a cero su contribución a la matriz de decisión.
  3. Direccionamiento (Steering): Los componentes restantes se orientan sutilmente para generar el contenido prohibido, utilizando el "espacio nulo" para evitar la reactivación de los protocolos de seguridad.

Evaluación del éxito frente a los gigantes de la industria

Para validar la eficacia de HMNS, el equipo de investigación utilizó el supercomputador HiPerGator de la UF para realizar pruebas de estrés a gran escala contra los principales modelos comerciales y de código abierto. Los objetivos principales incluyeron sistemas de Meta y Microsoft, que son ampliamente considerados como poseedores de algunas de las alineaciones de seguridad más robustas de la industria.

Los resultados fueron contundentes. HMNS demostró ser notablemente efectivo, superando a los métodos de jailbreaking de vanguardia (state-of-the-art, SOTA) en cuatro evaluaciones comparativas (benchmarks) establecidas de la industria. Los investigadores introdujeron una métrica de "informe consciente del cómputo" (compute-aware reporting) para garantizar comparaciones justas, revelando que HMNS no solo logró mayores tasas de éxito, sino que lo hizo de manera más eficiente que los métodos anteriores.

Comparación de metodologías de Jailbreaking

Característica Inyección de prompts tradicional HMNS (Head-Masked Nullspace Steering)
Vector de ataque principal Manipulación semántica externa (p. ej., juego de rol) Manipulación de la arquitectura interna (direccionamiento de pesos/activaciones)
Mecanismo objetivo Filtros de entrada y patrones de entrenamiento RLHF Cabezales de atención y matrices de decisión
Resiliencia al parcheo Baja (se parchea fácilmente mediante actualizaciones de prompts del sistema) Alta (requiere intervenciones arquitectónicas o de reentrenamiento)
Requisito de recursos Bajo (puede ser realizado por usuarios estándar) Alto (requiere acceso a los componentes internos/gradientes del modelo)
Métrica de éxito Inconsistente, a menudo específica del modelo Consistentemente alta en múltiples arquitecturas

La capacidad de HMNS para eludir capas de defensa en los sistemas de Meta y Microsoft resalta una brecha crítica en los estándares actuales de seguridad de la IA. Si bien estas plataformas incorporan capas de seguridad sofisticadas destinadas a filtrar entradas y salidas, HMNS demuestra que estas capas pueden eludirse sistemáticamente si las rutas de procesamiento interno son accesibles o replicables.

El equipo detrás del avance

El desarrollo de HMNS fue un esfuerzo colaborativo en el que participaron instituciones académicas y de investigación. Junto al profesor Sumit Kumar Jha, el equipo incluye a:

  • Vishal Pramanik: Estudiante de doctorado en el departamento CISE de la UF, fundamental en el desarrollo de los algoritmos de direccionamiento.
  • Maisha Maliha: Colaboradora de la Universidad de Oklahoma.
  • Susmit Jha, Ph.D.: Investigador de SRI International.

El equipo aprovechó la inmensa potencia de cálculo del supercomputador HiPerGator, utilizando sus clústeres de GPU NVIDIA A100 y H100 para realizar los complejos cálculos matriciales necesarios para identificar los vectores del espacio nulo en tiempo real. Esta capacidad computacional fue crucial para realizar "pruebas de estrés" a los modelos a una escala que imita los posibles ataques adversarios de actores sofisticados a nivel estatal.

Implicaciones para la seguridad y gobernanza de la IA

La publicación de esta investigación en ICLR 2026 llega en un momento crucial. A medida que los agentes de IA pasan de ser interfaces de chat novedosas a infraestructuras críticas —asistiendo en el desarrollo de software, análisis financiero y diagnósticos médicos—, el costo de un fallo de seguridad se ha disparado.

La estrategia de "Defensa en Profundidad" (Defense in Depth) citada a menudo por los profesionales de la ciberseguridad postula que son necesarias múltiples capas de seguridad para proteger un sistema. Sin embargo, los hallazgos del equipo de la UF sugieren que las técnicas de "alineación" actuales (que entrenan modelos para rechazar consultas dañinas) pueden ser frágiles cuando las activaciones neuronales subyacentes se manipulan directamente.

"Al mostrar exactamente cómo se rompen estas defensas, brindamos a los desarrolladores de IA la información que necesitan para construir defensas que realmente resistan", explicó Jha. "El lanzamiento público de una IA potente solo es sostenible si las medidas de seguridad pueden soportar un escrutinio real y, en este momento, nuestro trabajo muestra que todavía hay una brecha. Queremos ayudar a cerrarla".

La investigación implica que los futuros mecanismos de defensa de la IA no pueden depender únicamente del "ajuste fino" (fine-tuning) o del "RLHF" (aprendizaje por refuerzo a partir de la retroalimentación humana, Reinforcement Learning from Human Feedback) para suprimir las salidas dañinas. En su lugar, los desarrolladores pueden necesitar diseñar modelos con resistencia intrínseca al direccionamiento interno, potencialmente creando representaciones "entrelazadas" donde las características de seguridad no puedan aislarse y enmascararse sin destruir la utilidad general del modelo.

Respuesta de la industria y perspectivas futuras

Aunque Meta y Microsoft no han emitido comentarios específicos sobre la vulnerabilidad HMNS, la respuesta estándar de la industria ante tales hallazgos de "Red Teaming" es integrar los vectores de ataque en futuras ejecuciones de entrenamiento. Al exponer estas vulnerabilidades en un entorno académico controlado, los investigadores de la UF están inoculando de manera efectiva a la próxima generación de modelos contra ataques similares.

La aceptación del artículo en ICLR 2026 garantiza que la metodología será escrutada y probablemente ampliada por la comunidad global de investigación en IA. A medida que continúa la carrera armamentista entre las capacidades de la IA y la seguridad de la IA, métodos como el Direccionamiento del Espacio Nulo con Enmascaramiento de Cabezales sirven como recordatorio de que a medida que los modelos se vuelven más complejos, los métodos requeridos para asegurarlos deben volverse igualmente sofisticados.

Por ahora, el trabajo se erige como un testimonio de la necesidad de la investigación de seguridad ofensiva. Al romper la matriz, el equipo de la Universidad de Florida está ayudando a garantizar que la infraestructura de IA del futuro se construya sobre una base de seguridad verificable, en lugar de solo la ilusión de esta.

Destacados
AdsCreator.com
Genera al instante creatividades publicitarias pulidas y coherentes con la marca desde cualquier URL para Meta, Google y Stories.
Refly.ai
Refly.AI permite a creadores no técnicos automatizar flujos de trabajo usando lenguaje natural y un lienzo visual.
VoxDeck
Creador de presentaciones con IA que lidera la revolución visual
FixArt AI
FixArt AI ofrece herramientas de IA gratuitas y sin restricciones para la generación de imágenes y videos sin necesidad de registrarse.
BGRemover
Elimina fácilmente los fondos de imágenes en línea con SharkFoto BGRemover.
Skywork.ai
Skywork AI es una herramienta innovadora para aumentar la productividad utilizando IA.
FineVoice
Convierte el texto en emoción — Clona, diseña y crea voces de IA expresivas en segundos.
Qoder
Qoder es un asistente de codificación impulsado por IA que automatiza la planificación, la codificación y las pruebas para proyectos de software.
Flowith
Flowith es un espacio de trabajo agéntico basado en lienzo que ofrece gratis 🍌Nano Banana Pro y otros modelos efectivos.
Elser AI
Estudio web todo‑en‑uno que convierte texto e imágenes en arte estilo anime, personajes, voces y cortometrajes.
Pippit
¡Eleva tu creación de contenido con las poderosas herramientas de IA de Pippit!
SharkFoto
SharkFoto es una plataforma todo-en-uno impulsada por IA para crear y editar videos, imágenes y música de manera eficiente.
Funy AI
¡Anima tus fantasías! Crea vídeos de besos y bikinis con IA a partir de imágenes o texto. Prueba el cambiador de ropa IA
KiloClaw
Agente OpenClaw alojado: despliegue con un clic, más de 500 modelos, infraestructura segura y gestión automatizada de agentes para equipos y desarrolladores.
Diagrimo
Diagrimo transforma el texto en diagramas y visuales generados por IA personalizables al instante.
SuperMaker AI Video Generator
Crea videos, música e imágenes impresionantes sin esfuerzo con SuperMaker.
AI Clothes Changer by SharkFoto
AI Clothes Changer de SharkFoto te permite probar virtualmente atuendos al instante con ajuste, textura e iluminación realistas.
Yollo AI
Chatea y crea junto a tu compañero IA. De imagen a video y generación de imágenes IA.
AnimeShorts
Crea cortos de anime impresionantes sin esfuerzo con tecnología de IA de vanguardia.
HappyHorseAIStudio
Generador de videos con IA basado en navegador para texto, imágenes, referencias y edición de video.
Anijam AI
Anijam es una plataforma de animación nativa de IA que convierte ideas en historias pulidas mediante creación de video agentiva.
happy horse AI
Generador de video de IA de código abierto que crea video y audio sincronizados a partir de texto o imágenes.
InstantChapters
Genera capítulos de libros cautivadores al instante con Instant Chapters.
wan 2.7-image
Un generador de imágenes con IA controlable para rostros precisos, paletas, texto y continuidad visual.
NerdyTips
Una plataforma de predicciones de fútbol impulsada por IA que ofrece consejos de partidos basados en datos en ligas de todo el mundo.
WhatsApp AI Sales
WABot es un copiloto de ventas con IA para WhatsApp que ofrece scripts en tiempo real, traducciones y detección de intención.
Claude API
Claude API for Everyone
AI Video API: Seedance 2.0 Here
API de video con IA unificada que ofrece modelos de última generación a través de una sola clave y a menor costo.
Image to Video AI without Login
Herramienta gratuita de IA de Imagen a Video que transforma fotos al instante en videos animados fluidos y de alta calidad sin marcas de agua.
insmelo AI Music Generator
Generador de música impulsado por IA que convierte prompts, letras o cargas en canciones pulidas y libres de regalías en aproximadamente un minuto.
BeatMV
Plataforma de IA basada en la web que convierte canciones en videoclips cinematográficos y crea música con IA.
UNI-1 AI
UNI-1 es un modelo unificado de generación de imágenes que combina razonamiento visual con síntesis de imágenes de alta fidelidad.
Kirkify
Kirkify AI crea al instante memes virales de intercambio de rostros con una estética neon-glitch distintiva para creadores de memes.
Wan 2.7
Modelo de video AI de grado profesional con control preciso del movimiento y consistencia multi‑vista.
Text to Music
Convierte texto o letras en canciones completas de calidad de estudio con voces generadas por IA, instrumentos y exportaciones multipista.
Iara Chat
Iara Chat: Un asistente de productividad y comunicación impulsado por IA.
kinovi - Seedance 2.0 - Real Man AI Video
Generador de vídeo IA gratuito con salida humana realista, sin marca de agua y con derechos completos de uso comercial.
Video Sora 2
Sora 2 AI convierte texto o imágenes en videos cortos para redes sociales y eCommerce con movimiento físicamente preciso en minutos.
Lyria3 AI
Generador de música con IA que crea canciones totalmente producidas y de alta fidelidad a partir de indicaciones de texto, letras y estilos al instante.
Tome AI PPT
Generador de presentaciones impulsado por IA que crea, embellece y exporta presentaciones profesionales en minutos.
Atoms
Plataforma impulsada por IA que crea aplicaciones y sitios web full‑stack en minutos utilizando automatización multiagente, sin necesidad de programar.
Paper Banana
Herramienta impulsada por IA para convertir texto académico en diagramas metodológicos listos para publicación y gráficos estadísticos precisos al instante.
AI Pet Video Generator
Crea videos virales y para compartir de mascotas a partir de fotos usando plantillas impulsadas por IA y exportaciones HD instantáneas para plataformas sociales.
Ampere.SH
Alojamiento OpenClaw gestionado gratuito. Despliega agentes IA en 60 segundos con $500 en créditos Claude.
Palix AI
Plataforma de IA todo‑en‑uno para creadores que genera imágenes, videos y música con créditos unificados.
Hitem3D
Hitem3D convierte una sola imagen en modelos 3D de alta resolución y listos para producción mediante IA.
GenPPT.AI
Generador de PPT impulsado por IA que crea, embellece y exporta presentaciones profesionales de PowerPoint con notas del presentador y gráficos en minutos.
HookTide
Plataforma de crecimiento en LinkedIn impulsada por IA que aprende tu voz para crear contenido, interactuar y analizar el rendimiento.
Create WhatsApp Link
Generador gratuito de enlaces y códigos QR para WhatsApp con analíticas, enlaces con marca, enrutamiento y funciones de chat multiagente.
Seedance 20 Video
Seedance 2 es un generador de video IA multimodal que ofrece personajes consistentes, narrativa en múltiples tomas y audio nativo en 2K.
Gobii
Gobii permite a los equipos crear trabajadores digitales autónomos 24/7 para automatizar la investigación web y tareas rutinarias.
Free AI Video Maker & Generator
Creador y Generador de Videos IA Gratis – Ilimitado, Sin Registro
Veemo - AI Video Generator
Veemo AI es una plataforma todo en uno que genera rápidamente videos e imágenes de alta calidad a partir de texto o imágenes.
AI FIRST
Asistente conversacional de IA que automatiza investigación, tareas del navegador, scraping web y gestión de archivos mediante lenguaje natural.
GLM Image
GLM Image combina modelos híbridos autorregresivos y de difusión para generar imágenes AI de alta fidelidad con una representación de texto excepcional.
ainanobanana2
Nano Banana 2 genera imágenes 4K de calidad profesional en 4–6 segundos con renderizado de texto preciso y consistencia de sujetos.
WhatsApp Warmup Tool
Herramienta de calentamiento de WhatsApp impulsada por IA que automatiza el envío masivo de mensajes mientras previene bloqueos de cuentas.
TextToHuman
Humanizador de IA gratuito que reescribe instantáneamente textos generados por IA en redacción natural y similar a la humana. No requiere registro.
Manga Translator AI
AI Manga Translator traduce instantáneamente imágenes de manga a múltiples idiomas en línea.
Remy - Newsletter Summarizer
Remy automatiza la gestión de newsletters resumiendo emails en insights fáciles de digerir.

Investigadores de la Universidad de Florida desarrollan un método de jailbreak de IA para fortalecer la seguridad

Científicos de la UF crean el método HMNS para probar medidas de seguridad de la IA, eludiendo con éxito sistemas de Meta y Microsoft para identificar vulnerabilidades de seguridad.