Pesquisadores da Universidade da Flórida desenvolvem método de jailbreak de IA para reforçar a segurança

Pesquisadores da Universidade da Flórida Revelam Método "HMNS" para Ignorar Proteções Avançadas de IA

Em um desenvolvimento significativo para o campo da segurança de inteligência artificial, pesquisadores da Universidade da Flórida (UF) criaram uma técnica inovadora de jailbreaking capaz de ignorar sistematicamente os protocolos de segurança dos principais grandes modelos de linguagem (Large Language Models - LLMs), incluindo aqueles desenvolvidos pelas gigantes da indústria Meta e Microsoft. O método, denominado Direcionamento de Espaço Nulo com Máscara de Cabeça (Head-Masked Nullspace Steering - HMNS), representa uma mudança de paradigma na forma como as vulnerabilidades de IA são identificadas, indo além da engenharia de prompt (prompt engineering) superficial para sondar a arquitetura interna de tomada de decisão das redes neurais.

A equipe de pesquisa, liderada pelo Professor Sumit Kumar Jha do departamento de Ciência e Engenharia de Computação e Informação (CISE), publicou suas descobertas em um artigo intitulado "Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion." O trabalho foi aceito para apresentação na Conferência Internacional sobre Representações de Aprendizagem (International Conference on Learning Representations - ICLR) de 2026, confirmando seu status como uma contribuição de destaque para a pesquisa de aprendizado profundo (deep learning).

A Mudança da Injeção de Prompt para o Direcionamento Interno

Por anos, o "jailbreaking" de um modelo de IA — enganá-lo para gerar conteúdo restrito ou prejudicial — dependeu fortemente de jogos de palavras inteligentes. Os atacantes usavam "exploits da vovó" ou cenários de RPG para burlar os filtros de segurança. No entanto, à medida que provedores de IA como OpenAI, Anthropic e Google fortaleceram suas defesas contra esses ataques semânticos, a eficácia da injeção de prompt tradicional diminuiu.

A abordagem da equipe da UF com o HMNS descarta a dependência de truques linguísticos externos em favor de uma intervenção direta no processo computacional do modelo. De acordo com a pesquisa, o HMNS opera "abrindo o capô" do LLM. Ele identifica cabeças de atenção (attention heads) específicas — os componentes responsáveis pelo processamento de contexto e verificações de segurança — e efetivamente as silencia.

Ao zerar esses componentes ativos na matriz de decisão do modelo e "direcionar" os caminhos restantes, os pesquisadores podem forçar a IA a ignorar seu treinamento de segurança. Isso permite que o modelo responda a consultas que normalmente recusaria, como gerar código de malware ou fornecer instruções para atividades ilícitas, sem acionar os mecanismos habituais de recusa.

Detalhamento Técnico: Head-Masked Nullspace Steering

O método HMNS é construído sobre o conceito de "espaço nulo" (nullspace) — um termo matemático que se refere a uma região onde certas entradas não produzem alteração na saída de uma função específica (neste caso, o filtro de segurança). Ao direcionar os padrões de ativação do modelo para este espaço nulo em relação aos mecanismos de segurança, o ataque torna as proteções invisíveis para o próprio monitoramento interno do modelo.

O Professor Jha descreve o processo como testar os "fios internos" do sistema, em vez de apenas sua interface de usuário. "Não se pode apenas testar algo assim usando prompts do lado de fora e dizer que está tudo bem", afirmou Jha. "Estamos abrindo o capô, puxando os fios internos e verificando o que quebra. É assim que se torna mais seguro. Não há atalho para isso."

A metodologia envolve três fases distintas:

Identificação: O sistema analisa a resposta do LLM aos prompts do usuário para determinar quais "cabeças" (mecanismos de atenção) estão mais ativas durante a geração de uma recusa (por exemplo, "Não posso atender a esta solicitação").
Mascaramento: Essas cabeças identificadas como críticas para a segurança são silenciadas ou "mascaradas" ao zerar sua contribuição para a matriz de decisão.
Direcionamento: Os componentes restantes são sutilmente induzidos a gerar o conteúdo proibido, utilizando o "espaço nulo" para evitar a reativação dos protocolos de segurança.

Testes de Desempenho Contra Gigantes da Indústria

Para validar a eficácia do HMNS, a equipe de pesquisa utilizou o supercomputador HiPerGator da UF para realizar testes de estresse em larga escala contra os principais modelos comerciais e de código aberto. Os alvos primários incluíram sistemas da Meta e da Microsoft, que são amplamente considerados como tendo alguns dos alinhamentos de segurança mais robustos da indústria.

Os resultados foram contundentes. O HMNS provou ser notavelmente eficaz, superando os métodos de jailbreaking de última geração (state-of-the-art - SOTA) em quatro benchmarks estabelecidos da indústria. Os pesquisadores introduziram uma métrica de "relatório consciente de computação" para garantir comparações justas, revelando que o HMNS não apenas alcançou taxas de sucesso mais altas, mas o fez de forma mais eficiente do que os métodos anteriores.

Comparação de Metodologias de Jailbreaking

Recurso	Injeção de Prompt Tradicional	HMNS (Head-Masked Nullspace Steering)
Vetor de Ataque Primário	Manipulação semântica externa (ex: RPG)	Manipulação de arquitetura interna (direcionamento de peso/ativação)
Mecanismo Alvo	Filtros de entrada e padrões de treinamento RLHF	Cabeças de atenção e matrizes de decisão
Resiliência a Correções	Baixa (facilmente corrigida via atualizações de prompt do sistema)	Alta (requer intervenções arquiteturais ou de retreinamento)
Requisito de Recursos	Baixo (pode ser feito por usuários padrão)	Alto (requer acesso aos componentes internos/gradientes do modelo)
Métrica de Sucesso	Inconsistente, frequentemente específica do modelo	Consistentemente alta em múltiplas arquiteturas

A capacidade do HMNS de ignorar camadas de defesa nos sistemas da Meta e da Microsoft destaca uma lacuna crítica nos padrões atuais de segurança de IA. Embora essas plataformas incorporem camadas de segurança sofisticadas destinadas a filtrar entradas e saídas, o HMNS demonstra que essas camadas podem ser sistematicamente contornadas se os caminhos de processamento interno forem acessíveis ou replicáveis.

A Equipe por Trás da Descoberta

O desenvolvimento do HMNS foi um esforço colaborativo envolvendo instituições acadêmicas e de pesquisa. Ao lado do Professor Sumit Kumar Jha, a equipe inclui:

Vishal Pramanik: Estudante de doutorado no departamento CISE da UF, fundamental no desenvolvimento dos algoritmos de direcionamento.
Maisha Maliha: Colaboradora da Universidade de Oklahoma.
Susmit Jha, Ph.D.: Pesquisador da SRI International.

A equipe aproveitou o imenso poder de processamento do supercomputador HiPerGator, utilizando seus clusters de GPU NVIDIA A100 e H100 para realizar os complexos cálculos de matriz necessários para identificar os vetores de espaço nulo em tempo real. Essa capacidade computacional foi crucial para os "testes de estresse" dos modelos em uma escala que simula potenciais ataques adversários de atores sofisticados em nível estatal.

Implicações para a Segurança e Governança de IA

A publicação desta pesquisa no ICLR 2026 ocorre em um momento crucial. À medida que os agentes de IA passam de interfaces de chat de novidade para infraestruturas críticas — auxiliando no desenvolvimento de software, análise financeira e diagnósticos médicos — o custo de uma falha de segurança disparou.

A estratégia de "Defesa em Profundidade" (Defense in Depth) frequentemente citada por profissionais de cibersegurança postula que múltiplas camadas de segurança são necessárias para proteger um sistema. No entanto, as descobertas da equipe da UF sugerem que as técnicas atuais de "alinhamento" (que treinam modelos para recusar consultas prejudiciais) podem ser frágeis quando as ativações neurais subjacentes são manipuladas diretamente.

"Ao mostrar exatamente como essas defesas quebram, damos aos desenvolvedores de IA as informações de que precisam para construir defesas que realmente resistam", explicou Jha. "O lançamento público de IAs poderosas só é sustentável se as medidas de segurança puderem resistir a um escrutínio real e, no momento, nosso trabalho mostra que ainda há uma lacuna. Queremos ajudar a fechá-la."

A pesquisa implica que os futuros mecanismos de defesa de IA não podem depender apenas de "ajuste fino" (fine-tuning) ou "RLHF" (Aprendizado por Reforço com Feedback Humano - Reinforcement Learning from Human Feedback) para suprimir saídas prejudiciais. Em vez disso, os desenvolvedores podem precisar arquitetar modelos com resistência intrínseca ao direcionamento interno, potencialmente criando representações "emaranhadas" onde os recursos de segurança não possam ser isolados e mascarados sem destruir a utilidade geral do modelo.

Resposta da Indústria e Perspectivas Futuras

Embora a Meta e a Microsoft não tenham emitido comentários específicos sobre a vulnerabilidade HMNS, a resposta padrão da indústria a tais descobertas de "Red Teaming" é integrar os vetores de ataque em futuras sessões de treinamento. Ao expor essas vulnerabilidades em um ambiente acadêmico controlado, os pesquisadores da UF estão efetivamente inoculando a próxima geração de modelos contra ataques semelhantes.

A aceitação do artigo no ICLR 2026 garante que a metodologia será examinada e provavelmente aprimorada pela comunidade global de pesquisa em IA. Enquanto a corrida armamentista entre as capacidades da IA e a segurança da IA continua, métodos como o Head-Masked Nullspace Steering servem como um lembrete de que, à medida que os modelos se tornam mais complexos, os métodos necessários para protegê-los devem se tornar igualmente sofisticados.

Por enquanto, o trabalho permanece como um testemunho da necessidade de pesquisa de segurança ofensiva. Ao quebrar a matriz, a equipe da Universidade da Flórida está ajudando a garantir que a infraestrutura de IA do futuro seja construída sobre uma base de segurança verificável, em vez de apenas a ilusão dela.