AI News

Pesquisadores da Universidade da Flórida Revelam Método "HMNS" para Ignorar Proteções Avançadas de IA

Em um desenvolvimento significativo para o campo da segurança de inteligência artificial, pesquisadores da Universidade da Flórida (UF) criaram uma técnica inovadora de jailbreaking capaz de ignorar sistematicamente os protocolos de segurança dos principais grandes modelos de linguagem (Large Language Models - LLMs), incluindo aqueles desenvolvidos pelas gigantes da indústria Meta e Microsoft. O método, denominado Direcionamento de Espaço Nulo com Máscara de Cabeça (Head-Masked Nullspace Steering - HMNS), representa uma mudança de paradigma na forma como as vulnerabilidades de IA são identificadas, indo além da engenharia de prompt (prompt engineering) superficial para sondar a arquitetura interna de tomada de decisão das redes neurais.

A equipe de pesquisa, liderada pelo Professor Sumit Kumar Jha do departamento de Ciência e Engenharia de Computação e Informação (CISE), publicou suas descobertas em um artigo intitulado "Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion." O trabalho foi aceito para apresentação na Conferência Internacional sobre Representações de Aprendizagem (International Conference on Learning Representations - ICLR) de 2026, confirmando seu status como uma contribuição de destaque para a pesquisa de aprendizado profundo (deep learning).

A Mudança da Injeção de Prompt para o Direcionamento Interno

Por anos, o "jailbreaking" de um modelo de IA — enganá-lo para gerar conteúdo restrito ou prejudicial — dependeu fortemente de jogos de palavras inteligentes. Os atacantes usavam "exploits da vovó" ou cenários de RPG para burlar os filtros de segurança. No entanto, à medida que provedores de IA como OpenAI, Anthropic e Google fortaleceram suas defesas contra esses ataques semânticos, a eficácia da injeção de prompt tradicional diminuiu.

A abordagem da equipe da UF com o HMNS descarta a dependência de truques linguísticos externos em favor de uma intervenção direta no processo computacional do modelo. De acordo com a pesquisa, o HMNS opera "abrindo o capô" do LLM. Ele identifica cabeças de atenção (attention heads) específicas — os componentes responsáveis pelo processamento de contexto e verificações de segurança — e efetivamente as silencia.

Ao zerar esses componentes ativos na matriz de decisão do modelo e "direcionar" os caminhos restantes, os pesquisadores podem forçar a IA a ignorar seu treinamento de segurança. Isso permite que o modelo responda a consultas que normalmente recusaria, como gerar código de malware ou fornecer instruções para atividades ilícitas, sem acionar os mecanismos habituais de recusa.

Detalhamento Técnico: Head-Masked Nullspace Steering

O método HMNS é construído sobre o conceito de "espaço nulo" (nullspace) — um termo matemático que se refere a uma região onde certas entradas não produzem alteração na saída de uma função específica (neste caso, o filtro de segurança). Ao direcionar os padrões de ativação do modelo para este espaço nulo em relação aos mecanismos de segurança, o ataque torna as proteções invisíveis para o próprio monitoramento interno do modelo.

O Professor Jha descreve o processo como testar os "fios internos" do sistema, em vez de apenas sua interface de usuário. "Não se pode apenas testar algo assim usando prompts do lado de fora e dizer que está tudo bem", afirmou Jha. "Estamos abrindo o capô, puxando os fios internos e verificando o que quebra. É assim que se torna mais seguro. Não há atalho para isso."

A metodologia envolve três fases distintas:

  1. Identificação: O sistema analisa a resposta do LLM aos prompts do usuário para determinar quais "cabeças" (mecanismos de atenção) estão mais ativas durante a geração de uma recusa (por exemplo, "Não posso atender a esta solicitação").
  2. Mascaramento: Essas cabeças identificadas como críticas para a segurança são silenciadas ou "mascaradas" ao zerar sua contribuição para a matriz de decisão.
  3. Direcionamento: Os componentes restantes são sutilmente induzidos a gerar o conteúdo proibido, utilizando o "espaço nulo" para evitar a reativação dos protocolos de segurança.

Testes de Desempenho Contra Gigantes da Indústria

Para validar a eficácia do HMNS, a equipe de pesquisa utilizou o supercomputador HiPerGator da UF para realizar testes de estresse em larga escala contra os principais modelos comerciais e de código aberto. Os alvos primários incluíram sistemas da Meta e da Microsoft, que são amplamente considerados como tendo alguns dos alinhamentos de segurança mais robustos da indústria.

Os resultados foram contundentes. O HMNS provou ser notavelmente eficaz, superando os métodos de jailbreaking de última geração (state-of-the-art - SOTA) em quatro benchmarks estabelecidos da indústria. Os pesquisadores introduziram uma métrica de "relatório consciente de computação" para garantir comparações justas, revelando que o HMNS não apenas alcançou taxas de sucesso mais altas, mas o fez de forma mais eficiente do que os métodos anteriores.

Comparação de Metodologias de Jailbreaking

Recurso Injeção de Prompt Tradicional HMNS (Head-Masked Nullspace Steering)
Vetor de Ataque Primário Manipulação semântica externa (ex: RPG) Manipulação de arquitetura interna (direcionamento de peso/ativação)
Mecanismo Alvo Filtros de entrada e padrões de treinamento RLHF Cabeças de atenção e matrizes de decisão
Resiliência a Correções Baixa (facilmente corrigida via atualizações de prompt do sistema) Alta (requer intervenções arquiteturais ou de retreinamento)
Requisito de Recursos Baixo (pode ser feito por usuários padrão) Alto (requer acesso aos componentes internos/gradientes do modelo)
Métrica de Sucesso Inconsistente, frequentemente específica do modelo Consistentemente alta em múltiplas arquiteturas

A capacidade do HMNS de ignorar camadas de defesa nos sistemas da Meta e da Microsoft destaca uma lacuna crítica nos padrões atuais de segurança de IA. Embora essas plataformas incorporem camadas de segurança sofisticadas destinadas a filtrar entradas e saídas, o HMNS demonstra que essas camadas podem ser sistematicamente contornadas se os caminhos de processamento interno forem acessíveis ou replicáveis.

A Equipe por Trás da Descoberta

O desenvolvimento do HMNS foi um esforço colaborativo envolvendo instituições acadêmicas e de pesquisa. Ao lado do Professor Sumit Kumar Jha, a equipe inclui:

  • Vishal Pramanik: Estudante de doutorado no departamento CISE da UF, fundamental no desenvolvimento dos algoritmos de direcionamento.
  • Maisha Maliha: Colaboradora da Universidade de Oklahoma.
  • Susmit Jha, Ph.D.: Pesquisador da SRI International.

A equipe aproveitou o imenso poder de processamento do supercomputador HiPerGator, utilizando seus clusters de GPU NVIDIA A100 e H100 para realizar os complexos cálculos de matriz necessários para identificar os vetores de espaço nulo em tempo real. Essa capacidade computacional foi crucial para os "testes de estresse" dos modelos em uma escala que simula potenciais ataques adversários de atores sofisticados em nível estatal.

Implicações para a Segurança e Governança de IA

A publicação desta pesquisa no ICLR 2026 ocorre em um momento crucial. À medida que os agentes de IA passam de interfaces de chat de novidade para infraestruturas críticas — auxiliando no desenvolvimento de software, análise financeira e diagnósticos médicos — o custo de uma falha de segurança disparou.

A estratégia de "Defesa em Profundidade" (Defense in Depth) frequentemente citada por profissionais de cibersegurança postula que múltiplas camadas de segurança são necessárias para proteger um sistema. No entanto, as descobertas da equipe da UF sugerem que as técnicas atuais de "alinhamento" (que treinam modelos para recusar consultas prejudiciais) podem ser frágeis quando as ativações neurais subjacentes são manipuladas diretamente.

"Ao mostrar exatamente como essas defesas quebram, damos aos desenvolvedores de IA as informações de que precisam para construir defesas que realmente resistam", explicou Jha. "O lançamento público de IAs poderosas só é sustentável se as medidas de segurança puderem resistir a um escrutínio real e, no momento, nosso trabalho mostra que ainda há uma lacuna. Queremos ajudar a fechá-la."

A pesquisa implica que os futuros mecanismos de defesa de IA não podem depender apenas de "ajuste fino" (fine-tuning) ou "RLHF" (Aprendizado por Reforço com Feedback Humano - Reinforcement Learning from Human Feedback) para suprimir saídas prejudiciais. Em vez disso, os desenvolvedores podem precisar arquitetar modelos com resistência intrínseca ao direcionamento interno, potencialmente criando representações "emaranhadas" onde os recursos de segurança não possam ser isolados e mascarados sem destruir a utilidade geral do modelo.

Resposta da Indústria e Perspectivas Futuras

Embora a Meta e a Microsoft não tenham emitido comentários específicos sobre a vulnerabilidade HMNS, a resposta padrão da indústria a tais descobertas de "Red Teaming" é integrar os vetores de ataque em futuras sessões de treinamento. Ao expor essas vulnerabilidades em um ambiente acadêmico controlado, os pesquisadores da UF estão efetivamente inoculando a próxima geração de modelos contra ataques semelhantes.

A aceitação do artigo no ICLR 2026 garante que a metodologia será examinada e provavelmente aprimorada pela comunidade global de pesquisa em IA. Enquanto a corrida armamentista entre as capacidades da IA e a segurança da IA continua, métodos como o Head-Masked Nullspace Steering servem como um lembrete de que, à medida que os modelos se tornam mais complexos, os métodos necessários para protegê-los devem se tornar igualmente sofisticados.

Por enquanto, o trabalho permanece como um testemunho da necessidade de pesquisa de segurança ofensiva. Ao quebrar a matriz, a equipe da Universidade da Flórida está ajudando a garantir que a infraestrutura de IA do futuro seja construída sobre uma base de segurança verificável, em vez de apenas a ilusão dela.

Em Destaque
AdsCreator.com
Gere instantaneamente criativos de anúncio polidos e alinhados à marca a partir de qualquer URL de website para Meta, Google e Stories.
Refly.ai
Refly.AI capacita criadores não técnicos a automatizar fluxos de trabalho usando linguagem natural e uma tela visual.
VoxDeck
Criador de apresentações com IA que lidera a revolução visual
BGRemover
Remova facilmente os fundos de imagens online com o SharkFoto BGRemover.
FixArt AI
FixArt AI oferece ferramentas de IA gratuitas e sem restrições para geração de imagens e vídeos sem necessidade de cadastro.
Skywork.ai
Skywork AI é uma ferramenta inovadora para aumentar a produtividade usando IA.
Flowith
Flowith é um espaço de trabalho agêntico baseado em canvas que oferece gratuitamente 🍌Nano Banana Pro e outros modelos e
Qoder
Qoder é um assistente de codificação com IA que automatiza planejamento, codificação e testes para projetos de software.
FineVoice
Transforme texto em emoção — Clone, desenhe e crie vozes de IA expressivas em segundos.
Elser AI
Estúdio web tudo‑em‑um que transforma texto e imagens em arte estilo anime, personagens, vozes e curtas‑metragem.
Pippit
Eleve sua criação de conteúdo com as poderosas ferramentas de IA da Pippit!
SharkFoto
SharkFoto é uma plataforma tudo-em-um com IA para criar e editar vídeos, imagens e música de forma eficiente.
Funy AI
Anime suas fantasias! Crie vídeos de beijos e biquínis com IA a partir de imagens ou texto. Experimente o trocador de ro
KiloClaw
Agente OpenClaw hospedado: implantação com um clique, mais de 500 modelos, infraestrutura segura e gerenciamento automatizado de agentes para equipes e desenvolvedores.
Diagrimo
Diagrimo transforma texto instantaneamente em diagramas e visuais gerados por IA personalizados.
SuperMaker AI Video Generator
Crie vídeos, músicas e imagens incríveis sem esforço com o SuperMaker.
AI Clothes Changer by SharkFoto
AI Clothes Changer da SharkFoto permite que você experimente roupas virtualmente e instantaneamente, com caimento, textura e iluminação realistas.
Yollo AI
Converse e crie com seu parceiro de IA. Vídeo a partir de imagem, gerador de imagens IA.
AnimeShorts
Crie animações impressionantes de anime sem esforço com tecnologia de IA de última geração.
HappyHorseAIStudio
Gerador de vídeo com IA baseado no navegador para texto, imagens, referências e edição de vídeo.
Anijam AI
Anijam é uma plataforma de animação nativa de IA que transforma ideias em histórias refinadas com criação de vídeo agentiva.
happy horse AI
Gerador de vídeo de IA de código aberto que cria vídeo e áudio sincronizados a partir de texto ou imagens.
InstantChapters
Gere capítulos de livros envolventes instantaneamente com o Instant Chapters.
wan 2.7-image
Um gerador de imagens de IA controlável para rostos precisos, paletas, texto e continuidade visual.
NerdyTips
Uma plataforma de previsões de futebol com IA que entrega dicas de jogos baseadas em dados em ligas globais.
AI Video API: Seedance 2.0 Here
API unificada de vídeo com IA que oferece modelos de última geração por uma única chave e a menor custo.
WhatsApp AI Sales
WABot é um copiloto de vendas com IA para WhatsApp que fornece scripts em tempo real, traduções e detecção de intenção.
Image to Video AI without Login
Ferramenta gratuita de IA de Imagem para Vídeo que transforma fotos instantaneamente em vídeos animados suaves e de alta qualidade sem marcas d'água.
Claude API
Claude API for Everyone
insmelo AI Music Generator
Gerador de música movido por IA que transforma prompts, letras ou uploads em canções polidas e livres de royalties em cerca de um minuto.
BeatMV
Plataforma de IA baseada na web que transforma músicas em videoclipes cinematográficos e cria música com IA.
Wan 2.7
Modelo de vídeo AI de nível profissional com controle preciso de movimento e consistência multiview.
UNI-1 AI
UNI-1 é um modelo unificado de geração de imagens que combina raciocínio visual com síntese de imagens de alta fidelidade.
Kirkify
Kirkify AI cria instantaneamente memes virais de troca de rosto com estética neon-glitch assinada para criadores de memes.
Text to Music
Transforme texto ou letras em músicas completas com qualidade de estúdio, com vocais gerados por IA, instrumentos e exportações multi-faixa.
Iara Chat
Iara Chat: Um assistente de produtividade e comunicação com inteligência artificial.
kinovi - Seedance 2.0 - Real Man AI Video
Gerador de vídeo AI gratuito com saída humana realista, sem marca d'água e com direitos completos de uso comercial.
Video Sora 2
Sora 2 AI transforma texto ou imagens em vídeos curtos para redes sociais e e‑commerce, com movimento fisicamente preciso, em minutos.
Lyria3 AI
Gerador de música por IA que cria músicas totalmente produzidas e de alta fidelidade a partir de prompts de texto, letras e estilos instantaneamente.
Tome AI PPT
Criador de apresentações movido por IA que gera, embeleza e exporta slides profissionais em minutos.
Atoms
Plataforma orientada por IA que cria apps e sites full‑stack em minutos usando automação multi‑agente, sem necessidade de codificação.
Paper Banana
Ferramenta com IA para converter texto acadêmico em diagramas metodológicos prontos para publicação e gráficos estatísticos precisos instantaneamente.
AI Pet Video Generator
Crie vídeos de pets virais e fáceis de compartilhar a partir de fotos usando modelos orientados por IA e exportações HD instantâneas para plataformas sociais.
Ampere.SH
Hospedagem OpenClaw gerenciada gratuita. Implemente agentes de IA em 60 segundos com $500 em créditos Claude.
Palix AI
Plataforma de IA tudo‑em‑um para criadores, gerando imagens, vídeos e música com créditos unificados.
Hitem3D
Hitem3D converte uma única imagem em modelos 3D de alta resolução, prontos para produção, usando IA.
GenPPT.AI
Criador de PPT movido por IA que cria, embeleza e exporta apresentações profissionais do PowerPoint com notas do orador e gráficos em minutos.
HookTide
Plataforma de crescimento no LinkedIn impulsionada por IA que aprende sua voz para criar conteúdo, engajar e analisar desempenho.
Create WhatsApp Link
Gerador gratuito de links e QR do WhatsApp com análises, links com marca, roteamento e recursos de chat multi‑agente.
Seedance 20 Video
Seedance 2 é um gerador de vídeo IA multimodal que oferece personagens consistentes, narrativa em múltiplas tomadas e áudio nativo em 2K.
Gobii
Gobii permite que equipes criem trabalhadores digitais autônomos 24/7 para automatizar pesquisa na web e tarefas rotineiras.
Free AI Video Maker & Generator
Criador & Gerador de Vídeos com IA gratuito – Ilimitado, sem cadastro
Veemo - AI Video Generator
Veemo AI é uma plataforma tudo-em-um que gera rapidamente vídeos e imagens de alta qualidade a partir de texto ou imagens.
AI FIRST
Assistente conversacional de IA que automatiza pesquisa, tarefas no navegador, web scraping e gerenciamento de arquivos através de linguagem natural.
GLM Image
GLM Image combina modelos híbridos autorregressivos e de difusão para gerar imagens de IA de alta fidelidade com renderização de texto excepcional.
ainanobanana2
Nano Banana 2 gera imagens 4K de qualidade profissional em 4–6 segundos com renderização de texto precisa e consistência de assunto.
WhatsApp Warmup Tool
Ferramenta de aquecimento do WhatsApp com IA automatiza envio em massa enquanto evita banimentos de contas.
TextToHuman
Humanizador de IA gratuito que reescreve instantaneamente texto gerado por IA para uma escrita natural, parecida com a humana. Não é necessário cadastro.
Manga Translator AI
AI Manga Translator traduz instantaneamente imagens de mangá para múltiplos idiomas online.
Remy - Newsletter Summarizer
Remy automatiza a gestão de newsletters ao resumir e-mails em insights fáceis de digerir.

Pesquisadores da Universidade da Flórida desenvolvem método de jailbreak de IA para reforçar a segurança

Cientistas da UF criaram o método HMNS para testar medidas de segurança de IA, contornando com sucesso sistemas da Meta e da Microsoft para identificar vulnerabilidades de segurança.