AI News

플로리다 대학교 연구진, 고급 AI 가드레일을 우회하는 "HMNS" 방식 공개

인공지능 보안 분야의 중요한 진전으로, 플로리다 대학교(University of Florida, UF) 연구진은 업계 거물인 Meta와 Microsoft가 개발한 모델을 포함한 주요 대규모 언어 모델(LLM)의 보안 프로토콜을 체계적으로 우회할 수 있는 새로운 탈옥(jailbreaking) 기법을 고안해냈습니다. **헤드 마스크형 영공간 스티어링(Head-Masked Nullspace Steering, HMNS)**이라 명명된 이 방식은 AI 취약점을 식별하는 방식에 있어 패러다임의 전환을 의미하며, 표면적인 프롬프트 엔지니어링을 넘어 신경망의 내부 의사결정 구조를 조사합니다.

컴퓨터 정보 과학 및 공학(CISE) 학과의 Sumit Kumar Jha 교수가 이끄는 연구팀은 *"행렬 탈옥: 제어된 모델 전복을 위한 영공간 스티어링(Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion)"*이라는 제목의 논문에 연구 결과를 발표했습니다. 이 연구는 **2026 국제 학습 표현 컨퍼런스(ICLR)**에서 발표될 예정이며, 딥러닝 연구에 대한 주요 기여로서의 지위를 확인받았습니다.

프롬프트 주입에서 내부 스티어링으로의 전환

수년 동안 AI 모델을 "탈옥"시키는 것(제한되거나 유해한 콘텐츠를 생성하도록 속이는 것)은 영리한 말장난에 크게 의존해 왔습니다. 공격자들은 보안 필터를 우회하기 위해 "할머니 공격(Grandma exploits)"이나 역할극 시나리오를 사용하곤 했습니다. 그러나 OpenAI, Anthropic, Google과 같은 AI 제공업체들이 이러한 의미론적 공격에 대응하여 방어 체계를 강화함에 따라, 전통적인 프롬프트 주입의 효과는 약화되었습니다.

플로리다 대학교 팀의 HMNS 접근 방식은 외부적인 언어적 기교에 의존하는 대신 모델의 계산 프로세스에 직접 개입하는 방식을 택했습니다. 연구에 따르면, HMNS는 LLM의 "보닛을 여는(popping the hood)" 방식으로 작동합니다. 이 방식은 문맥 처리와 보안 점검을 담당하는 구성 요소인 특정 어텐션 헤드(attention heads)를 식별하고 이를 효과적으로 침묵시킵니다.

모델의 의사결정 행렬에서 이러한 활성 구성 요소를 0으로 만들고 나머지 경로를 "스티어링(steering)"함으로써, 연구진은 AI가 보안 훈련 내용을 무시하도록 강제할 수 있습니다. 이를 통해 모델은 일반적인 거부 메커니즘을 트리거하지 않고도 악성 코드 생성이나 불법 활동에 대한 지침 제공과 같이 평소라면 거부했을 쿼리에 응답하게 됩니다.

기술 분석: 헤드 마스크형 영공간 스티어링

HMNS 방식은 특정 입력이 특정 함수(이 경우 보안 필터)의 출력에 변화를 주지 않는 영역을 가리키는 수학적 용어인 "영공간(nullspace)" 개념을 기반으로 구축되었습니다. 모델의 활성화 패턴을 보안 메커니즘과 관련된 이 영공간으로 유도함으로써, 공격은 모델 자체의 내부 모니터링 시스템이 가드레일을 감지하지 못하게 만듭니다.

Jha 교수는 이 프로세스를 시스템의 사용자 인터페이스뿐만 아니라 "내부 전선"을 테스트하는 것이라고 설명합니다. Jha 교수는 "외부에서 프롬프트를 사용하여 단순히 테스트하고 괜찮다고 말할 수는 없습니다. 우리는 보닛을 열고 내부 전선을 당기며 무엇이 고장 나는지 확인하고 있습니다. 그것이 바로 시스템을 더 안전하게 만드는 방법입니다. 거기에는 지름길이 없습니다"라고 밝혔습니다.

방법론은 세 가지 단계로 구성됩니다:

  1. 식별(Identification): 시스템은 사용자의 프롬프트에 대한 LLM의 응답을 분석하여 거부(예: "이 요청을 이행할 수 없습니다") 생성 중에 어떤 "헤드"(어텐션 메커니즘)가 가장 활성 상태인지 결정합니다.
  2. 마스킹(Masking): 식별된 보안 핵심 헤드들은 의사결정 행렬에 대한 기여도를 0으로 만듦으로써 침묵되거나 "마스킹"됩니다.
  3. 스티어링(Steering): 나머지 구성 요소들은 금지된 콘텐츠를 생성하도록 미세하게 유도되며, 보안 프로토콜의 재활성화를 피하기 위해 "영공간"을 활용합니다.

업계 거물을 상대로 한 벤치마킹 성공

HMNS의 효능을 검증하기 위해 연구팀은 플로리다 대학교의 HiPerGator 슈퍼컴퓨터를 활용하여 주요 상용 및 오픈 소스 모델을 대상으로 대규모 스트레스 테스트를 실시했습니다. 주요 타겟에는 업계에서 가장 견고한 보안 정렬을 갖춘 것으로 평가받는 MetaMicrosoft의 시스템이 포함되었습니다.

결과는 극명했습니다. HMNS는 네 가지의 확립된 업계 벤치마크 전반에서 기존의 최신(SOTA) 탈옥 기법들보다 뛰어난 성능을 보이며 놀라운 효과를 입증했습니다. 연구진은 공정한 비교를 위해 "컴퓨팅 인식 보고(compute-aware reporting)" 지표를 도입했으며, HMNS가 이전 방식보다 더 높은 성공률을 기록했을 뿐만 아니라 더 효율적으로 이를 수행했음을 밝혔습니다.

탈옥 방법론 비교

특징 전통적인 프롬프트 주입 HMNS (Head-Masked Nullspace Steering)
주요 공격 벡터 외부 의미론적 조작 (예: 역할극) 내부 아키텍처 조작 (가중치/활성화 스티어링)
타겟 메커니즘 입력 필터 및 RLHF 훈련 패턴 어텐션 헤드 및 의사결정 행렬
패치 내성 낮음 (시스템 프롬프트 업데이트를 통해 쉽게 패치됨) 높음 (아키텍처 변경 또는 재훈련 개입 필요)
리소스 요구 사항 낮음 (일반 사용자도 가능) 높음 (모델 내부/그래디언트 접근 필요)
성공 지표 일관성 없음, 종종 모델에 따라 다름 여러 아키텍처에서 일관되게 높음

Meta 및 Microsoft 시스템의 방어 계층을 우회하는 HMNS의 능력은 현재 AI 보안 표준의 심각한 격차를 드러냅니다. 이러한 플랫폼들은 입력과 출력을 필터링하기 위한 정교한 보안 계층을 포함하고 있지만, HMNS는 내부 처리 경로에 접근하거나 이를 복제할 수 있다면 이러한 계층들이 체계적으로 무력화될 수 있음을 보여줍니다.

혁신 뒤의 팀

HMNS의 개발은 학술 및 연구 기관 간의 협력 노력이었습니다. Sumit Kumar Jha 교수와 더불어 팀 구성원은 다음과 같습니다:

  • Vishal Pramanik: 플로리다 대학교 CISE 학과 박사 과정 학생으로, 스티어링 알고리즘 개발에 중추적인 역할을 했습니다.
  • Maisha Maliha: 오클라호마 대학교의 협력자.
  • Susmit Jha, Ph.D.: SRI International의 연구원.

팀은 HiPerGator 슈퍼컴퓨터의 엄청난 컴퓨팅 능력을 활용하여 NVIDIA A100 및 H100 GPU 클러스터를 통해 실시간으로 영공간 벡터를 식별하는 데 필요한 복잡한 행렬 계산을 수행했습니다. 이러한 컴퓨팅 역량은 정교한 국가 수준의 행위자에 의한 잠재적 적대적 공격을 모방한 규모로 모델을 "스트레스 테스트"하는 데 필수적이었습니다.

AI 보안 및 거버넌스에 대한 시사점

ICLR 2026에서의 이 연구 발표는 매우 중요한 시점에 이루어졌습니다. AI 에이전트가 단순한 대화형 인터페이스를 넘어 소프트웨어 개발, 금융 분석, 의료 진단을 지원하는 핵심 인프라로 이동함에 따라 보안 실패의 비용이 급증했기 때문입니다.

사이버 보안 전문가들이 자주 인용하는 "심층 방어(Defense in Depth)" 전략은 시스템을 보호하기 위해 다중 보안 계층이 필요하다고 가정합니다. 그러나 플로리다 대학교 팀의 연구 결과는 기본 신경망 활성화가 직접 조작될 때 현재의 "정렬(alignment)" 기법(유해한 쿼리를 거부하도록 모델을 훈련하는 방식)이 취약할 수 있음을 시사합니다.

Jha 교수는 "이러한 방어 체계가 정확히 어떻게 무너지는지 보여줌으로써, 우리는 AI 개발자들에게 실제로 견딜 수 있는 방어 체계를 구축하는 데 필요한 정보를 제공합니다"라고 설명했습니다. "강력한 AI의 공개 릴리스는 보안 조치가 실제 정밀 조사를 견딜 수 있을 때만 지속 가능하며, 현재 우리의 연구는 여전히 격차가 존재함을 보여줍니다. 우리는 그 격차를 좁히는 데 도움을 주고자 합니다."

이 연구는 미래의 AI 방어 메커니즘이 유해한 출력을 억제하기 위해 "미세 조정(fine-tuning)"이나 "RLHF(인간 피드백을 통한 강화 학습)"에만 의존할 수 없음을 시사합니다. 대신 개발자들은 모델의 일반적인 유용성을 파괴하지 않고서는 보안 기능을 분리하거나 마스킹할 수 없는 "얽힌(entangled)" 표현을 생성하는 등, 내부 스티어링에 대한 본질적인 저항력을 갖춘 모델을 설계해야 할 수도 있습니다.

업계 반응 및 향후 전망

Meta와 Microsoft는 HMNS 취약점과 관련하여 구체적인 언급을 내놓지 않았지만, 이러한 "레드 티밍(Red Teaming)" 결과에 대한 표준적인 업계 반응은 향후 훈련 과정에 해당 공격 벡터를 통합하는 것입니다. 플로리다 대학교 연구진은 통제된 학술 환경에서 이러한 취약점을 노출함으로써 차세대 모델이 유사한 공격에 대비할 수 있도록 사실상 백신 역할을 하고 있습니다.

ICLR 2026에 논문이 채택됨에 따라 이 방법론은 전 세계 AI 연구 커뮤니티에 의해 정밀하게 검토되고 이를 기반으로 한 추가 연구가 진행될 것으로 보입니다. AI 기능과 AI 보안 사이의 군비 경쟁이 계속됨에 따라, 헤드 마스크형 영공간 스티어링과 같은 방식은 모델이 복잡해질수록 이를 보호하는 데 필요한 방법 또한 동일하게 정교해져야 함을 상기시켜 줍니다.

현재로서는 이 연구가 공격적 보안 연구의 필요성을 증명하는 증거로 남아 있습니다. 플로리다 대학교 팀은 행렬(Matrix)을 깨뜨림으로써 미래의 AI 인프라가 단순한 안전의 환상이 아닌 검증 가능한 안전의 토대 위에 구축되도록 돕고 있습니다.

추천
AdsCreator.com
어떤 웹사이트 URL에서든 Meta, Google 및 Stories용 브랜드 일치형 고급 광고 크리에이티브를 즉시 생성합니다.
BGRemover
SharkFoto BGRemover를 사용하여 온라인에서 이미지 배경을 쉽게 제거하세요.
FixArt AI
FixArt AI는 가입 없이 이미지 및 동영상 생성을 위한 무료·무제한 AI 도구를 제공합니다.
Refly.ai
Refly.AI는 비기술 창작자가 자연어와 시각적 캔버스를 사용해 워크플로를 자동화할 수 있도록 지원합니다.
VoxDeck
시각 혁명을 선도하는 AI 프레젠테이션 제작기
Skywork.ai
Skywork AI는 AI를 사용하여 생산성을 향상시키기 위한 혁신적인 도구입니다.
Qoder
Qoder는 소프트웨어 프로젝트의 계획, 코딩 및 테스트를 자동화하는 AI 기반 코딩 어시스턴트입니다.
Flowith
Flowith는 무료 🍌Nano Banana Pro 및 기타 효과적인 모델을 제공하는 캔버스 기반 에이전트 워크스페이스입니다...
FineVoice
텍스트를 감정으로 바꾸세요 — 몇 초 만에 표현력 있는 AI 보이스를 복제하고 디자인하며 생성하세요.
Elser AI
텍스트와 이미지를 애니메 스타일 아트, 캐릭터, 음성 및 단편 영화로 변환하는 올인원 웹 스튜디오입니다.
Pippit
Pippit의 강력한 AI 도구로 콘텐츠 제작을 향상시키세요!
SharkFoto
SharkFoto는 영상, 이미지, 음악을 효율적으로 제작 및 편집할 수 있는 올인원 AI 기반 플랫폼입니다.
Funy AI
상상을 영상으로! 이미지나 텍스트로 AI 비키니, 키스 영상을 만드세요. AI 옷 체인저 기능도 체험해보세요. 가입 없이 무료!
KiloClaw
호스티드 OpenClaw 에이전트: 원클릭 배포, 500개 이상의 모델, 보안 인프라 및 팀과 개발자를 위한 자동화된 에이전트 관리.
Diagrimo
Diagrimo는 텍스트를 즉시 맞춤형 AI 생성 다이어그램 및 시각 자료로 변환합니다.
SuperMaker AI Video Generator
SuperMaker와 함께 멋진 동영상, 음악 및 이미지를 손쉽게 만들 수 있습니다.
AI Clothes Changer by SharkFoto
SharkFoto의 AI Clothes Changer는 사실적인 핏, 질감 및 조명으로 의상을 즉시 가상으로 착용해볼 수 있게 해줍니다.
Yollo AI
AI 파트너와 대화하고 창작하세요. 이미지 투 비디오(Img2Vid), AI 이미지 생성 기능.
AnimeShorts
최첨단 AI 기술로 놀라운 애니메이션 짧은 영상을 쉽게 만드세요.
HappyHorseAIStudio
텍스트, 이미지, 참고자료, 비디오 편집을 위한 브라우저 기반 AI 비디오 생성기.
Anijam AI
Anijam은 아이디어를 에이전트형 비디오 제작을 통해 세련된 스토리로 바꾸는 AI 네이티브 애니메이션 플랫폼입니다.
happy horse AI
텍스트나 이미지로부터 동기화된 비디오와 오디오를 생성하는 오픈소스 AI 비디오 생성기입니다.
InstantChapters
Instant Chapters로 책의 매력적인 장을 즉시 생성하세요.
NerdyTips
전 세계 리그의 경기 팁을 데이터 기반으로 제공하는 AI 축구 예측 플랫폼입니다.
wan 2.7-image
정확한 얼굴, 팔레트, 텍스트, 시각적 연속성을 위한 제어 가능한 AI 이미지 생성기입니다.
Claude API
Claude API for Everyone
AI Video API: Seedance 2.0 Here
하나의 키로 최상위 생성 모델을 더 낮은 비용으로 제공하는 통합 AI 비디오 API입니다.
WhatsApp AI Sales
WABot은 실시간 스크립트, 번역 및 의도 감지를 제공하는 WhatsApp AI 영업 코파일럿입니다.
Image to Video AI without Login
사진을 즉시 부드럽고 고품질 애니메이션 비디오로 변환하는 무료 이미지→비디오 AI 도구로 워터마크가 없습니다.
insmelo AI Music Generator
프롬프트, 가사 또는 업로드된 파일을 약 1분 내에 다듬어진 로열티 프리 곡으로 바꿔주는 AI 기반 음악 생성기입니다.
BeatMV
노래를 영화 같은 뮤직비디오로 바꾸고 AI로 음악을 만드는 웹 기반 AI 플랫폼입니다.
Wan 2.7
전문가 수준의 AI 비디오 모델로 정밀한 모션 제어와 다중 뷰 일관성을 제공합니다.
UNI-1 AI
UNI-1은 시각적 추론과 고충실도 이미지 합성을 결합한 통합 이미지 생성 모델입니다.
Kirkify
Kirkify AI는 밈 제작자를 위해 시그니처 네온 글리치 미학을 적용한 얼굴 교체 바이럴 밈을 즉시 생성합니다.
Text to Music
텍스트나 가사를 AI가 생성한 보컬, 악기 및 멀티트랙 내보내기와 함께 전체 스튜디오 품질의 곡으로 변환하세요.
Iara Chat
Iara Chat: AI 기반의 생산성과 커뮤니케이션 도우미.
kinovi - Seedance 2.0 - Real Man AI Video
사실적인 사람 결과물을 제공하는 무료 AI 영상 생성기, 워터마크 없음, 전체 상업적 사용 권한 포함.
Video Sora 2
Sora 2 AI는 텍스트나 이미지를 몇 분 안에 짧고 물리학적으로 정확한 소셜 및 전자상거래용 비디오로 변환합니다.
Lyria3 AI
텍스트 프롬프트, 가사, 스타일로부터 고품질의 완전 제작된 곡을 즉시 생성하는 AI 음악 생성기.
Tome AI PPT
AI 기반 프레젠테이션 제작기: 몇 분 만에 전문적인 슬라이드 데크를 생성, 미화 및 내보냅니다.
Atoms
AI 기반 플랫폼으로 다중 에이전트 자동화를 사용해 코드 없이 몇 분 만에 풀스택 앱과 웹사이트를 구축합니다.
Paper Banana
AI 기반 도구로 학술 텍스트를 즉시 게시용 방법도와 정밀한 통계 플롯으로 변환합니다.
AI Pet Video Generator
AI 기반 템플릿과 즉시 HD 내보내기를 사용하여 사진으로부터 소셜 플랫폼용 바이럴하고 공유 가능한 반려동물 영상을 만듭니다.
Ampere.SH
무료 관리형 OpenClaw 호스팅. $500 Claude 크레딧으로 60초 내에 AI 에이전트를 배포하세요.
Palix AI
크리에이터를 위한 올인원 AI 플랫폼으로, 통합 크레딧으로 이미지, 동영상 및 음악을 생성합니다.
Hitem3D
Hitem3D는 단일 이미지를 AI로 고해상도 제작-ready 3D 모델로 변환합니다.
GenPPT.AI
AI 기반 PPT 제작 도구로, 몇 분 안에 발표자 노트와 차트가 포함된 전문적인 PowerPoint 프레젠테이션을 생성, 미화 및 내보낼 수 있습니다.
HookTide
사용자의 목소리를 학습해 콘텐츠를 만들고 참여를 유도하며 성과를 분석하는 AI 기반 LinkedIn 성장 플랫폼입니다.
Create WhatsApp Link
분석, 브랜드 링크, 라우팅 및 다중 에이전트 채팅 기능을 갖춘 무료 WhatsApp 링크 및 QR 생성기.
Seedance 20 Video
Seedance 2는 일관된 캐릭터, 멀티샷 스토리텔링 및 2K 네이티브 오디오를 제공하는 멀티모달 AI 비디오 생성기입니다.
Gobii
Gobii는 팀이 24/7 자율 디지털 워커를 생성하여 웹 조사 및 일상 업무를 자동화할 수 있게 합니다.
Free AI Video Maker & Generator
무료 AI 비디오 메이커 & 생성기 – 무제한, 가입 필요 없음
Veemo - AI Video Generator
Veemo AI는 텍스트나 이미지로부터 고품질의 비디오와 이미지를 빠르게 생성하는 올인원 플랫폼입니다.
AI FIRST
자연어를 통해 연구, 브라우저 작업, 웹 스크래핑 및 파일 관리를 자동화하는 대화형 AI 어시스턴트입니다.
GLM Image
GLM Image는 자기회귀(autoregressive) 모델과 확산(diffusion) 모델을 결합한 하이브리드 방식을 통해 뛰어난 텍스트 렌더링을 갖춘 고충실도 AI 이미지를 생성합니다.
ainanobanana2
Nano Banana 2는 정밀한 텍스트 렌더링과 피사체 일관성을 유지하면서 4–6초 내에 프로 품질의 4K 이미지를 생성합니다.
WhatsApp Warmup Tool
AI 기반 WhatsApp 워밍업 도구는 계정 차단을 방지하면서 대량 메시지 전송을 자동화합니다.
TextToHuman
AI 텍스트를 즉시 자연스럽고 인간다운 글로 재작성하는 무료 AI 휴머니라이저. 가입 필요 없음.
Manga Translator AI
AI Manga Translator는 만화 이미지를 온라인에서 즉시 여러 언어로 번역합니다.
Remy - Newsletter Summarizer
Remy는 이메일을 이해하기 쉬운 인사이트로 요약하여 뉴스레터 관리를 자동화합니다.

플로리다 대학교 연구진, 보안 강화를 위해 AI 탈옥(jailbreaking) 기법 개발

UF 연구진은 AI 안전 조치를 테스트하기 위해 HMNS 기법을 개발했으며, 보안 취약점을 찾아내기 위해 Meta와 Microsoft의 시스템을 성공적으로 우회했다.