플로리다 대학교 연구진, 보안 강화를 위해 AI 탈옥(jailbreaking) 기법 개발

플로리다 대학교 연구진, 고급 AI 가드레일을 우회하는 "HMNS" 방식 공개

인공지능 보안 분야의 중요한 진전으로, 플로리다 대학교(University of Florida, UF) 연구진은 업계 거물인 Meta와 Microsoft가 개발한 모델을 포함한 주요 대규모 언어 모델(LLM)의 보안 프로토콜을 체계적으로 우회할 수 있는 새로운 탈옥(jailbreaking) 기법을 고안해냈습니다. **헤드 마스크형 영공간 스티어링(Head-Masked Nullspace Steering, HMNS)**이라 명명된 이 방식은 AI 취약점을 식별하는 방식에 있어 패러다임의 전환을 의미하며, 표면적인 프롬프트 엔지니어링을 넘어 신경망의 내부 의사결정 구조를 조사합니다.

컴퓨터 정보 과학 및 공학(CISE) 학과의 Sumit Kumar Jha 교수가 이끄는 연구팀은 *"행렬 탈옥: 제어된 모델 전복을 위한 영공간 스티어링(Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion)"*이라는 제목의 논문에 연구 결과를 발표했습니다. 이 연구는 **2026 국제 학습 표현 컨퍼런스(ICLR)**에서 발표될 예정이며, 딥러닝 연구에 대한 주요 기여로서의 지위를 확인받았습니다.

프롬프트 주입에서 내부 스티어링으로의 전환

수년 동안 AI 모델을 "탈옥"시키는 것(제한되거나 유해한 콘텐츠를 생성하도록 속이는 것)은 영리한 말장난에 크게 의존해 왔습니다. 공격자들은 보안 필터를 우회하기 위해 "할머니 공격(Grandma exploits)"이나 역할극 시나리오를 사용하곤 했습니다. 그러나 OpenAI, Anthropic, Google과 같은 AI 제공업체들이 이러한 의미론적 공격에 대응하여 방어 체계를 강화함에 따라, 전통적인 프롬프트 주입의 효과는 약화되었습니다.

플로리다 대학교 팀의 HMNS 접근 방식은 외부적인 언어적 기교에 의존하는 대신 모델의 계산 프로세스에 직접 개입하는 방식을 택했습니다. 연구에 따르면, HMNS는 LLM의 "보닛을 여는(popping the hood)" 방식으로 작동합니다. 이 방식은 문맥 처리와 보안 점검을 담당하는 구성 요소인 특정 어텐션 헤드(attention heads)를 식별하고 이를 효과적으로 침묵시킵니다.

모델의 의사결정 행렬에서 이러한 활성 구성 요소를 0으로 만들고 나머지 경로를 "스티어링(steering)"함으로써, 연구진은 AI가 보안 훈련 내용을 무시하도록 강제할 수 있습니다. 이를 통해 모델은 일반적인 거부 메커니즘을 트리거하지 않고도 악성 코드 생성이나 불법 활동에 대한 지침 제공과 같이 평소라면 거부했을 쿼리에 응답하게 됩니다.

기술 분석: 헤드 마스크형 영공간 스티어링

HMNS 방식은 특정 입력이 특정 함수(이 경우 보안 필터)의 출력에 변화를 주지 않는 영역을 가리키는 수학적 용어인 "영공간(nullspace)" 개념을 기반으로 구축되었습니다. 모델의 활성화 패턴을 보안 메커니즘과 관련된 이 영공간으로 유도함으로써, 공격은 모델 자체의 내부 모니터링 시스템이 가드레일을 감지하지 못하게 만듭니다.

Jha 교수는 이 프로세스를 시스템의 사용자 인터페이스뿐만 아니라 "내부 전선"을 테스트하는 것이라고 설명합니다. Jha 교수는 "외부에서 프롬프트를 사용하여 단순히 테스트하고 괜찮다고 말할 수는 없습니다. 우리는 보닛을 열고 내부 전선을 당기며 무엇이 고장 나는지 확인하고 있습니다. 그것이 바로 시스템을 더 안전하게 만드는 방법입니다. 거기에는 지름길이 없습니다"라고 밝혔습니다.

방법론은 세 가지 단계로 구성됩니다:

식별(Identification): 시스템은 사용자의 프롬프트에 대한 LLM의 응답을 분석하여 거부(예: "이 요청을 이행할 수 없습니다") 생성 중에 어떤 "헤드"(어텐션 메커니즘)가 가장 활성 상태인지 결정합니다.
마스킹(Masking): 식별된 보안 핵심 헤드들은 의사결정 행렬에 대한 기여도를 0으로 만듦으로써 침묵되거나 "마스킹"됩니다.
스티어링(Steering): 나머지 구성 요소들은 금지된 콘텐츠를 생성하도록 미세하게 유도되며, 보안 프로토콜의 재활성화를 피하기 위해 "영공간"을 활용합니다.

업계 거물을 상대로 한 벤치마킹 성공

HMNS의 효능을 검증하기 위해 연구팀은 플로리다 대학교의 HiPerGator 슈퍼컴퓨터를 활용하여 주요 상용 및 오픈 소스 모델을 대상으로 대규모 스트레스 테스트를 실시했습니다. 주요 타겟에는 업계에서 가장 견고한 보안 정렬을 갖춘 것으로 평가받는 Meta와 Microsoft의 시스템이 포함되었습니다.

결과는 극명했습니다. HMNS는 네 가지의 확립된 업계 벤치마크 전반에서 기존의 최신(SOTA) 탈옥 기법들보다 뛰어난 성능을 보이며 놀라운 효과를 입증했습니다. 연구진은 공정한 비교를 위해 "컴퓨팅 인식 보고(compute-aware reporting)" 지표를 도입했으며, HMNS가 이전 방식보다 더 높은 성공률을 기록했을 뿐만 아니라 더 효율적으로 이를 수행했음을 밝혔습니다.

탈옥 방법론 비교

특징	전통적인 프롬프트 주입	HMNS (Head-Masked Nullspace Steering)
주요 공격 벡터	외부 의미론적 조작 (예: 역할극)	내부 아키텍처 조작 (가중치/활성화 스티어링)
타겟 메커니즘	입력 필터 및 RLHF 훈련 패턴	어텐션 헤드 및 의사결정 행렬
패치 내성	낮음 (시스템 프롬프트 업데이트를 통해 쉽게 패치됨)	높음 (아키텍처 변경 또는 재훈련 개입 필요)
리소스 요구 사항	낮음 (일반 사용자도 가능)	높음 (모델 내부/그래디언트 접근 필요)
성공 지표	일관성 없음, 종종 모델에 따라 다름	여러 아키텍처에서 일관되게 높음

Meta 및 Microsoft 시스템의 방어 계층을 우회하는 HMNS의 능력은 현재 AI 보안 표준의 심각한 격차를 드러냅니다. 이러한 플랫폼들은 입력과 출력을 필터링하기 위한 정교한 보안 계층을 포함하고 있지만, HMNS는 내부 처리 경로에 접근하거나 이를 복제할 수 있다면 이러한 계층들이 체계적으로 무력화될 수 있음을 보여줍니다.

혁신 뒤의 팀

HMNS의 개발은 학술 및 연구 기관 간의 협력 노력이었습니다. Sumit Kumar Jha 교수와 더불어 팀 구성원은 다음과 같습니다:

Vishal Pramanik: 플로리다 대학교 CISE 학과 박사 과정 학생으로, 스티어링 알고리즘 개발에 중추적인 역할을 했습니다.
Maisha Maliha: 오클라호마 대학교의 협력자.
Susmit Jha, Ph.D.: SRI International의 연구원.

팀은 HiPerGator 슈퍼컴퓨터의 엄청난 컴퓨팅 능력을 활용하여 NVIDIA A100 및 H100 GPU 클러스터를 통해 실시간으로 영공간 벡터를 식별하는 데 필요한 복잡한 행렬 계산을 수행했습니다. 이러한 컴퓨팅 역량은 정교한 국가 수준의 행위자에 의한 잠재적 적대적 공격을 모방한 규모로 모델을 "스트레스 테스트"하는 데 필수적이었습니다.

AI 보안 및 거버넌스에 대한 시사점

ICLR 2026에서의 이 연구 발표는 매우 중요한 시점에 이루어졌습니다. AI 에이전트가 단순한 대화형 인터페이스를 넘어 소프트웨어 개발, 금융 분석, 의료 진단을 지원하는 핵심 인프라로 이동함에 따라 보안 실패의 비용이 급증했기 때문입니다.

사이버 보안 전문가들이 자주 인용하는 "심층 방어(Defense in Depth)" 전략은 시스템을 보호하기 위해 다중 보안 계층이 필요하다고 가정합니다. 그러나 플로리다 대학교 팀의 연구 결과는 기본 신경망 활성화가 직접 조작될 때 현재의 "정렬(alignment)" 기법(유해한 쿼리를 거부하도록 모델을 훈련하는 방식)이 취약할 수 있음을 시사합니다.

Jha 교수는 "이러한 방어 체계가 정확히 어떻게 무너지는지 보여줌으로써, 우리는 AI 개발자들에게 실제로 견딜 수 있는 방어 체계를 구축하는 데 필요한 정보를 제공합니다"라고 설명했습니다. "강력한 AI의 공개 릴리스는 보안 조치가 실제 정밀 조사를 견딜 수 있을 때만 지속 가능하며, 현재 우리의 연구는 여전히 격차가 존재함을 보여줍니다. 우리는 그 격차를 좁히는 데 도움을 주고자 합니다."

이 연구는 미래의 AI 방어 메커니즘이 유해한 출력을 억제하기 위해 "미세 조정(fine-tuning)"이나 "RLHF(인간 피드백을 통한 강화 학습)"에만 의존할 수 없음을 시사합니다. 대신 개발자들은 모델의 일반적인 유용성을 파괴하지 않고서는 보안 기능을 분리하거나 마스킹할 수 없는 "얽힌(entangled)" 표현을 생성하는 등, 내부 스티어링에 대한 본질적인 저항력을 갖춘 모델을 설계해야 할 수도 있습니다.

업계 반응 및 향후 전망

Meta와 Microsoft는 HMNS 취약점과 관련하여 구체적인 언급을 내놓지 않았지만, 이러한 "레드 티밍(Red Teaming)" 결과에 대한 표준적인 업계 반응은 향후 훈련 과정에 해당 공격 벡터를 통합하는 것입니다. 플로리다 대학교 연구진은 통제된 학술 환경에서 이러한 취약점을 노출함으로써 차세대 모델이 유사한 공격에 대비할 수 있도록 사실상 백신 역할을 하고 있습니다.

ICLR 2026에 논문이 채택됨에 따라 이 방법론은 전 세계 AI 연구 커뮤니티에 의해 정밀하게 검토되고 이를 기반으로 한 추가 연구가 진행될 것으로 보입니다. AI 기능과 AI 보안 사이의 군비 경쟁이 계속됨에 따라, 헤드 마스크형 영공간 스티어링과 같은 방식은 모델이 복잡해질수록 이를 보호하는 데 필요한 방법 또한 동일하게 정교해져야 함을 상기시켜 줍니다.

현재로서는 이 연구가 공격적 보안 연구의 필요성을 증명하는 증거로 남아 있습니다. 플로리다 대학교 팀은 행렬(Matrix)을 깨뜨림으로써 미래의 AI 인프라가 단순한 안전의 환상이 아닌 검증 가능한 안전의 토대 위에 구축되도록 돕고 있습니다.