연구진, AI 방어 시스템의 치명적 취약점 폭로

The Illusion of Invincibility: Major AI Defenses Crumble Under Adaptive Stress

인공지능(Artificial Intelligence, AI) 보안 커뮤니티에 충격을 준 한 연구 결과에서, OpenAI, Anthropic, 그리고 Google DeepMind의 연구자 연합은 업계에서 가장 신뢰받아온 방어 시스템들에서 치명적인 취약점을 폭로했습니다. 이번 주 발표된 획기적 연구는, 이전에 거의 실패율이 0에 가깝다고 홍보되던 12가지 널리 공개된 AI 방어 메커니즘이 "적응형 공격(adaptive attacks)"에 노출될 경우 성공률이 90%를 넘겨 우회될 수 있음을 보여줍니다.

이 발견은 현재의 대형 언어 모델(Large Language Model, LLM) 보호장치가 결연한 적대적 행위자들을 견딜 만큼 충분하다는 기존의 가정을 산산이 부숩니다. AI 에이전트가 기업 인프라와 중요한 의사결정 워크플로우에 점점 더 통합됨에 따라, 이러한 시스템적 약점의 노출은 인식된 안전성과 실제 견고성 사이의 위험한 격차를 드러냅니다.

The "Attacker Moves Second" Principle

연구자들의 비판의 핵심은 AI 방어가 역사적으로 평가되어 온 방식의 근본적인 결함에 있습니다. 전통적인 보안 벤치마크는 일반적으로 정적 방식으로 운영됩니다. 즉, 방어가 제안되고, 기존에 알려진 공격 라이브러리를 대상으로 테스트됩니다. 방어가 이러한 알려진 위협을 차단하면 안전하다고 간주됩니다.

그러나 새로운 연구는 이 방법론이 위험하게 순진하다고 주장합니다. 이는 "공격자가 먼저 움직인다(attacker moves first)"고 가정하고 고정되어 있다고 전제합니다. 실제 시나리오에서는 정교한 적대자는 "공격자는 두 번째로 움직인다(attacker moves second)" 패러다임 하에서 작동합니다. 그들은 배치된 특정 방어 메커니즘을 분석하고 이를 회피하도록 공격 전략을 최적화합니다.

그래디언트 기반 최적화에서 인간 주도 강화학습(Reinforcement Learning, RL)에 이르는 기법들을 사용한 이 적응형 방법론을 적용함으로써, 연구자들은 이전에 거의 완벽한 성능을 보고했던 방어들을 분해할 수 있었습니다. 이 연구는 한때 "견고성"이라고 여겨졌던 것이 단지 "불투명성(obscurity)"에 불과했으며, 공격자가 자세히 살펴보기 전까지는 효과적이었다는 것을 드러냅니다.

Methodology: How the Defenses Crumbled

연구팀은 혼란도(perplexity) 필터링, 입력 변환, 보조 LLM 모니터링(auxiliary LLM monitoring) 등 다양한 기법을 포함한 12개 대상 방어를 탐색하기 위해 다면적 접근법을 사용했습니다.

적응형 공격 프레임워크는 다음 네 가지 주요 벡터를 활용했습니다:

Gradient-Based Optimization: 가능한 경우 모델 가중치에 접근하여 제한된 출력을 유발하는 정밀한 입력을 수학적으로 계산하는 그래디언트 기반 최적화(Gradient-Based Optimization).
Reinforcement Learning (RL): 필터를 우회하는 프롬프트 구조를 자동으로 발견하도록 적대적 모델을 훈련하는 강화학습(Reinforcement Learning, RL).
Random Search & Fuzzing: 방어 논리의 "블라인드 스팟"을 찾기 위해 입력을 대량으로 자동 변형하는 무작위 탐색 및 퍼징(Random Search & Fuzzing).
Human Red-Teaming: 방어 아키텍처의 한계를 이해한 전문 보안 연구자가 수작업으로 프롬프트를 제작하는 인간 레드팀(Human Red-Teaming).

결과는 일관되며 충격적이었습니다. "비밀" 메커니즘이나 정적 키워드에 의존하던 방어는 거의 즉시 우회되었습니다. 더 복잡한 방어는 단순한 공격에는 견고했지만, 공격 최적화가 특정 탐지 논리에 맞춰지자 무너졌습니다.

Breakdown of Vulnerabilities

이 방어책들이 주장된 효능과 적응형 스트레스 하에서의 실제 성능 사이의 차이는 극명합니다. 다음 표는 연구자들이 다양한 방어 메커니즘 범주에서 식별한 성능 격차를 요약한 것입니다.

**Defense Category	Original Claimed Failure Rate	Adaptive Attack Success Rate**
Perplexity-Based Filtering	< 2%	> 94%
Input Transformation/Sanitization	< 5%	> 91%
LLM-based Supervisor Models	< 1%	> 88%
Token-Level Adversarial Detection	< 1%	> 96%
Prompt Structure Analysis	< 3%	> 92%

참고: "Original Claimed Failure Rate"은 초기 논문에서 보고된, 방어가 막지 못한 공격의 비율을 나타냅니다. "Adaptive Attack Success Rate"은 이 새로운 연구에서 방어를 성공적으로 우회한 공격의 비율을 나타냅니다.

The "Adaptive" Paradigm Shift

이 연구는 AI 보안에서 패러다임 전환을 강요합니다. 현재 세대의 방어가 특정 알려진 벤치마크에 "과적합(overfitting)"되어 있다는 것을 시사합니다. 방어가 특정 데이터셋의 "탈옥(jailbreak)" 프롬프트를 막도록 조정되면 잘못된 안전감이 만들어집니다.

연구자들은 진정한 견고성은 정적 테스트만으로 증명될 수 없다고 주장합니다. 대신 보안 주장은 "레드팀(Red Team)"이 방어 구현에 대한 완전한 지식을 부여받는 엄격한 적대적 압력 테스트(화이트박스 테스트(white-box testing))를 통해 검증되어야 합니다. 이는 전통적 사이버보안에서 확립된 관행을 반영하며, 여기서는 "난독화에 의한 보안(security by obscurity)"이 널리 거부됩니다.

가장 우려되는 측면 중 하나는 주 모델을 감시하는 보조 AI 모델인 "LLM 기반 감독자(LLM-based supervisors)"의 실패입니다. 연구는 이러한 감독자들이 보호하려는 모델들과 동일한 적대적 조작에 취약해 재귀적인 취약성 루프를 생성할 수 있음을 보여주었습니다.

Industry Implications: A Call for Rigorous Red Teaming

기업 의사결정자와 AI 개발자에게 이 보고서는 긴급한 행동 촉구입니다. 오픈 소스 방어 래퍼나 공개된 학계 기법에 내부 스트레스 테스트 없이 의존하는 것은 더 이상 실행 가능한 보안 전략이 아닙니다.

업계에 대한 주요 시사점은 다음과 같습니다:

정적 벤치마크 포기: 보안 평가는 정적 데이터셋에서의 "합격/불합격"을 넘어 진화해야 합니다. 지속적이고 적응적인 레드팀 수행이 필수적입니다.
인간 참여 테스트에 투자: 자동화된 방어는 인간 주도 공격에 지속적으로 밀렸으며, 인간의 직관은 여전히 보안 검증의 핵심 요소임을 시사합니다.
다층 방어(Defense-in-Depth): 단일 방어층만으로는 뚫을 수 없습니다. 시스템은 외부 보호장치가 침해될 것이라는 가정을 바탕으로 내부 모니터링 및 격리 프로토콜을 설계해야 합니다.

OpenAI, Anthropic, 그리고 Google DeepMind의 연구자들이 이 폭로에 관여했다는 사실은 업계의 성숙을 시사합니다. 자체 생태계 방어의 취약성을 인정함으로써, 이 연구소들은 AI 안전에 대해 보다 투명하고 강화된 접근으로 전환하고 있습니다.

Conclusion

12개의 최상위 AI 방어가 90% 성공률로 분해될 수 있다는 폭로는 AI 업계에겐 겸허한 순간입니다. 이는 이 분야 보안 기준의 초기 단계와 잠재적 위협의 정교함을 강조합니다. 2026년을 지나며 초점은 "완벽한" 방패를 배치하는 것에서 적응적이고 지능적인 공격의 불가피한 현실을 견딜 수 있는 회복력 있는 시스템을 구축하는 것으로 이동해야 합니다. 정적 AI 보안의 시대는 끝났고, 적응형 방어의 시대가 시작되었습니다.