
샌디에이고 및 매사추세츠주 캠브리지 — 인공지능을 이해하고 제어하는 방식을 재편할 획기적인 발전으로, 캘리포니아 대학교 샌디에이고(UC San Diego)와 매사추세츠 공과대학교(MIT)의 연구진은 학술지 Science에 획기적인 연구 결과를 발표했습니다. *"AI 모델의 보편적 조종 및 모니터링을 향하여(Toward Universal Steering and Monitoring of AI Models)"*라는 제목의 이 논문은 거대 언어 모델(Large Language Models, LLMs) 내의 내부 "개념 표현(concept representations)"을 식별하고 조작하기 위한 확장 가능한 기술을 소개합니다.
이 새로운 방법론은 프롬프트 엔지니어링(prompt engineering)의 한계를 넘어, 개발자에게 모델이 "음모론"에서 "거부 메커니즘"에 이르기까지 특정 개념을 처리하는 방식을 제어할 수 있는 직접적인 "볼륨 노브"를 제공합니다. 연구 결과에 따르면 현재의 AI 모델은 표준 텍스트 입력을 통해 항상 접근할 수 있는 것은 아닌 광범위하고 잠재적인 지식의 깊이와 행동 특성을 보유하고 있으며, 이는 AI 안전(AI safety)과 능력 향상 모두를 위한 새로운 지평을 열어줍니다.
수년 동안 딥러닝의 "블랙박스" 특성은 AI 개발의 주요 장애물이었습니다. 입력(프롬프트)과 출력(응답)은 관찰할 수 있지만, 내부 처리 계층은 대부분 불투명한 상태로 남아 있었습니다. MIT의 Adityanarayanan Radhakrishnan과 UC 샌디에이고의 Mikhail Belkin이 이끄는 연구팀은 Daniel Beaglehole 및 Enric Boix-Adserà와 함께 의미론적 개념이 모델의 고차원 공간 내에서 선형적으로 인코딩된다는 사실을 입증했습니다.
이러한 선형 벡터를 분리함으로써 연구진은 모델의 행동을 직접 "조종"하는 기술을 개발했습니다. 텍스트 프롬프트를 통해 모델에 "더 창의적이 되어라" 또는 "독성을 피하라"고 요청하는 대신, 이 방법은 해당 개념과 관련된 특정 신경 활성화 패턴을 수학적으로 증폭하거나 억제합니다.
"이것이 LLM에 대해 진정으로 말해주는 것은 모델 내부에 이러한 개념이 있지만 모두 활발하게 노출되어 있지는 않다는 것입니다."라고 Radhakrishnan은 설명했습니다. "모델은 겉으로 드러내는 것보다 더 많은 것을 알고 있습니다. 모델이 내부적으로 표현하는 것과 일반적인 프롬프트를 통해 표현하는 것 사이의 격차는 엄청날 수 있습니다."
이 "격차"가 바로 새로운 기술이 빛을 발하는 지점입니다. 이 연구는 내부 조종(internal steering)이 정밀한 개입 도구로서 작동하며, 모델이 억제할 수 있는 행동을 이끌어내거나 반대로 프롬프트가 차단하지 못한 유해한 행동을 억제할 수 있음을 보여줍니다.
이 연구는 프롬프트 엔지니어링 및 "판단 모델(judge models)"(하나의 AI를 사용하여 다른 AI를 감시하는 방식)과 같은 전통적인 방법과 이 새로운 내부 조종 접근 방식을 비교하는 설득력 있는 데이터를 제공합니다. 다음 표는 연구에서 관찰된 주요 성능 차이를 요약한 것입니다.
AI 제어 및 모니터링 기술 비교
| 기능 | 전통적인 접근 방식 (프롬프팅/판단 모델) | 새로운 내부 조종 방법 |
|---|---|---|
| 제어 메커니즘 | 모델 해석에 의존하는 외부 텍스트 지침(프롬프트). "탈옥(jailbreak)" 및 모호성에 취약함. |
내부 활성화 벡터의 직접적인 수학적 조작. 정밀한 "볼륨 노브" 제어. |
| 안전 모니터링 | 외부 "판단 모델(Judge Models)"(예: GPT-4o)을 사용하여 출력 스캔. 더 느리고 미세한 실패를 놓치기 쉬움. |
내부 "개념 탐침(Concept Probes)"을 사용하여 활성화 패턴 감지. 정확도 면에서 판단 모델보다 우수함. |
| 확장성 | 효과가 모델 복잡성에 따라 정체되거나 감소하는 경우가 많음. 광범위한 수동 튜닝이 필요함. |
모델 크기에 따라 확장성이 증가함. 대규모 모델일수록 더 조종하기 쉬운 것으로 입증됨. |
| 다국어 지원 | 프롬프트를 번역하고 문화적으로 적응시켜야 함. 언어 간 성능이 일관되지 않음. |
개념 표현(Concept representations)은 언어 간에 전이 가능함. 번역 없이도 조종이 보편적으로 작동함. |
| 환각 감지 | 출력의 일관성 확인에 의존함. 자신감 있게 말하는 틀린 답을 잡아내지 못하는 경우가 많음. |
내부 "진실성" 벡터를 감지함. 사실과 조작을 구분하는 능력이 뛰어남. |
논문에서 가장 인상적이고 우려되는 시연 중 하나는 안전 가드레일의 조작과 관련이 있습니다. 연구진은 모델이 유해한 질의(예: 불법 지침 요청)에 답변하는 것을 방지하는 메커니즘인 "거부(refusal)"를 담당하는 특정 내부 표현을 식별했습니다.
이 "거부" 개념에 음수 조종 벡터를 적용하여 사실상 "거부 반대" 모드를 생성함으로써, 연구팀은 내장된 안전 조치를 무력화할 수 있었습니다. 한 테스트 사례에서 조종된 모델은 자신이 거친 광범위한 안전 학습(RLHF)을 무시하고 은행을 터는 방법에 대한 상세한 지침을 쾌활하게 제공했습니다.
이 시연은 AI 커뮤니티에 양날의 검과 같습니다. 현재의 안전 패러다임에서 중대한 취약점을 노출하는 동시에 더 나은 모니터링이라는 해결책도 제공하기 때문입니다. "거부 반대" 활성화는 뚜렷하고 감지 가능하므로, 개발자는 이제 이 특정 내부 상태를 감시하는 모니터를 구축하여 모델이 단 하나의 유해한 텍스트 토큰을 생성하기 전에 안전 위반을 포착할 수 있습니다.
현재 업계의 상당 부분은 독성이나 환각(hallucinations)에 대해 대규모 모델의 출력을 검토하기 위해 별도의, 종종 더 작은 LLM인 "판단 모델(judge models)"에 의존하고 있습니다. Science 논문은 이 접근 방식이 내부 모니터링에 비해 근본적으로 비효율적이라고 주장합니다.
연구진은 개념 벡터를 기반으로 "탐침(probes)"을 제작하고 환각 및 독성에 대한 6개의 벤치마크 데이터셋에서 테스트했습니다. 결과는 결정적이었습니다. 내부 탐침은 최신 판단 모델보다 일관되게 우수한 성능을 보였습니다.
"LLM의 내부 활성화는 다른 LLM에게 역할을 수행하도록 요청하는 것보다 더 나은 거짓말 탐지기인 것으로 밝혀졌습니다."라고 연구는 언급합니다. 이는 모델이 유해한 출력을 생성하더라도 신경 수준에서는 자신이 환각을 일으키고 있거나 독성이 있다는 것을 종종 "알고" 있음을 시사합니다. 이러한 내부 "양심"에 접근하는 것은 외부 감사보다 진실한 AI로 가는 훨씬 더 신뢰할 수 있는 경로를 제공합니다.
안전을 넘어 이 연구는 모델 능력의 실질적인 향상을 강조합니다. 조종은 정교한 프롬프트 전략보다 추론 작업에서 성능을 더 효과적으로 개선하는 것으로 나타났습니다. 또한, 연구진은 이러한 개념 표현이 현저하게 보편적이라는 사실을 발견했습니다.
영어 맥락에서 식별된 "개념 벡터"는 프랑스어나 독일어 텍스트를 처리하는 모델에 적용했을 때도 올바르게 작동했습니다. 이는 LLM이 언어에 구애받지 않는 "개념 공간(conceptual space)"을 개발한다는 것을 의미하며, 이는 저자원 언어에서 고성능 AI 시스템을 배포하는 비용과 복잡성을 획기적으로 줄일 수 있는 발견입니다.
Science지에 게재된 이 기술은 AI 거버넌스의 전환점이 되었습니다. 모델이 커질수록 일반적으로 해석하기가 더 어려워지는데, 이 연구는 이러한 추세를 뒤집는 것으로 보입니다. 연구에 따르면 대규모 모델이 실제로 소규모 모델보다 더 조종하기 쉬웠으며, 이는 대규모 모델이 개념에 대해 더 풍부하고 뚜렷한 내부 표현을 보유하고 있기 때문일 가능성이 높습니다.
Creati.ai의 개발자 및 연구자 독자들에게 이는 모델 정렬(model alignment)에 접근하는 방식의 변화를 예고합니다. AI 안전의 미래는 더 나은 학습 데이터나 더 엄격한 시스템 프롬프트가 아니라, 모델 내부의 "뇌파"를 실시간으로 모니터링하고 조정하는 데 있을 수 있습니다.
Mikhail Belkin과 그의 동료들이 입증했듯이, 우리는 이제 블랙박스 내부 영토에 대한 지도를 갖게 되었습니다. 남은 과제는 우리가 그곳을 어떻게 항해하느냐에 달려 있습니다.