MIT 연구진, 과도한 자신감을 보이는 대형 언어 모델을 식별하고 환각을 표시하는 새로운 방법 개발

환각 위기: AI의 과잉 확신이 안전 리스크인 이유

거대 언어 모델 (Large Language Models, LLMs)은 우리가 기술과 상호작용하는 방식을 변화시켰지만, "확신에 찬 오답" 정보를 생성하는 경향은 여전히 큰 장애물로 남아 있습니다. AI 시스템이 부정확하거나 조작된 답변을 높은 확신을 가지고 제시할 때, 이는 능력에 대한 위험한 착각을 불러일으킵니다. 의료, 법률 서비스, 금융과 같이 이해관계가 얽힌 고위험 분야에서 이러한 환각 (Hallucination)은 파괴적인 실제 결과를 초래할 수 있습니다.

수년 동안 개발자들은 신뢰성을 측정하기 위해 모델이 여러 번 질문을 받았을 때 동일한 답변을 제공하는지 테스트하는 "자기 일관성 (Self-consistency)" 검사에 의존해 왔습니다. 그러나 매사추세츠 공과대학교 (Massachusetts Institute of Technology, MIT)의 연구에 따르면 이 접근 방식은 근본적으로 한계가 있습니다. 모델이 여러 번의 반복 과정에서 일관되게 틀릴 수 있기 때문에, 자기 일관성 방식은 시스템이 진정으로 환각을 일으키고 있을 때 이를 감지하지 못하는 경우가 많습니다. 이를 해결하기 위해 MIT 연구팀은 AI 신뢰성을 측정하는 방식을 재정의할 것으로 기대되는 "총 불확실성 (Total Uncertainty)" (TU)이라는 새롭고 더욱 강력한 지표를 도입했습니다.

새로운 지평을 열다: MIT의 총 불확실성 지표

전기 공학 및 컴퓨터 과학 대학원생인 Kimia Hamidieh가 이끄는 MIT 팀이 개발한 핵심 혁신은 단일 모델 분석의 한계를 넘어섭니다. 연구진은 전통적인 방법이 주로 알레아토리 불확실성 (Aleatoric uncertainty) — 단일 모델의 내부적 확신 — 을 측정하며, 이는 시스템에 진정한 지식이 부족한 경우를 식별하는 데 불충분하다고 주장합니다.

이를 해결하기 위해 MIT 방식은 모델 훈련에 내재된 "지식 격차"를 다루는 에피스테믹 불확실성 (Epistemic uncertainty)을 포함합니다. 대상 모델이 다른 다양한 LLM 앙상블과 얼마나 의견이 일치하지 않는지를 측정함으로써, 시스템은 진정으로 확신하는 모델과 단순히 환각을 일으키는 모델을 더욱 정확하게 구별할 수 있습니다.

앙상블 방식의 메커니즘

MIT 방식은 단일하고 거대한 테스트에 의존하지 않습니다. 대신 다양한 개발자가 만든 LLM 앙상블을 활용합니다. 대상 모델의 출력과 엄선된 다양한 LLM 그룹의 답변 간의 의미론적 유사성을 비교함으로써 시스템은 편차를 정량화할 수 있습니다. 만약 모델들이 매우 다른 답변을 제공한다면 에피스테믹 불확실성이 높은 것이며, 해당 답변을 신뢰할 수 없는 것으로 표시합니다.

이 "총 불확실성 (Total Uncertainty, TU)" 지표는 알레아토리 불확실성(내부 일관성)과 에피스테믹 불확실성(모델 간 불일치)을 합산하여 계산됩니다. 이러한 이중 계층 접근 방식은 보다 포괄적인 안전 필터를 생성합니다. 연구진에 따르면 이 방법은 수학적 추론, 번역, 사실 관계 질의응답을 포함한 10가지 현실적인 과제에서 기존의 단독 측정 방식을 지속적으로 능가했습니다.

감지 기술의 실질적 비교

이 접근 방식이 왜 우수한지 이해하려면 서로 다른 방법들이 AI 불확실성을 어떻게 처리하는지 비교해야 합니다. 아래 표는 표준 자기 일관성과 새로운 앙상블 기반 총 불확실성 지표의 주요 차이점을 요약합니다.

방법	핵심 메커니즘	주요 한계
자기 일관성 (Self-Consistency)	한 모델의 여러 샘플	공유된 내부 편향에 취약함
에피스테믹 불확실성 (Epistemic Uncertainty)	모델 간 합의 확인	여러 모델에 대한 접근 필요
총 불확실성 (Total Uncertainty, TU)	알레아토리 및 에피스테믹 결합	초기 계산 오버헤드가 높음

AI 안전 및 신뢰성에 대한 시사점

총 불확실성 지표의 배포는 AI 안전 (AI safety)의 미래에 깊은 시사점을 제공합니다. 환각을 정확하게 표시함으로써 TU 지표는 개발자가 시스템이 자신이 모르는 것을 더 잘 알게 되는 "모델 보정 (Model calibration)" 단계로 나아갈 수 있도록 합니다.

단순한 감지를 넘어, 연구진은 이 방법이 훈련 신호로도 작용할 수 있다고 언급했습니다. LLM의 확신에 찬 정답을 강화하고 확신에 찬 오류에 페널티를 부여함으로써, 개발자는 시간이 지남에 따라 모델이 더 정확하고 신뢰할 수 있도록 미세 조정할 수 있습니다. 또한, MIT 팀은 자신들의 방법이 기존의 자기 일관성 검사보다 확신 있는 평가에 도달하는 데 더 적은 쿼리를 필요로 하는 경우가 많다는 사실을 발견했으며, 이는 잠재적으로 AI 신뢰성에 대한 보다 에너지 효율적인 경로를 제공합니다.

과제 및 향후 방향

결과는 유망하지만, 연구진은 TU 지표의 효과가 모든 영역에서 균일하지는 않다는 점을 인정합니다. 현재 이 접근 방식은 사실 관계 질의나 표준화된 수학 문제와 같이 유일하고 객관적인 정답이 있는 과제에 가장 효과적입니다. 반면, 개방형 창의적 글쓰기나 매우 추상적인 과제에서의 성능은 추가적인 개선이 필요한 영역으로 남아 있습니다.

MIT-IBM Watson AI Lab의 연구원들이 포함된 이 팀은 지표의 기능을 계속 확장할 계획입니다. 향후 반복 연구는 개방형 질의에 대한 성능을 개선하고 불확실성 정량화의 추가 형태를 탐구하는 것을 목표로 합니다. 업계가 보다 자율적인 AI 에이전트로 나아감에 따라, AI 지식의 한계를 정확하게 측정하고 그 불확실성을 사용자에게 전달하는 능력은 더욱 안전하고 투명한 기술 생태계의 초석이 될 것입니다.