MITの研究者が過度に自信のある大規模言語モデルを識別し幻覚を検出する新手法を開発

ハルシネーションの危機：なぜAIの過信が安全上のリスクになるのか

大規模言語モデル（LLMs）は、私たちがテクノロジーと対話する方法を一変させましたが、その「自信を持って間違える」情報を生成する傾向は、依然として大きな障害となっています。AIシステムが高い確信を持って不正確な回答や捏造された回答を提示すると、能力に対する危険な錯覚が生じます。ヘルスケア、法務、金融といったリスクの高い分野では、これらのハルシネーション（幻覚）が現実世界で壊滅的な結果をもたらす可能性があります。

何年もの間、開発者は信頼性を評価するために、モデルに複数回プロンプトを与えた際に同じ回答を返すかどうかをテストする「自己整合性（Self-consistency）」チェックに頼ってきました。しかし、マサチューセッツ工科大学（MIT）の研究は、このアプローチには根本的な限界があることを示唆しています。モデルは複数の反復にわたって一貫して間違える可能性があるため、自己整合性ではシステムが真にハルシネーションを起こしているかどうかを検出できないことが多々あります。これに対処するため、MITの研究チームは「Total Uncertainty（全不確実性：TU）」として知られる、より堅牢な新しい指標を導入しました。これはAIの信頼性を測定する方法を再定義することを約束するものです。

新たな境地：MITの全不確実性指標

電気工学・計算機科学の大学院生キミア・ハミディエ（Kimia Hamidieh）氏が率いるMITチームが開発した核心的なイノベーションは、単一モデル分析の限界を超えたものです。研究者たちは、従来の手法は主に「偶然的不確実性（Aleatoric uncertainty）」、すなわち単一モデル内部の信頼度を測定しており、システムが真の知識を欠いている場合を特定するには不十分であると主張しています。

これを解決するために、MITの手法は「認識的不確実性（Epistemic uncertainty）」を取り入れています。これはモデルのトレーニングに固有の「知識のギャップ」に対処するものです。ターゲットモデルが他の多様なLLMのアンサンブルとどれだけ食い違うかを測定することで、システムは真に自信があるモデルと、単にハルシネーションを起こしているだけのモデルをより正確に区別できるようになります。

アンサンブル・アプローチの仕組み

MITの手法は、単一のモノリシックなテストに依存しません。代わりに、様々な開発者によるLLMのアンサンブルを利用します。ターゲットモデルからの出力のセマンティック（意味的）な類似性を、厳選された多様なLLMグループからの回答と比較することで、システムは乖離を定量化できます。モデルが大きく異なる回答を提供する場合、認識的不確実性が高くなり、その回答は信頼できないものとしてフラグが立てられます。

この「全不確実性（Total Uncertainty：TU）」指標は、偶然的不確実性（内部の一貫性）と認識的不確実性（モデル間の不一致）を合算することで算出されます。この二層構造のアプローチにより、より包括的なセーフティフィルターが構築されます。研究者によると、この手法は数学的推論、翻訳、事実に基づく質問への回答を含む10の現実的なタスクにおいて、既存の単独の測定手法を一貫して上回る性能を示しました。

検出手法の実践的比較

なぜこのアプローチが優れているのかを理解するために、異なる手法がAIの不確実性をどのように処理するかを比較する必要があります。以下の表は、標準的な自己整合性と、新しいアンサンブルベースの全不確実性指標の主な違いをまとめたものです。

手法	核心となるメカニズム	主な限界
自己整合性（Self-Consistency）	1つのモデルからの複数サンプル	共通の内部バイアスの影響を受けやすい
認識的不確実性（Epistemic Uncertainty）	モデル間のコンセンサスチェック	複数のモデルへのアクセスが必要
全不確実性（Total Uncertainty：TU）	偶然的と認識的の組み合わせ	初期計算コストが高い

AIの安全性と信頼性への影響

全不確実性指標の導入は、今後のAI安全性（AI safety）に大きな影響を及ぼします。ハルシネーションに正確にフラグを立てることで、TU指標は開発者が「モデルキャリブレーション（較正）」へと進むことを可能にします。これにより、システムは何を知らないのかを知る能力が向上します。

単純な検出を超えて、研究者たちはこの手法がトレーニング信号としても機能する可能性があると指摘しました。LLMの自信に満ちた正解を強化し、自信に満ちた誤りを罰することで、開発者は時間の経過とともにモデルをより正確で信頼できるものへと微調整できます。さらにMITチームは、彼らの手法が従来の自己整合性チェックよりも少ないクエリで確信度の高い評価に達することが多いことを発見しました。これは、AIの信頼性向上に向けた、よりエネルギー効率の高い道筋を提供する可能性があります。

課題と今後の展望

有望な結果が出ている一方で、研究者たちはTU指標の有効性がすべての領域で一様ではないことを認めています。現在、このアプローチは事実に関する問い合わせや標準化された数学の問題など、客観的で唯一の正解があるタスクにおいて最も効果的です。対照的に、自由形式のクリエイティブ・ライティングや非常に抽象的なタスクにおけるパフォーマンスは、さらなる改善が必要な領域として残っています。

MIT-IBM Watson AI Labの研究者を含むこのチームは、今後も指標の機能を拡大していく計画です。将来の反復では、自由形式のクエリに対するパフォーマンスを向上させ、さらなる形態の不確実性定量を探索することを目指しています。業界がより自律的なAIエージェントへと移行する中で、AIの知識の限界を正確に測定し、その不確実性をユーザーに伝える能力は、より安全で透明性の高い技術エコシステムの礎となるでしょう。