MIT 研究人員開發新方法以識別過度自信的大型語言模型並標示幻覺

幻覺危機：為何對 AI 過度自信是一項安全風險

大型語言模型（Large Language Models，LLMs）已經改變了我們與技術互動的方式，但其產生「自信錯誤」資訊的傾向仍然是一個重大障礙。當 AI 系統以高度確定性呈現不準確或捏造的回應時，會營造出一種能力的危險錯覺。在醫療保健、法律服務和金融等高風險領域，這些幻覺（hallucinations）可能會產生毀滅性的現實後果。

多年來，開發者一直依賴「自我一致性」（self-consistency）檢查——測試模型在多次提示時是否提供相同的答案——來衡量可靠性。然而，麻省理工學院（MIT）的研究表明，這種方法有其根本性的局限。由於模型可能在多次疊代中持續出錯，自我一致性通常無法檢測到系統何時正在產生真正的幻覺。為了解決這個問題，MIT 的一組研究人員引入了一種名為「總不確定性」（Total Uncertainty，TU）的新型、更強大的指標，這有望重新定義我們衡量 AI 可靠性的方式。

開拓新領域：MIT 總不確定性指標

由電子工程與電腦科學系研究生 Kimia Hamidieh 領導的 MIT 團隊開發的核心創新，超越了單一模型分析的局限。研究人員認為，傳統方法主要測量偶然不確定性（aleatoric uncertainty）——即單一模型的內部信心——這不足以識別系統何時缺乏真正的知識。

為了解決這個問題，MIT 的方法納入了認知不確定性（epistemic uncertainty），這解決了模型訓練中固有的「知識差距」。透過測量目標模型與其他不同 LLMs 集群的分歧程度，系統可以更準確地區分出一個是真正自信的模型，還是僅僅是在產生幻覺的模型。

集群方法的機制

MIT 的方法不依賴於單一、整體的測試。相反，它利用了來自不同開發者的 LLMs 集群。透過將目標模型的輸出語義相似度與一組精心挑選的多元 LLMs 集群的回應進行比較，系統可以量化發散程度。如果模型提供的答案大不相同，則認知不確定性很高，從而將該回應標記為不可靠。

這種「總不確定性」（TU）指標是透過將偶然不確定性（內部一致性）和認知不確定性（跨模型分歧）相加計算得出的。這種雙層方法創造了一個更全面的安全過濾器。根據研究人員的說法，這種方法在包括數學推理、翻譯和事實問答在內的十項現實任務中，表現始終優於現有的獨立測量方法。

檢測技術的實際比較

為了理解為什麼這種方法更具優勢，有必要比較不同方法如何處理 AI 的不確定性。下表概述了標準自我一致性與新型基於集群的總不確定性指標之間的主要區別。

方法	核心機制	主要局限
自我一致性	來自單一模型的多個樣本	易受共享內部偏見的影響
認知不確定性	跨模型共識檢查	需要存取多個模型
總不確定性 (TU)	結合偶然與認知	初始計算開銷較高

對 AI 安全與可靠性的影響

總不確定性指標的部署對 AI 安全（AI safety）的未來具有深遠影響。透過準確標記幻覺，TU 指標允許開發者轉向「模型校準」（model calibration），讓系統變得更擅長了解自己不知道的事情。

除了簡單的檢測，研究人員還指出該方法可以作為訓練信號。透過強化 LLM 的自信正確答案——並懲罰自信的錯誤——開發者可以微調模型，使其隨著時間的推移變得更加準確和可靠。此外，MIT 團隊發現，與傳統的自我一致性檢查相比，他們的方法通常需要較少的查詢次數即可達到自信的評估，這可能為實現 AI 可靠性提供了一條更具能源效率的路徑。

挑戰與未來方向

雖然結果令人鼓舞，但研究人員承認 TU 指標的有效性在所有領域並不統一。目前，該方法對於具有獨特、客觀正確答案的任務（如事實查詢或標準化數學問題）最為有效。相比之下，其在開放式創意寫作或高度抽象任務上的表現仍有待進一步完善。

該團隊（包括來自 MIT-IBM Watson AI Lab 的研究人員）計劃繼續擴展該指標的功能。未來的疊代旨在提高在開放式查詢上的表現，並探索其他形式的不確定性量化。隨著行業向更具自主性的 AI 代理邁進，準確衡量 AI 知識極限——並將這種不確定性傳達給使用者——的能力，將成為更安全、更透明的技術生態系統的基石。