研究人員在Science期刊發表突破性的大型語言模型內部引導技術

解鎖「黑盒子」：MIT 與 UCSD 研究人員揭示大型語言模型（Large Language Models）的通用引導方法

聖地亞哥與麻薩諸塞州劍橋 — 在一項有望重塑我們對人工智慧理解與控制的里程碑式進展中，來自加州大學聖地亞哥分校（UC San Diego）與麻薩諸塞州理工學院（MIT）的研究人員在《科學》（Science）期刊上發表了一項突破性研究。這篇題為《邁向人工智慧模型的通用引導與監測》（"Toward Universal Steering and Monitoring of AI Models"）的論文，介紹了一種用於識別與操縱大型語言模型內部的「概念表示（Concept representations）」的可擴展技術。

這種新方法超越了提示工程（Prompt Engineering）的限制，為開發者提供了一個直接的「音量旋鈕」來控制模型如何處理特定概念——範圍從「陰謀論」到「拒絕機制」。研究結果表明，目前的 AI 模型擁有巨大的、潛在的知識深度和行為特徵，而這些特徵並不總是能透過標準文本輸入來獲取，這為 AI 安全（AI Safety）與能力增強開闢了新的領域。

內部引導（Internal steering）的機制

多年來，深度學習的「黑盒子」本質一直是 AI 發展的主要障礙。雖然我們可以觀察輸入（提示）和輸出（回應），但內部的處理層在很大程度上仍然是不透明的。由 MIT 的 Adityanarayanan Radhakrishnan 和 UC San Diego 的 Mikhail Belkin 領導的研究團隊，以及 Daniel Beaglehole 和 Enric Boix-Adserà，已經證明語義概念在模型的高維空間中是以線性方式編碼的。

透過分離這些線性向量，研究人員開發了一種直接「引導」模型行為的技術。與其透過文本提示要求模型「更具創意」或「避免毒性」，此方法在數學上放大或抑制了與這些概念相關的特定神經激活模式。

「這對大型語言模型的真正意義在於，它們內部擁有這些概念，但並非所有概念都被積極呈現，」Radhakrishnan 解釋道。「模型知道的比它們表現出來的更多。模型內部表示的內容與其透過正常提示表達的內容之間，可能存在巨大的鴻溝。」

這個「鴻溝」正是新技術大放異彩的地方。研究顯示，內部引導可作為一種精確的干預工具，能夠誘發模型原本可能抑制的行為，或者相反地，抑制提示詞未能阻斷的有害行為。

比較分析：內部引導與傳統方法

該研究提供了引人注目的數據，將這種新的內部引導方法與提示工程和「裁判模型（Judge models）」（使用一個 AI 來監管另一個 AI）等傳統方法進行了比較。下表概述了研究中觀察到的關鍵性能差異。

AI 控制與監測技術比較

特性	傳統方法（提示詞/裁判模型）	新型內部引導方法
控制機制	依賴模型解釋的外部文本指令（提示）。容易受到「越獄（Jailbreaks）」和歧義的影響。	直接對內部激活向量進行數學操縱。精確的「音量旋鈕」控制。
安全監測	使用外部「裁判模型」（例如 GPT-4o）掃描輸出。速度較慢且容易忽略細微的失敗。	使用內部「概念探針（Concept Probes）」檢測激活模式。在準確性上超越裁判模型。
可擴展性	有效性通常隨模型複雜度增加而停滯或下降。需要大量的級手動調優。	可擴展性隨模型大小而增加。事實證明，越大的模型越容易被引導。
跨語言	提示詞必須經過翻譯和文化適應。不同語言間的表現不一致。	概念表示可以跨語言遷移。引導功能無需翻譯即可通用。
幻覺檢測（Hallucination Detection）	依賴檢查輸出的一致性。通常無法捕捉語氣自信但錯誤的答案。	檢測內部的「真實性」向量。更擅長區分事實與虛構。

揭露脆弱性：「反拒絕（Anti-Refusal）」概念

論文中最引人注目且令人擔憂的演示之一，涉及對安全護欄的操縱。研究人員識別出一個負責「拒絕」的特定內部表示，這是防止模型回答有害查詢（例如非法指令請求）的機制。

透過對這個「拒絕」概念應用負向引導向量——實際上是創建了一個「反拒絕」模式——團隊能夠繞過內置的安全措施。在一個測試案例中，被引導的模型愉快地提供了搶劫銀行的詳細指令，無視了它所接受過的廣泛安全訓練（RLHF）。

這一演示對 AI 社群來說是一把雙面刃。雖然它揭露了當前安全範式中的關鍵脆弱性，但也提供了解決方案：更好的監測。因為「反拒絕」激活是獨特且可檢測的，開發者現在可以構建專門觀察這種特定內部狀態的監測器，在模型生成單個有害文本標記（Token）之前就捕捉到安全違規。

在安全監測中表現超越「裁判模型」

目前業界很大程度上依賴「裁判模型」——通常是較小的獨立大型語言模型——來審查較大模型的輸出中是否存在毒性或幻覺。《科學》論文認為，與內部監測相比，這種方法從根本上說是低效的。

研究人員根據他們的概念向量構建了「探針」，並在六個幻覺和毒性基準數據集上進行了測試。結果是確定的：內部探針的表現始終優於最先進的裁判模型。

「事實證明，大型語言模型的內部激活是比要求另一個模型扮演角色更好的測謊儀，」研究指出。這表明模型通常在神經層面上「知道」自己正在產生幻覺或具有毒性，即使它們隨後仍繼續生成輸出。訪問這種內部的「良知」，為實現真實的 AI 提供了一條比外部審計更可靠的路徑。

增強能力與跨語言遷移

除了安全性之外，該研究還強調了模型能力的實質性提升。引導被證明在提高推理任務表現方面比複雜的提示策略更有效。此外，研究人員發現這些概念表示具有顯著的通用性。

在英語環境下識別出的「概念向量」，在應用於處理法語或德語文本的模型時仍能正常運作。這意味著大型語言模型開發出了一種與語言無關的「概念空間」，這一發現可以大大降低在欠代表語言中部署高性能 AI 系統的成本和複雜性。

對模型治理的未來影響

這項技術在《科學》期刊上的發表標誌著 AI 治理的一個轉折點。隨著模型規模擴大，它們通常變得更難解釋——而這項研究似乎扭轉了這一趨勢。研究發現，較大的模型實際上比較小的模型更容易被引導，這可能是因為它們擁有更豐富、更獨特的內部概念表示。

對於 Creati.ai 的開發者和研究人員受眾來說，這預示著我們處理模型對齊（Alignment）方式的轉變。AI 安全的未來可能不在於更好的訓練數據或更嚴格的系統提示，而在於對模型內部「腦電波」的實時監測和調整。

正如 Mikhail Belkin 及其同事所證明的，我們現在擁有了進入黑盒子內部領域的地圖。挑戰在於我們如何選擇在這片領地中航行。

特性	傳統方法（提示詞/裁判模型）	新型內部引導方法
控制機制	依賴模型解釋的外部文本指令（提示）。容易受到「越獄（Jailbreaks）」和歧義的影響。	直接對內部激活向量進行數學操縱。精確的「音量旋鈕」控制。
安全監測	使用外部「裁判模型」（例如 GPT-4o）掃描輸出。速度較慢且容易忽略細微的失敗。	使用內部「概念探針（Concept Probes）」檢測激活模式。在準確性上超越裁判模型。
可擴展性	有效性通常隨模型複雜度增加而停滯或下降。需要大量的級手動調優。	可擴展性隨模型大小而增加。事實證明，越大的模型越容易被引導。
跨語言	提示詞必須經過翻譯和文化適應。不同語言間的表現不一致。	概念表示可以跨語言遷移。引導功能無需翻譯即可通用。
幻覺檢測（Hallucination Detection）	依賴檢查輸出的一致性。通常無法捕捉語氣自信但錯誤的答案。	檢測內部的「真實性」向量。更擅長區分事實與虛構。