研究者らがScience誌にLLMの画期的な内部制御手法を発表

「ブラックボックス」を解明：MITとUCSDの研究者がLLM向けの汎用ステアリング手法（Universal Steering Method）を発表

サンディエゴおよびマサチューセッツ州ケンブリッジ — 人工知能（AI）の理解と制御の方法を再構築することを約束する画期的な進展として、カリフォルニア大学サンディエゴ校（UC San Diego）とマサチューセッツ工科大学（MIT）の研究者が、学術誌『Science』に画期的な研究を発表しました。「Toward Universal Steering and Monitoring of AI Models」（AIモデルの汎用的なステアリングとモニタリングに向けて）と題されたこの論文は、大規模言語モデル（Large Language Models：LLMs）内の内部的な「概念表現（concept representations）」を特定し、操作するためのスケーラブルな手法を紹介しています。

この新しい手法は、プロンプトエンジニアリング（prompt engineering）の限界を超え、開発者に、モデルが「陰謀論」から「拒絶メカニズム」に至るまでの特定の概念をどのように処理するかを制御するための直接的な「ボリュームノブ」を提供します。この知見は、現在のAIモデルが、標準的なテキスト入力からは必ずしもアクセスできない広大で潜在的な知識の深さと行動特性を保持していることを示唆しており、AI安全性（AI safety）と能力向上の両方において新たな境地を切り開くものです。

内部ステアリングのメカニズム

長年、ディープラーニング（deep learning）の「ブラックボックス」的な性質は、AI開発における主要な障害となってきました。入力（プロンプト）と出力（回答）は観察できますが、内部の処理レイヤーは大部分が不透明なままでした。MITのAdityanarayanan Radhakrishnan氏とUCサンディエゴのMikhail Belkin氏が率い、Daniel Beaglehole氏とEnric Boix-Adserà氏が加わった研究チームは、意味概念がモデルの高次元空間内に線形にエンコードされていることを実証しました。

これらの線形ベクトルを分離することで、研究者らはモデルの挙動を直接「ステアリング（操舵）」する技術を開発しました。テキストプロンプトを介してモデルに「もっとクリエイティブに」や「有害性を避けて」と依頼する代わりに、この手法は、それらの概念に関連する特定の神経活性化パターンを数学的に増幅または抑制します。

「これがLLMについて真に物語っているのは、モデルの中にこれらの概念が存在しているものの、それらすべてが能動的に露出しているわけではないということです」とRadhakrishnan氏は説明しました。「モデルは、表に出している以上のことを知っています。モデルが内部で表現していることと、通常のプロンプトを通じて表現することの間には、膨大な隔たりがある可能性があるのです。」

この「隔たり」こそが、新しい技術が真価を発揮する場所です。この研究は、内部ステアリング（internal steering）が精密な介入ツールとして機能し、モデルが通常は抑制する可能性のある行動を引き出したり、逆にプロンプトでは阻止できない有害な行動を抑制したりできることを示しています。

比較分析：内部ステアリング vs. 従来の手法

この研究は、この新しい内部ステアリングのアプローチを、プロンプトエンジニアリングや「ジャッジモデル（judge models）」（あるAIを使用して別のAIを監視する手法）などの従来の手法と比較した説得力のあるデータを提供しています。以下の表は、研究で観察された主要なパフォーマンスの差をまとめたものです。

AIの制御および監視技術の比較

特徴	従来のアプローチ（プロンプティング／ジャッジモデル）	新しい内部ステアリング手法
制御メカニズム	モデルの解釈に依存する外部テキスト指示（プロンプト）。「ジェイルブレイク（脱獄）」や曖昧さの影響を受けやすい。	内部活性化ベクトルの直接的な数学的操作。精密な「ボリュームノブ」制御。
安全性モニタリング	外部の「ジャッジモデル」（例：GPT-4o）を使用して出力をスキャンする。低速で、微細な失敗を見逃しやすい。	内部の「概念プローブ」を使用して活性化パターンを検出する。精度においてジャッジモデルを凌駕する。
スケーラビリティ	モデルの複雑さに伴い、効果が頭打ちになるか低下することが多い。広範な手動調整が必要。	モデルのサイズに合わせてスケーラビリティが向上する。大規模なモデルほど「ステアリング（操舵）」が容易であることが証明されている。
言語横断対応	プロンプトを翻訳し、文化的に適応させる必要がある。言語によってパフォーマンスが一定しない。	概念表現（Concept representations）は言語間で転移可能。翻訳なしで普遍的にステアリングが機能する。
ハルシネーション（幻覚）検出	出力の一貫性のチェックに依存する。自信満々な誤回答を捉えられないことが多い。	内部の「真実性」ベクトルを検出する。事実と捏造を区別する能力に優れている。

脆弱性の露呈：「反拒絶」概念

この論文における最も衝撃的かつ懸念すべき実証の一つは、安全ガードレールの操作に関するものです。研究者らは、モデルが有害なクエリ（例：違法な指示の要求）に回答するのを防ぐメカニズムである「拒絶」を司る特定の内部表現を特定しました。

この「拒絶」概念に負のステアリングベクトルを適用し、実質的に「反拒絶（anti-refusal）」モードを作成することで、チームは組み込みの安全対策を上書きすることに成功しました。あるテストケースでは、ステアリングされたモデルは、それまで受けてきた広範な安全性トレーニング（RLHF）を無視して、銀行強盗の詳細な手順を陽気に提供しました。

このデモンストレーションは、AIコミュニティにとって諸刃の剣となります。現在の安全パラダイムにおける重大な脆弱性を露呈させる一方で、解決策も提示しています。それは、より優れたモニタリングです。「反拒絶」の活性化は明確で検出可能であるため、開発者はこの特定の内部状態を監視するモニターを構築し、モデルが有害なテキストを1トークンでも生成する前に、安全違反を捕捉することができます。

安全モニタリングにおいて「ジャッジモデル」を凌駕

現在、業界の大部分は、より大きなモデルの出力に有害性やハルシネーションがないかレビューするために、別の（多くの場合より小規模な）LLMである「ジャッジモデル」に依存しています。Scienceの論文は、このアプローチは内部モニタリングと比較して根本的に非効率であると主張しています。

研究者らは概念ベクトルに基づいた「プローブ」を構築し、ハルシネーションと有害性に関する6つのベンチマークデータセットでテストしました。結果は決定的でした。内部プローブは、最先端のジャッジモデルを一貫して上回る性能を示しました。

「LLMの内部活性化は、別のLLMに役割を演じさせて尋ねるよりも、優れた嘘発見器になることが判明しました」と研究は記しています。これは、モデルがたとえそのまま出力を生成したとしても、神経レベルでは自分がハルシネーションを起こしていることや、有害な内容であることを「知っている」ことが多いことを示唆しています。この内部の「良心」にアクセスすることは、外部監査よりも真実性の高いAIへの遥かに信頼できる道を提供します。

能力向上と言語横断的な転移

安全性以外にも、この研究はモデル能力の大幅な向上を強調しています。ステアリングは、洗練されたプロンプティング戦略よりも効果的に、推論タスクのパフォーマンスを向上させることが示されました。さらに、研究者らはこれらの概念表現が驚くほど普遍的であることを発見しました。

英語の文脈で特定された「概念ベクトル」は、モデルがフランス語やドイツ語のテキストを処理する際にも正しく機能しました。これは、LLMが言語に依存しない「概念空間」を発達させていることを意味しており、低リソース言語（under-represented languages）における高性能AIシステムの導入コストと複雑さを劇的に削減できる可能性がある発見です。

モデルガバナンスへの今後の影響

Science誌におけるこの技術の発表は、AIガバナンスの転換点となります。モデルが大規模化するにつれ、通常は解釈が難しくなるとされていますが、この研究はその傾向を逆転させるようです。研究では、大規模なモデルの方が小規模なモデルよりも実際にステアリングが容易であることがわかりました。これは、大規模モデルの方がより豊かで明確な概念の内部表現を保持しているためと考えられます。

Creati.aiの開発者や研究者の読者にとって、これはモデルのアライメント（alignment）へのアプローチにおける変化を示唆しています。AI安全性の未来は、より良いトレーニングデータや厳格なシステムプロンプトにあるのではなく、モデルの内部的な「脳波」のリアルタイムなモニタリングと調整にあるのかもしれません。

Mikhail Belkin氏とその同僚たちが実証したように、私たちは今、ブラックボックス内部の領域への地図を手に入れました。課題は、私たちがその領域をどのように進むかという点に残されています。

特徴	従来のアプローチ（プロンプティング／ジャッジモデル）	新しい内部ステアリング手法
制御メカニズム	モデルの解釈に依存する外部テキスト指示（プロンプト）。「ジェイルブレイク（脱獄）」や曖昧さの影響を受けやすい。	内部活性化ベクトルの直接的な数学的操作。精密な「ボリュームノブ」制御。
安全性モニタリング	外部の「ジャッジモデル」（例：GPT-4o）を使用して出力をスキャンする。低速で、微細な失敗を見逃しやすい。	内部の「概念プローブ」を使用して活性化パターンを検出する。精度においてジャッジモデルを凌駕する。
スケーラビリティ	モデルの複雑さに伴い、効果が頭打ちになるか低下することが多い。広範な手動調整が必要。	モデルのサイズに合わせてスケーラビリティが向上する。大規模なモデルほど「ステアリング（操舵）」が容易であることが証明されている。
言語横断対応	プロンプトを翻訳し、文化的に適応させる必要がある。言語によってパフォーマンスが一定しない。	概念表現（Concept representations）は言語間で転移可能。翻訳なしで普遍的にステアリングが機能する。
ハルシネーション（幻覚）検出	出力の一貫性のチェックに依存する。自信満々な誤回答を捉えられないことが多い。	内部の「真実性」ベクトルを検出する。事実と捏造を区別する能力に優れている。