AI News

「ブラックボックス」を解明:MITとUCSDの研究者がLLM向けの汎用ステアリング手法(Universal Steering Method)を発表

サンディエゴおよびマサチューセッツ州ケンブリッジ — 人工知能(AI)の理解と制御の方法を再構築することを約束する画期的な進展として、カリフォルニア大学サンディエゴ校(UC San Diego)とマサチューセッツ工科大学(MIT)の研究者が、学術誌『Science』に画期的な研究を発表しました。「Toward Universal Steering and Monitoring of AI Models」(AIモデルの汎用的なステアリングとモニタリングに向けて)と題されたこの論文は、大規模言語モデル(Large Language Models:LLMs)内の内部的な「概念表現(concept representations)」を特定し、操作するためのスケーラブルな手法を紹介しています。

この新しい手法は、プロンプトエンジニアリング(prompt engineering)の限界を超え、開発者に、モデルが「陰謀論」から「拒絶メカニズム」に至るまでの特定の概念をどのように処理するかを制御するための直接的な「ボリュームノブ」を提供します。この知見は、現在のAIモデルが、標準的なテキスト入力からは必ずしもアクセスできない広大で潜在的な知識の深さと行動特性を保持していることを示唆しており、AI安全性(AI safety)と能力向上の両方において新たな境地を切り開くものです。

内部ステアリングのメカニズム

長年、ディープラーニング(deep learning)の「ブラックボックス」的な性質は、AI開発における主要な障害となってきました。入力(プロンプト)と出力(回答)は観察できますが、内部の処理レイヤーは大部分が不透明なままでした。MITのAdityanarayanan Radhakrishnan氏とUCサンディエゴのMikhail Belkin氏が率い、Daniel Beaglehole氏とEnric Boix-Adserà氏が加わった研究チームは、意味概念がモデルの高次元空間内に線形にエンコードされていることを実証しました。

これらの線形ベクトルを分離することで、研究者らはモデルの挙動を直接「ステアリング(操舵)」する技術を開発しました。テキストプロンプトを介してモデルに「もっとクリエイティブに」や「有害性を避けて」と依頼する代わりに、この手法は、それらの概念に関連する特定の神経活性化パターンを数学的に増幅または抑制します。

「これがLLMについて真に物語っているのは、モデルの中にこれらの概念が存在しているものの、それらすべてが能動的に露出しているわけではないということです」とRadhakrishnan氏は説明しました。「モデルは、表に出している以上のことを知っています。モデルが内部で表現していることと、通常のプロンプトを通じて表現することの間には、膨大な隔たりがある可能性があるのです。」

この「隔たり」こそが、新しい技術が真価を発揮する場所です。この研究は、内部ステアリング(internal steering)が精密な介入ツールとして機能し、モデルが通常は抑制する可能性のある行動を引き出したり、逆にプロンプトでは阻止できない有害な行動を抑制したりできることを示しています。

比較分析:内部ステアリング vs. 従来の手法

この研究は、この新しい内部ステアリングのアプローチを、プロンプトエンジニアリングや「ジャッジモデル(judge models)」(あるAIを使用して別のAIを監視する手法)などの従来の手法と比較した説得力のあるデータを提供しています。以下の表は、研究で観察された主要なパフォーマンスの差をまとめたものです。

AIの制御および監視技術の比較

特徴 従来のアプローチ(プロンプティング/ジャッジモデル) 新しい内部ステアリング手法
制御メカニズム モデルの解釈に依存する外部テキスト指示(プロンプト)。
「ジェイルブレイク(脱獄)」や曖昧さの影響を受けやすい。
内部活性化ベクトルの直接的な数学的操作。
精密な「ボリュームノブ」制御。
安全性モニタリング 外部の「ジャッジモデル」(例:GPT-4o)を使用して出力をスキャンする。
低速で、微細な失敗を見逃しやすい。
内部の「概念プローブ」を使用して活性化パターンを検出する。
精度においてジャッジモデルを凌駕する。
スケーラビリティ モデルの複雑さに伴い、効果が頭打ちになるか低下することが多い。
広範な手動調整が必要。
モデルのサイズに合わせてスケーラビリティが向上する。
大規模なモデルほど「ステアリング(操舵)」が容易であることが証明されている。
言語横断対応 プロンプトを翻訳し、文化的に適応させる必要がある。
言語によってパフォーマンスが一定しない。
概念表現(Concept representations)は言語間で転移可能。
翻訳なしで普遍的にステアリングが機能する。
ハルシネーション(幻覚)検出 出力の一貫性のチェックに依存する。
自信満々な誤回答を捉えられないことが多い。
内部の「真実性」ベクトルを検出する。
事実と捏造を区別する能力に優れている。

脆弱性の露呈:「反拒絶」概念

この論文における最も衝撃的かつ懸念すべき実証の一つは、安全ガードレールの操作に関するものです。研究者らは、モデルが有害なクエリ(例:違法な指示の要求)に回答するのを防ぐメカニズムである「拒絶」を司る特定の内部表現を特定しました。

この「拒絶」概念に負のステアリングベクトルを適用し、実質的に「反拒絶(anti-refusal)」モードを作成することで、チームは組み込みの安全対策を上書きすることに成功しました。あるテストケースでは、ステアリングされたモデルは、それまで受けてきた広範な安全性トレーニング(RLHF)を無視して、銀行強盗の詳細な手順を陽気に提供しました。

このデモンストレーションは、AIコミュニティにとって諸刃の剣となります。現在の安全パラダイムにおける重大な脆弱性を露呈させる一方で、解決策も提示しています。それは、より優れたモニタリングです。「反拒絶」の活性化は明確で検出可能であるため、開発者はこの特定の内部状態を監視するモニターを構築し、モデルが有害なテキストを1トークンでも生成する前に、安全違反を捕捉することができます。

安全モニタリングにおいて「ジャッジモデル」を凌駕

現在、業界の大部分は、より大きなモデルの出力に有害性やハルシネーションがないかレビューするために、別の(多くの場合より小規模な)LLMである「ジャッジモデル」に依存しています。Scienceの論文は、このアプローチは内部モニタリングと比較して根本的に非効率であると主張しています。

研究者らは概念ベクトルに基づいた「プローブ」を構築し、ハルシネーションと有害性に関する6つのベンチマークデータセットでテストしました。結果は決定的でした。内部プローブは、最先端のジャッジモデルを一貫して上回る性能を示しました。

「LLMの内部活性化は、別のLLMに役割を演じさせて尋ねるよりも、優れた嘘発見器になることが判明しました」と研究は記しています。これは、モデルがたとえそのまま出力を生成したとしても、神経レベルでは自分がハルシネーションを起こしていることや、有害な内容であることを「知っている」ことが多いことを示唆しています。この内部の「良心」にアクセスすることは、外部監査よりも真実性の高いAIへの遥かに信頼できる道を提供します。

能力向上と言語横断的な転移

安全性以外にも、この研究はモデル能力の大幅な向上を強調しています。ステアリングは、洗練されたプロンプティング戦略よりも効果的に、推論タスクのパフォーマンスを向上させることが示されました。さらに、研究者らはこれらの概念表現が驚くほど普遍的であることを発見しました。

英語の文脈で特定された「概念ベクトル」は、モデルがフランス語やドイツ語のテキストを処理する際にも正しく機能しました。これは、LLMが言語に依存しない「概念空間」を発達させていることを意味しており、低リソース言語(under-represented languages)における高性能AIシステムの導入コストと複雑さを劇的に削減できる可能性がある発見です。

モデルガバナンスへの今後の影響

Science誌におけるこの技術の発表は、AIガバナンスの転換点となります。モデルが大規模化するにつれ、通常は解釈が難しくなるとされていますが、この研究はその傾向を逆転させるようです。研究では、大規模なモデルの方が小規模なモデルよりも実際にステアリングが容易であることがわかりました。これは、大規模モデルの方がより豊かで明確な概念の内部表現を保持しているためと考えられます。

Creati.aiの開発者や研究者の読者にとって、これはモデルのアライメント(alignment)へのアプローチにおける変化を示唆しています。AI安全性の未来は、より良いトレーニングデータや厳格なシステムプロンプトにあるのではなく、モデルの内部的な「脳波」のリアルタイムなモニタリングと調整にあるのかもしれません。

Mikhail Belkin氏とその同僚たちが実証したように、私たちは今、ブラックボックス内部の領域への地図を手に入れました。課題は、私たちがその領域をどのように進むかという点に残されています。

フィーチャー
ThumbnailCreator.com
AI搭載のツールで、美しくプロフェッショナルなYouTubeサムネイルを素早く簡単に作成できます。
Video Watermark Remover
AI Video Watermark Remover – Clean Sora 2 & Any Video Watermarks!
AirMusic
AirMusic.aiは、テキストプロンプトからスタイルやムードのカスタマイズ、ステム(分離トラック)出力をサポートする高品質なAI音楽トラックを生成します。
AdsCreator.com
任意のウェブサイト URL から、Meta、Google、Stories 向けのブランドに沿った洗練された広告クリエイティブを即座に生成します。
Refly.ai
Refly.AI は、非技術系のクリエイターが自然言語と視覚的キャンバスを使ってワークフローを自動化できるようにするプラットフォームです。
VoxDeck
視覚革命をリードするAIプレゼンテーションメーカー
BGRemover
SharkFoto BGRemoverでオンラインで簡単に画像の背景を削除できます。
Qoder
Qoderは、ソフトウェアプロジェクトの計画、コーディング、テストを自動化するAI駆動のコーディングアシスタントです。
FineVoice
文字を感情に変える — 数秒で表現力豊かなAIボイスをクローン、デザイン、作成しよう。
Flowith
Flowithは、無料の🍌Nano Banana Proやその他の効果的なモデルを提供するキャンバスベースのエージェント型ワークスペースです...
Skywork.ai
Skywork AIは、生産性を向上させるための革新的なAIツールです。
FixArt AI
FixArt AI はサインアップ不要で、無料かつ制限なしの画像・動画生成用AIツールを提供します。
Elser AI
テキストと画像をアニメ風アート、キャラクター、音声、短編映画に変換するオールインワンのウェブスタジオ。
Pippit
Pippitの強力なAIツールでコンテンツ作成を向上させましょう!
SharkFoto
SharkFoto は、動画、画像、音楽を効率的に作成・編集するためのオールインワンの AI 搭載プラットフォームです。
Funy AI
想像をアニメに!画像やテキストからAIでビキニやキスの動画を生成。AI着せ替え機能も搭載。登録不要、完全無料!
KiloClaw
ホステッドの OpenClaw エージェント:ワンクリックでデプロイ、500以上のモデル、セキュアなインフラ、自動化されたエージェント管理をチームと開発者に提供します。
Diagrimo
Diagrimoはテキストをカスタマイズ可能なAI生成の図表やビジュアルに瞬時に変換します。
SuperMaker AI Video Generator
SuperMakerを使って、驚くべき動画、音楽、画像を簡単に作成できます。
AI Clothes Changer by SharkFoto
SharkFoto の AI Clothes Changer は、フィット感、質感、ライティングまでリアルに再現した服を瞬時にバーチャル試着できます。
Yollo AI
AIパートナーとチャット&創作。画像から動画作成、AI画像生成機能も搭載。
AnimeShorts
最先端のAI技術を使用して、魅力的なアニメ短編を簡単に作成できます。
Image to Video AI without Login
写真を瞬時に滑らかで高品質なアニメーション動画に変換する、透かしなしの無料イメージ→ビデオAIツールです。
Anijam AI
Anijamは、アイデアをエージェント型の動画制作によって洗練されたストーリーへと変える、AIネイティブのアニメーションプラットフォームです。
HappyHorseAIStudio
テキスト、画像、参照素材、動画編集に対応したブラウザベースのAI動画生成ツール。
InstantChapters
Instant Chaptersを使って、魅力的な書籍の章を瞬時に生成します。
NerdyTips
AI 搭載のサッカー予測プラットフォーム。世界中のリーグにわたって、データに基づく試合のヒントを提供します。
WhatsApp AI Sales
WABot は、リアルタイムのスクリプト、翻訳、インテント検出を提供する WhatsApp 向けの AI セールス コパイロットです。
happy horse AI
テキストや画像から同期した動画と音声を生成するオープンソースのAI動画生成ツールです。
insmelo AI Music Generator
プロンプト、歌詞、またはアップロードを約1分で洗練されたロイヤリティフリーの曲に変換するAI駆動の音楽ジェネレーターです。
AI Video API: Seedance 2.0 Here
1つのキーで最先端の生成モデルをより低コストで提供する統合AI動画APIです。
wan 2.7-image
正確な顔、配色、テキスト、ビジュアルの一貫性を制御できるAI画像生成ツールです。
BeatMV
楽曲を映画のようなミュージックビデオに変換し、AIで音楽を作成するウェブベースのAIプラットフォームです。
Kirkify
Kirkify AI はミーム作成者向けに、特徴的なネオングリッチ美学を備えた顔入れ替えのバイラルミームを瞬時に生成します。
Text to Music
テキストや歌詞を、AI生成のボーカル、楽器、マルチトラック書き出しを含むフルのスタジオ品質の楽曲に変換します。
UNI-1 AI
UNI-1は視覚的推論と高忠実度の画像合成を組み合わせた統合画像生成モデルです。
Wan 2.7
プロ仕様のAIビデオモデル。精密な動作制御とマルチビューの一貫性を実現します。
Iara Chat
Iara Chat: AIによる生産性とコミュニケーションのアシスタント。
Tome AI PPT
AI搭載のプレゼン作成ツール。数分でプロフェッショナルなスライドデッキを生成、整形、エクスポートします。
Lyria3 AI
テキストのプロンプト、歌詞、スタイルから高音質で完全に制作された曲を瞬時に作成するAI音楽ジェネレーター。
kinovi - Seedance 2.0 - Real Man AI Video
リアルな人物を出力する無料のAI動画ジェネレーター。透かしなし、商用利用権付き。
Video Sora 2
Sora 2 AIはテキストや画像を数分で短く物理的に正確なソーシャル/eコマース向けビデオに変換します。
Atoms
マルチエージェント自動化によりコード不要で数分でフルスタックのアプリやウェブサイトを構築するAI駆動プラットフォーム。
AI Pet Video Generator
AI駆動のテンプレートと即時HD書き出しを使って、写真からバイラルで共有しやすいペット動画を作成します。SNS向けに最適化されています。
Ampere.SH
無料の管理された OpenClaw ホスティング。$500 の Claude クレジットで 60 秒で AI エージェントをデプロイできます。
Paper Banana
学術テキストを即座に投稿準備が整った方法図や正確な統計図に変換する、AI搭載ツールです。
Hitem3D
Hitem3Dは単一の画像をAIで高解像度かつプロダクション対応の3Dモデルに変換します。
HookTide
あなたの声を学習してコンテンツ作成・エンゲージメント・パフォーマンス分析を行うAI搭載のLinkedIn成長プラットフォームです。
Create WhatsApp Link
分析機能、ブランドリンク、ルーティング、マルチエージェントチャット機能を備えた無料のWhatsAppリンク&QRジェネレーター。
GenPPT.AI
AI駆動のPPT作成ツール。数分でスピーカーノートとグラフ付きのプロフェッショナルなPowerPointプレゼンテーションを作成、整形、エクスポートします。
Palix AI
クリエイター向けのオールインワンAIプラットフォーム。統一されたクレジットで画像、動画、音楽を生成できます。
Gobii
Gobii はチームが 24 時間 365 日稼働する自律型デジタルワーカーを作成し、ウェブ調査やルーティンタスクを自動化できるようにします。
Seedance 20 Video
Seedance 2 は、一貫したキャラクター、マルチショットの物語表現、2K のネイティブ音声を提供するマルチモーダルな AI 動画ジェネレーターです。
Veemo - AI Video Generator
Veemo AIは、テキストや画像から高品質な動画と画像を素早く生成するオールインワンプラットフォームです。
AI FIRST
自然言語を通じてリサーチ、ブラウザ作業、ウェブスクレイピング、ファイル管理を自動化する会話型AIアシスタント。
WhatsApp Warmup Tool
AI 搭載の WhatsApp ウォームアップツールは、大量メッセージ送信を自動化しつつアカウント停止を防ぎます。
GLM Image
GLM Image は自己回帰モデルと拡散モデルを組み合わせたハイブリッド方式で、高忠実度のAI画像を生成し、優れたテキストレンダリングを実現します。
Manga Translator AI
AI Manga Translatorは漫画画像をオンラインで瞬時に複数の言語に翻訳します。
TextToHuman
AIテキストを瞬時に自然で人間らしい文体に書き直す無料のAI人間化ツール。サインアップ不要。
ainanobanana2
Nano Banana 2 は、正確なテキストレンダリングと被写体の一貫性を保ちながら、4~6秒でプロ品質の4K画像を生成します。
Remy - Newsletter Summarizer
Remyはメールを短くて分かりやすい洞察にまとめることでニュースレター管理を自動化します。
Free AI Video Maker & Generator
無料 AI 動画メーカー&ジェネレーター – 無制限、登録不要

研究者らがScience誌にLLMの画期的な内部制御手法を発表

UCサンディエゴとMITの研究者らがScience誌に画期的な研究を発表しました。内部の概念表現を直接操作することでAIモデルをスケール可能に制御・監視する手法を示し、安全性の脆弱性と能力向上の両方を明らかにしています。