フロリダ大学の研究者がセキュリティ強化のためのAI脱獄手法を開発

フロリダ大学の研究者が、高度なAIガードレールを回避する「HMNS」手法を公開

人工知能（AI）セキュリティの分野における重要な進展として、フロリダ大学（UF）の研究者たちは、MetaやMicrosoftといった業界大手が開発したものを含む、主要な大規模言語モデル（LLM）の安全プロトコルを体系的に回避できる新しいジェイルブレイク（脱獄）手法を考案しました。**Head-Masked Nullspace Steering（HMNS）**と名付けられたこの手法は、AIの脆弱性を特定する方法におけるパラダイムシフトを象徴しており、表面的なプロンプトエンジニアリングを超えて、ニューラルネットワークの内部的な意思決定アーキテクチャを探索します。

コンピューター・情報科学・工学（CISE）学部の Sumit Kumar Jha 教授が率いる研究チームは、その知見を「Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion（行列の脱獄：制御されたモデル転覆のための零空間ステアリング）」と題された論文で発表しました。この研究は、**2026年国際学習表現会議（ICLR 2026）**でのプレゼンテーションとして採択されており、ディープラーニング研究への主要な貢献としての地位を確立しています。

プロンプトインジェクションから内部ステアリングへの移行

長年、AIモデルを「ジェイルブレイク」すること（制限されたコンテンツや有害なコンテンツを生成するように仕向けること）は、巧妙な言葉遊びに大きく依存してきました。攻撃者は、安全フィルターを回避するために「おばあちゃんになりすます攻撃」やロールプレイングのシナリオを使用してきました。しかし、OpenAI、Anthropic、GoogleなどのAIプロバイダーがこれらの意味的な攻撃に対する防御を強化するにつれ、従来のプロンプトインジェクションの有効性は衰退してきました。

UFチームのHMNSによるアプローチは、外部の言語的なトリックへの依存を捨て、モデルの計算プロセスへの直接的な介入を優先します。研究によると、HMNSはLLMの「ボンネットを開ける」ことで動作します。文脈処理と安全チェックを担当するコンポーネントである特定の「アテンションヘッド（Attention Heads）」を特定し、それらを効果的に無効化します。

モデルの意思決定行列におけるこれらのアクティブなコンポーネントをゼロにし、残りの経路を「ステアリング（操舵）」することで、研究者はAIに安全トレーニングを無視させることができます。これにより、通常の発動メカニズムをトリガーすることなく、マルウェアコードの生成や不正活動の指示の提供など、通常は拒絶されるクエリに対してモデルが応答できるようになります。

技術解説：Head-Masked Nullspace Steering

HMNS method は、「零空間（Nullspace）」という概念に基づいています。これは、特定の入力が特定の関数（この場合は安全フィルター）の出力に変化を与えない領域を指す数学用語です。モデルの活性化パターンを安全メカニズムに対するこの零空間に誘導することで、攻撃はモデル自身の内部監視からガードレールを不可視にします。

Jha教授は、このプロセスをユーザーインターフェースだけでなく、システムの「内部配線」をテストすることだと説明しています。「外部からのプロンプトだけを使ってそのようなものをテストし、大丈夫だと言うことはできません」とJha教授は述べています。「私たちはボンネットを開け、内部の配線を引っ張り、何が壊れるかを確認しています。それが安全性を高める方法です。近道はありません。」

この手法には、3つの明確なフェーズが含まれます：

識別（Identification）：システムがユーザープロンプトに対するLLMの反応を分析し、拒絶（例：「このリクエストには応じられません」）の生成中にどの「ヘッド」（アテンションメカニズム）が最も活性化しているかを特定します。
マスキング（Masking）：特定された安全上重要なヘッドを、意思決定行列への寄与をゼロにすることで無効化または「マスク」します。
ステアリング（Steering）：安全プロトコルの再活性化を避けるために「零空間」を利用しつつ、禁止されたコンテンツを生成するように残りのコンポーネントを微妙に誘導します。

業界大手に対するベンチマークの成功

HMNSの有効性を検証するため、研究チームはUFのHiPerGatorスーパーコンピューターを利用し、主要な商用およびオープンソースモデルに対して大規模なストレス・テストを実施しました。主なターゲットには、業界で最も強力な安全アライメントを備えていると広く見なされているMetaとMicrosoftのシステムが含まれていました。

結果は鮮明でした。HMNSは驚異的な効果を発揮し、4つの確立された業界ベンチマークにおいて最新鋭（SOTA：State-of-the-art）のジェイルブレイク手法を上回りました。研究者たちは公正な比較を保証するために「計算量を考慮したレポート」指標を導入し、HMNSが以前の手法よりも高い成功率を達成しただけでなく、より効率的であることを明らかにしました。

ジェイルブレイク手法の比較

特徴	従来のプロンプトインジェクション	HMNS (Head-Masked Nullspace Steering)
主な攻撃ベクトル	外部的な意味操作（例：ロールプレイ）	内部アーキテクチャの操作（重み/活性化のステアリング）
ターゲットメカニズム	入力フィルターとRLHFトレーニングパターン	アテンションヘッドと意思決定行列
パッチ適用への耐性	低い（システムプロンプトの更新で容易に修正可能）	高い（アーキテクチャの変更または再トレーニングが必要）
リソース要件	低い（標準的なユーザーでも実行可能）	高い（モデル内部や勾配へのアクセスが必要）
成功指標	一貫性がなく、モデル固有であることが多い	複数のアーキテクチャにわたって一貫して高い

MetaやMicrosoftのシステムにおける多層防御を回避するHMNSの能力は、現在のAI安全基準における重大なギャップを浮き彫りにしています。これらのプラットフォームは入出力をフィルタリングするための洗練された安全レイヤーを組み込んでいますが、HMNSは内部の処理経路がアクセス可能または再現可能である場合、これらのレイヤーが体系的に回避され得ることを証明しています。

画期的進歩を支えたチーム

HMNSの開発は、学術機関と研究機関の共同作業によるものでした。Sumit Kumar Jha教授とともに、チームには以下のメンバーが含まれています：

Vishal Pramanik：UFのCISE学部の博士課程学生。ステアリングアルゴリズムの開発に尽力。
Maisha Maliha：オクラホマ大学の共同研究者。
Susmit Jha, Ph.D.：SRIインターナショナルの研究員。

チームは HiPerGator supercomputer の強大な計算能力を活用し、NVIDIA A100およびH100 GPUクラスターを使用して、リアルタイムで零空間ベクトルを特定するために必要な複雑な行列計算を実行しました。この計算能力は、高度な国家レベルの攻撃者による潜在的な敵対的攻撃を模倣した規模でモデルを「ストレス・テスト」するために不可欠でした。

AIの安全性とガバナンスへの影響

ICLR 2026 でのこの研究の発表は、重要な局面で行われました。AIエージェントが目新しいチャットインターフェースから、ソフトウェア開発、財務分析、医療診断を支援する重要なインフラへと移行するにつれ、セキュリティ障害のコストは急騰しています。

サイバーセキュリティの専門家がよく引用する「多層防御（Defense in Depth）」戦略は、システムを保護するために複数のセキュリティレイヤーが必要であると説いています。しかし、UFチームの知見は、基礎となるニューラル活性化が直接操作された場合、現在の「アライメント」技術（有害なクエリを拒絶するようにモデルを訓練する手法）が脆弱である可能性を示唆しています。

「これらの防御がどのように破られるかを正確に示すことで、AI開発者に、実際に耐えうる防御を構築するために必要な情報を提供します」とJha教授は説明しました。「強力なAIの一般公開は、安全対策が現実の精査に耐えられる場合にのみ持続可能です。現在、私たちの研究は、まだギャップがあることを示しています。私たちはそのギャップを埋める手助けをしたいと考えています。」

この研究は、将来のAI防御メカニズムが、有害な出力を抑制するために「ファインチューニング」や「RLHF（人間からのフィードバックによる強化学習）」だけに頼ることはできないことを示唆しています。代わりに、開発者は内部ステアリングに対する本質的な耐性を備えたモデルを設計する必要があるかもしれません。例えば、安全機能がモデルの一般的な有用性を損なうことなく分離・マスクできないような「絡み合った（Entangled）」表現を作成することなどが考えられます。

業界の反応と今後の展望

MetaとMicrosoftは、HMNSの脆弱性に関して具体的なコメントを出していませんが、このような「レッドチーミング（Red Teaming）」の知見に対する業界の標準的な対応は、攻撃ベクトルを将来のトレーニングランに統合することです。管理された学術的環境でこれらの脆弱性をさらけ出すことにより、UFの研究者たちは事実上、次世代のモデルを同様の攻撃に対して免疫化していることになります。

ICLR 2026への論文採択により、この手法は精査され、世界のAI研究コミュニティによってさらなる発展が期待されます。AIの能力向上とAIの安全性の間の軍拡競争が続くなか、Head-Masked Nullspace Steeringのような手法は、モデルが複雑になるにつれて、それらを保護するために必要な方法も同様に洗練されなければならないことを思い出させてくれます。

現時点では、この研究は攻撃的なセキュリティ研究の必要性を証明するものとなっています。行列を打破することで、フロリダ大学のチームは、未来のAIインフラが単なる安全の幻想ではなく、検証可能な安全性という基盤の上に構築されるよう支援しています。