AI News

フロリダ大学の研究者が、高度なAIガードレールを回避する「HMNS」手法を公開

人工知能(AI)セキュリティの分野における重要な進展として、フロリダ大学(UF)の研究者たちは、MetaやMicrosoftといった業界大手が開発したものを含む、主要な大規模言語モデル(LLM)の安全プロトコルを体系的に回避できる新しいジェイルブレイク(脱獄)手法を考案しました。**Head-Masked Nullspace Steering(HMNS)**と名付けられたこの手法は、AIの脆弱性を特定する方法におけるパラダイムシフトを象徴しており、表面的なプロンプトエンジニアリングを超えて、ニューラルネットワークの内部的な意思決定アーキテクチャを探索します。

コンピューター・情報科学・工学(CISE)学部の Sumit Kumar Jha 教授が率いる研究チームは、その知見を「Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion(行列の脱獄:制御されたモデル転覆のための零空間ステアリング)」と題された論文で発表しました。この研究は、**2026年国際学習表現会議(ICLR 2026)**でのプレゼンテーションとして採択されており、ディープラーニング研究への主要な貢献としての地位を確立しています。

プロンプトインジェクションから内部ステアリングへの移行

長年、AIモデルを「ジェイルブレイク」すること(制限されたコンテンツや有害なコンテンツを生成するように仕向けること)は、巧妙な言葉遊びに大きく依存してきました。攻撃者は、安全フィルターを回避するために「おばあちゃんになりすます攻撃」やロールプレイングのシナリオを使用してきました。しかし、OpenAI、Anthropic、GoogleなどのAIプロバイダーがこれらの意味的な攻撃に対する防御を強化するにつれ、従来のプロンプトインジェクションの有効性は衰退してきました。

UFチームのHMNSによるアプローチは、外部の言語的なトリックへの依存を捨て、モデルの計算プロセスへの直接的な介入を優先します。研究によると、HMNSはLLMの「ボンネットを開ける」ことで動作します。文脈処理と安全チェックを担当するコンポーネントである特定の「アテンションヘッド(Attention Heads)」を特定し、それらを効果的に無効化します。

モデルの意思決定行列におけるこれらのアクティブなコンポーネントをゼロにし、残りの経路を「ステアリング(操舵)」することで、研究者はAIに安全トレーニングを無視させることができます。これにより、通常の発動メカニズムをトリガーすることなく、マルウェアコードの生成や不正活動の指示の提供など、通常は拒絶されるクエリに対してモデルが応答できるようになります。

技術解説:Head-Masked Nullspace Steering

HMNS method は、「零空間(Nullspace)」という概念に基づいています。これは、特定の入力が特定の関数(この場合は安全フィルター)の出力に変化を与えない領域を指す数学用語です。モデルの活性化パターンを安全メカニズムに対するこの零空間に誘導することで、攻撃はモデル自身の内部監視からガードレールを不可視にします。

Jha教授は、このプロセスをユーザーインターフェースだけでなく、システムの「内部配線」をテストすることだと説明しています。「外部からのプロンプトだけを使ってそのようなものをテストし、大丈夫だと言うことはできません」とJha教授は述べています。「私たちはボンネットを開け、内部の配線を引っ張り、何が壊れるかを確認しています。それが安全性を高める方法です。近道はありません。」

この手法には、3つの明確なフェーズが含まれます:

  1. 識別(Identification):システムがユーザープロンプトに対するLLMの反応を分析し、拒絶(例:「このリクエストには応じられません」)の生成中にどの「ヘッド」(アテンションメカニズム)が最も活性化しているかを特定します。
  2. マスキング(Masking):特定された安全上重要なヘッドを、意思決定行列への寄与をゼロにすることで無効化または「マスク」します。
  3. ステアリング(Steering):安全プロトコルの再活性化を避けるために「零空間」を利用しつつ、禁止されたコンテンツを生成するように残りのコンポーネントを微妙に誘導します。

業界大手に対するベンチマークの成功

HMNSの有効性を検証するため、研究チームはUFのHiPerGatorスーパーコンピューターを利用し、主要な商用およびオープンソースモデルに対して大規模なストレス・テストを実施しました。主なターゲットには、業界で最も強力な安全アライメントを備えていると広く見なされているMetaMicrosoftのシステムが含まれていました。

結果は鮮明でした。HMNSは驚異的な効果を発揮し、4つの確立された業界ベンチマークにおいて最新鋭(SOTA:State-of-the-art)のジェイルブレイク手法を上回りました。研究者たちは公正な比較を保証するために「計算量を考慮したレポート」指標を導入し、HMNSが以前の手法よりも高い成功率を達成しただけでなく、より効率的であることを明らかにしました。

ジェイルブレイク手法の比較

特徴 従来のプロンプトインジェクション HMNS (Head-Masked Nullspace Steering)
主な攻撃ベクトル 外部的な意味操作(例:ロールプレイ) 内部アーキテクチャの操作(重み/活性化のステアリング)
ターゲットメカニズム 入力フィルターとRLHFトレーニングパターン アテンションヘッドと意思決定行列
パッチ適用への耐性 低い(システムプロンプトの更新で容易に修正可能) 高い(アーキテクチャの変更または再トレーニングが必要)
リソース要件 低い(標準的なユーザーでも実行可能) 高い(モデル内部や勾配へのアクセスが必要)
成功指標 一貫性がなく、モデル固有であることが多い 複数のアーキテクチャにわたって一貫して高い

MetaやMicrosoftのシステムにおける多層防御を回避するHMNSの能力は、現在のAI安全基準における重大なギャップを浮き彫りにしています。これらのプラットフォームは入出力をフィルタリングするための洗練された安全レイヤーを組み込んでいますが、HMNSは内部の処理経路がアクセス可能または再現可能である場合、これらのレイヤーが体系的に回避され得ることを証明しています。

画期的進歩を支えたチーム

HMNSの開発は、学術機関と研究機関の共同作業によるものでした。Sumit Kumar Jha教授とともに、チームには以下のメンバーが含まれています:

  • Vishal Pramanik:UFのCISE学部の博士課程学生。ステアリングアルゴリズムの開発に尽力。
  • Maisha Maliha:オクラホマ大学の共同研究者。
  • Susmit Jha, Ph.D.:SRIインターナショナルの研究員。

チームは HiPerGator supercomputer の強大な計算能力を活用し、NVIDIA A100およびH100 GPUクラスターを使用して、リアルタイムで零空間ベクトルを特定するために必要な複雑な行列計算を実行しました。この計算能力は、高度な国家レベルの攻撃者による潜在的な敵対的攻撃を模倣した規模でモデルを「ストレス・テスト」するために不可欠でした。

AIの安全性とガバナンスへの影響

ICLR 2026 でのこの研究の発表は、重要な局面で行われました。AIエージェントが目新しいチャットインターフェースから、ソフトウェア開発、財務分析、医療診断を支援する重要なインフラへと移行するにつれ、セキュリティ障害のコストは急騰しています。

サイバーセキュリティの専門家がよく引用する「多層防御(Defense in Depth)」戦略は、システムを保護するために複数のセキュリティレイヤーが必要であると説いています。しかし、UFチームの知見は、基礎となるニューラル活性化が直接操作された場合、現在の「アライメント」技術(有害なクエリを拒絶するようにモデルを訓練する手法)が脆弱である可能性を示唆しています。

「これらの防御がどのように破られるかを正確に示すことで、AI開発者に、実際に耐えうる防御を構築するために必要な情報を提供します」とJha教授は説明しました。「強力なAIの一般公開は、安全対策が現実の精査に耐えられる場合にのみ持続可能です。現在、私たちの研究は、まだギャップがあることを示しています。私たちはそのギャップを埋める手助けをしたいと考えています。」

この研究は、将来のAI防御メカニズムが、有害な出力を抑制するために「ファインチューニング」や「RLHF(人間からのフィードバックによる強化学習)」だけに頼ることはできないことを示唆しています。代わりに、開発者は内部ステアリングに対する本質的な耐性を備えたモデルを設計する必要があるかもしれません。例えば、安全機能がモデルの一般的な有用性を損なうことなく分離・マスクできないような「絡み合った(Entangled)」表現を作成することなどが考えられます。

業界の反応と今後の展望

MetaとMicrosoftは、HMNSの脆弱性に関して具体的なコメントを出していませんが、このような「レッドチーミング(Red Teaming)」の知見に対する業界の標準的な対応は、攻撃ベクトルを将来のトレーニングランに統合することです。管理された学術的環境でこれらの脆弱性をさらけ出すことにより、UFの研究者たちは事実上、次世代のモデルを同様の攻撃に対して免疫化していることになります。

ICLR 2026への論文採択により、この手法は精査され、世界のAI研究コミュニティによってさらなる発展が期待されます。AIの能力向上とAIの安全性の間の軍拡競争が続くなか、Head-Masked Nullspace Steeringのような手法は、モデルが複雑になるにつれて、それらを保護するために必要な方法も同様に洗練されなければならないことを思い出させてくれます。

現時点では、この研究は攻撃的なセキュリティ研究の必要性を証明するものとなっています。行列を打破することで、フロリダ大学のチームは、未来のAIインフラが単なる安全の幻想ではなく、検証可能な安全性という基盤の上に構築されるよう支援しています。

フィーチャー
AdsCreator.com
任意のウェブサイト URL から、Meta、Google、Stories 向けのブランドに沿った洗練された広告クリエイティブを即座に生成します。
Refly.ai
Refly.AI は、非技術系のクリエイターが自然言語と視覚的キャンバスを使ってワークフローを自動化できるようにするプラットフォームです。
VoxDeck
視覚革命をリードするAIプレゼンテーションメーカー
BGRemover
SharkFoto BGRemoverでオンラインで簡単に画像の背景を削除できます。
FixArt AI
FixArt AI はサインアップ不要で、無料かつ制限なしの画像・動画生成用AIツールを提供します。
Skywork.ai
Skywork AIは、生産性を向上させるための革新的なAIツールです。
Qoder
Qoderは、ソフトウェアプロジェクトの計画、コーディング、テストを自動化するAI駆動のコーディングアシスタントです。
Flowith
Flowithは、無料の🍌Nano Banana Proやその他の効果的なモデルを提供するキャンバスベースのエージェント型ワークスペースです...
FineVoice
文字を感情に変える — 数秒で表現力豊かなAIボイスをクローン、デザイン、作成しよう。
Elser AI
テキストと画像をアニメ風アート、キャラクター、音声、短編映画に変換するオールインワンのウェブスタジオ。
Pippit
Pippitの強力なAIツールでコンテンツ作成を向上させましょう!
SharkFoto
SharkFoto は、動画、画像、音楽を効率的に作成・編集するためのオールインワンの AI 搭載プラットフォームです。
Funy AI
想像をアニメに!画像やテキストからAIでビキニやキスの動画を生成。AI着せ替え機能も搭載。登録不要、完全無料!
KiloClaw
ホステッドの OpenClaw エージェント:ワンクリックでデプロイ、500以上のモデル、セキュアなインフラ、自動化されたエージェント管理をチームと開発者に提供します。
Diagrimo
Diagrimoはテキストをカスタマイズ可能なAI生成の図表やビジュアルに瞬時に変換します。
SuperMaker AI Video Generator
SuperMakerを使って、驚くべき動画、音楽、画像を簡単に作成できます。
AI Clothes Changer by SharkFoto
SharkFoto の AI Clothes Changer は、フィット感、質感、ライティングまでリアルに再現した服を瞬時にバーチャル試着できます。
Yollo AI
AIパートナーとチャット&創作。画像から動画作成、AI画像生成機能も搭載。
AnimeShorts
最先端のAI技術を使用して、魅力的なアニメ短編を簡単に作成できます。
HappyHorseAIStudio
テキスト、画像、参照素材、動画編集に対応したブラウザベースのAI動画生成ツール。
Anijam AI
Anijamは、アイデアをエージェント型の動画制作によって洗練されたストーリーへと変える、AIネイティブのアニメーションプラットフォームです。
happy horse AI
テキストや画像から同期した動画と音声を生成するオープンソースのAI動画生成ツールです。
InstantChapters
Instant Chaptersを使って、魅力的な書籍の章を瞬時に生成します。
wan 2.7-image
正確な顔、配色、テキスト、ビジュアルの一貫性を制御できるAI画像生成ツールです。
NerdyTips
AI 搭載のサッカー予測プラットフォーム。世界中のリーグにわたって、データに基づく試合のヒントを提供します。
WhatsApp AI Sales
WABot は、リアルタイムのスクリプト、翻訳、インテント検出を提供する WhatsApp 向けの AI セールス コパイロットです。
Claude API
Claude API for Everyone
AI Video API: Seedance 2.0 Here
1つのキーで最先端の生成モデルをより低コストで提供する統合AI動画APIです。
Image to Video AI without Login
写真を瞬時に滑らかで高品質なアニメーション動画に変換する、透かしなしの無料イメージ→ビデオAIツールです。
insmelo AI Music Generator
プロンプト、歌詞、またはアップロードを約1分で洗練されたロイヤリティフリーの曲に変換するAI駆動の音楽ジェネレーターです。
BeatMV
楽曲を映画のようなミュージックビデオに変換し、AIで音楽を作成するウェブベースのAIプラットフォームです。
UNI-1 AI
UNI-1は視覚的推論と高忠実度の画像合成を組み合わせた統合画像生成モデルです。
Kirkify
Kirkify AI はミーム作成者向けに、特徴的なネオングリッチ美学を備えた顔入れ替えのバイラルミームを瞬時に生成します。
Wan 2.7
プロ仕様のAIビデオモデル。精密な動作制御とマルチビューの一貫性を実現します。
Text to Music
テキストや歌詞を、AI生成のボーカル、楽器、マルチトラック書き出しを含むフルのスタジオ品質の楽曲に変換します。
Iara Chat
Iara Chat: AIによる生産性とコミュニケーションのアシスタント。
kinovi - Seedance 2.0 - Real Man AI Video
リアルな人物を出力する無料のAI動画ジェネレーター。透かしなし、商用利用権付き。
Video Sora 2
Sora 2 AIはテキストや画像を数分で短く物理的に正確なソーシャル/eコマース向けビデオに変換します。
Lyria3 AI
テキストのプロンプト、歌詞、スタイルから高音質で完全に制作された曲を瞬時に作成するAI音楽ジェネレーター。
Tome AI PPT
AI搭載のプレゼン作成ツール。数分でプロフェッショナルなスライドデッキを生成、整形、エクスポートします。
Atoms
マルチエージェント自動化によりコード不要で数分でフルスタックのアプリやウェブサイトを構築するAI駆動プラットフォーム。
Paper Banana
学術テキストを即座に投稿準備が整った方法図や正確な統計図に変換する、AI搭載ツールです。
AI Pet Video Generator
AI駆動のテンプレートと即時HD書き出しを使って、写真からバイラルで共有しやすいペット動画を作成します。SNS向けに最適化されています。
Ampere.SH
無料の管理された OpenClaw ホスティング。$500 の Claude クレジットで 60 秒で AI エージェントをデプロイできます。
Palix AI
クリエイター向けのオールインワンAIプラットフォーム。統一されたクレジットで画像、動画、音楽を生成できます。
Hitem3D
Hitem3Dは単一の画像をAIで高解像度かつプロダクション対応の3Dモデルに変換します。
GenPPT.AI
AI駆動のPPT作成ツール。数分でスピーカーノートとグラフ付きのプロフェッショナルなPowerPointプレゼンテーションを作成、整形、エクスポートします。
HookTide
あなたの声を学習してコンテンツ作成・エンゲージメント・パフォーマンス分析を行うAI搭載のLinkedIn成長プラットフォームです。
Create WhatsApp Link
分析機能、ブランドリンク、ルーティング、マルチエージェントチャット機能を備えた無料のWhatsAppリンク&QRジェネレーター。
Seedance 20 Video
Seedance 2 は、一貫したキャラクター、マルチショットの物語表現、2K のネイティブ音声を提供するマルチモーダルな AI 動画ジェネレーターです。
Gobii
Gobii はチームが 24 時間 365 日稼働する自律型デジタルワーカーを作成し、ウェブ調査やルーティンタスクを自動化できるようにします。
Free AI Video Maker & Generator
無料 AI 動画メーカー&ジェネレーター – 無制限、登録不要
Veemo - AI Video Generator
Veemo AIは、テキストや画像から高品質な動画と画像を素早く生成するオールインワンプラットフォームです。
AI FIRST
自然言語を通じてリサーチ、ブラウザ作業、ウェブスクレイピング、ファイル管理を自動化する会話型AIアシスタント。
GLM Image
GLM Image は自己回帰モデルと拡散モデルを組み合わせたハイブリッド方式で、高忠実度のAI画像を生成し、優れたテキストレンダリングを実現します。
ainanobanana2
Nano Banana 2 は、正確なテキストレンダリングと被写体の一貫性を保ちながら、4~6秒でプロ品質の4K画像を生成します。
WhatsApp Warmup Tool
AI 搭載の WhatsApp ウォームアップツールは、大量メッセージ送信を自動化しつつアカウント停止を防ぎます。
TextToHuman
AIテキストを瞬時に自然で人間らしい文体に書き直す無料のAI人間化ツール。サインアップ不要。
Manga Translator AI
AI Manga Translatorは漫画画像をオンラインで瞬時に複数の言語に翻訳します。
Remy - Newsletter Summarizer
Remyはメールを短くて分かりやすい洞察にまとめることでニュースレター管理を自動化します。

フロリダ大学の研究者がセキュリティ強化のためのAI脱獄手法を開発

UFの研究者らはAIの安全対策を検証するためにHMNS手法を開発し、MetaとMicrosoftのシステムを実際に回避してセキュリティ上の脆弱性を特定した。