Anthropic、Responsible Scaling Policy v3を改訂 ─ ペンタゴンの圧力で主要な安全コミットメントを緩和

Anthropicが「責任あるスケーリング・ポリシー（RSP v3）」を改訂、ペンタゴンからの圧力の中で主要な安全へのコミットメントを緩和

生成AI（Generative AI）競争における「安全第一」の良心的存在と広く見なされているAnthropicが、**責任あるスケーリング・ポリシー（Responsible Scaling Policy: RSP v3）**の第3版をリリースしました。このアップデートは、壊滅的なAIリスクに対する同社の対処方法を根本的に再構築するものであり、地政学的および商業的な摩擦が激化しているタイミングで行われました。同社の技術の軍事利用に関して米国国防総省から最後通牒を突きつけられたと報じられる中、「安全が保証されない場合は開発を一時停止する」という「旗印」的な安全の誓約を削除したことは、業界の監視の目から厳しい批判を浴びています。

「条件付き一時停止」から「実用的な透明性」への移行

設立以来、AnthropicのRSPは「条件付きコミットメント」のメカニズムによって定義されてきました。以前のRSP v2の下で、同社は、対応する安全対策を講じることなく特定の「AI安全レベル」（ASL）の閾値を超えた場合、新しいモデルのトレーニングやデプロイを停止することを約束していました。この「トリップワイヤー（罠）」的なアプローチは、競争のスピードよりも安全性を優先するように設計されていました。

RSP v3では、Anthropicはこれらの一時停止措置から転換しました。同社は、競合他社が競争を続ける市場において、一方的な一時停止は効果がないと主張しています。代わりに、新しいポリシーでは透明性と公的な目標設定を強調しています。

RSP v3の主要コンポーネント：

フロンティア安全ロードマップ： 拘束力のある内部的な一時停止の代わりに、Anthropicは今後、安全目標の詳細を記した「ロードマップ」を公開します。これらは、厳格な運用のボトルネックではなく、公的な説明責任を果たすことを目的とした「野心的だが拘束力のないもの」と説明されています。
リスクレポート： 同社は、3〜6か月ごとに包括的なリスク評価をリリースすることを約束します。これらのレポートでは、現在の能力と理想的な安全基準の間のギャップを含む、現行モデルの安全プロファイルの詳細を説明します。
外部レビュー： 特定の高リスクシナリオにおいて、Anthropicはリスクレポートを第三者の専門家によるレビューに付し、その調査結果を検証します。

Anthropicの幹部らは、このシフトを現実に対する「実用的」な対応であると位置づけています。リリースに付随するブログ投稿の中で、同社は「他により慎重でない開発者が進歩を続けるのであれば、AIモデルのトレーニングを停止することは実際には誰の助けにもならない」と指摘しました。同社は、競合他社がAnthropicの安全規制を模倣する「上位への競争（race to the top）」が失敗したことが、この変更の主な要因であると述べています。

比較：RSP v2 vs. RSP v3

以下の表は、旧ポリシーと新たにリリースされたバージョンの間の構造的な変更の概要を示しています。

機能/コミットメント	RSP v2（以前）	RSP v3（現在）
中核となるメカニズム	条件付き一時停止（ASLトリップワイヤー）	透明性とロードマップ
安全の誓約	安全が保証されない場合はトレーニングを停止	実用的な一方的目標
ドキュメント	内部評価と定義された閾値	公開フロンティア安全ロードマップ
リスク報告	アドホックかつ内部重視	体系的な公開リスクレポート（3〜6か月）
業界戦略	模範を示す（上位への競争）	国家競争力へのシフト

ペンタゴンの最後通牒：地政学的な触媒か？

RSP v3のタイミングは、Anthropicと米軍の間の激化する対立と切り離すことは不可能です。報道によれば、**ピート・ヘグセス（Pete Hegseth）国防長官が最近AnthropicのCEOであるダリオ・アモデイ（Dario Amodei）**と会談し、Claudeモデルの軍事利用に対する制限を解除するか、さもなければ深刻な結果を招くかという厳しい最後通牒を突きつけたとされています。

ペンタゴンは、Anthropicに対し、そのAIを「あらゆる合法的な目的」に使用することを許可するよう要求していると報じられており、これは事実上、特定の軍事利用を拒否する同社の権利を剥奪するものです。Anthropicは歴史的に、以下の目的での技術使用に対して厳格な「レッドライン」を維持してきました。

完全自律型兵器（autonomous weapons）（人間が介在せずにAIが致命的な標的決定を行うもの）。
国内の大規模監視。

国防総省は、大統領が民間企業に対して国防契約を優先するよう強制できる朝鮮戦争時代の法律である**国防生産法（DPA）**の発動をちらつかせています。さらに、当局はAnthropicを「サプライチェーン・リスク」として指定する可能性を浮上させており、これが実現すれば同社はすべての連邦政府契約から事実上ブラックリストに載り、数億ドルの収益を失い、収益性の高い政府部門から締め出されることになります。

批判的な人々は、RSPの「一時停止」コミットメントの緩和が、都合の良い政策上の抜け穴を作っていると主張しています。内部の安全閾値に基づく展開停止の厳格な要件を削除することで、Anthropicは、自社の安全憲章に技術的に違反することなく、ペンタゴンの要求に応じる立場を整えているのかもしれません。

業界への影響と「能力のオーバーハング」

RSPの改訂は、AI業界で高まっている緊張、すなわち「能力のオーバーハング（capability overhang）」を浮き彫りにしています。この用語は、AIモデルの生の能力と、それを制御するために利用可能な安全メカニズムとの間のギャップを指します。Anthropicの以前のポリシーは、このオーバーハングが大きくなりすぎるのを防ぐように設計されていました。ブレーキを外すことで、同社はOpenAIやxAIといった、すでに広範な防衛契約を確保しているライバルに対抗し、競争力を維持するために、より高いレベルのリスクを暗黙のうちに受け入れています。

これがAIエコシステムにとって重要である理由：

軍事用AIの正常化： 業界で最も声高に安全性を主張してきたAnthropicがペンタゴンの圧力に屈すれば、主要なAI研究所の間での「良心的兵役拒否」の終焉を告げることになります。
自主規制の失敗： このシフトは、国家安全保障上の要請や市場のダイナミクスの前では、自発的なコミットメントが不十分であることを認めるものです。Anthropicは、今回のポリシー転換の理由として、連邦規制の欠如を明確に挙げました。
導入後の監視への重点化： 導入前の一時停止がなくなったことで、業界の安全性の焦点は、作成自体を防ぐことではなく、システムが構築された後の「レッドチーミング」や監視システムへと完全にシフトする可能性が高いでしょう。

結論

AnthropicのRSP v3は、2026年のAI環境における成熟した、しかし冷笑的な認識を表しています。一社が道徳的リーダーシップを通じて業界を安全へと導くことができた2023年の理想主義は、大国間競争と軍事上の必要性という厳しい現実に衝突しました。リスクレポートとフロンティア安全ロードマップの導入は新たな透明性を提供しますが、拘束力のある「安全の誓約」の削除は一つの時代の終わりを告げるものです。ペンタゴンが大きく立ちはだかる中、Anthropicはもはや列車の速度を落とそうとはしていません。列車が加速する中で、より大きな音で笛を吹くことを約束しているに過ぎないのです。