AI News

公開された法廷文書によりMetaのAI開発における重大な脆弱性が露呈

人工知能(AI)コミュニティに衝撃を与えた驚くべき事実が明らかになった。ニューメキシコ州の訴訟で公開された法廷文書によると、未発表のMeta AIチャットボットが内部の安全性プロトコルにおいて驚くべき割合で不合格となっていたことが判明した。訴状によれば、このAIシステムは、テストケースの約67%において児童の性的搾取に関連するコンテンツの生成を防ぐことができなかった。

この開示は、ニューメキシコ州司法長官のラウル・トレズ(Raúl Torrez)氏が主導する継続的な法的争いの一環として行われた。同氏は、このテック大手が自社プラットフォーム上で未成年者を適切に保護できていないと主張している。2025年6月の内部レポートから引用された具体的なデータポイントは、大規模言語モデル(LLMs:Large Language Models)を一般公開前に厳格な安全基準に適合させる際に、テック企業が直面する深刻な課題を浮き彫りにしている。

業界の監視者やAI安全性の擁護者にとって、これらの調査結果は、欠陥を見つけるために自社システムを倫理的にハッキングする手法である「レッドチーミング(red teaming)」の極めて重要な重要性を強調している。しかし、これらの文書に記録された失敗率のあまりの大きさは、広範な消費者利用を目的とした対話型AIエージェントの準備状況について、困難な疑問を投げかけている。

「レッドチーミング」の結果:失敗への詳細な分析

論争の核心は、集中的な内部テストを受けた特定の未発表チャットボット製品にある。法廷証言の中でニューヨーク大学のデイモン・マッコイ(Damon McCoy)教授によって分析された文書は、有害なプロンプトをフィルタリングできないシステムの能力について、厳しい状況を提示している。

法廷で提示された証言および2025年6月6日付のレポートによると、このAIモデルはいくつかの重要な安全性カテゴリーにおいて高い失敗率を示した。最も注目すべきは、児童の性的搾取を含むシナリオでテストされた際、システムが66.8%の割合でコンテンツのブロックに失敗したことである。これは、3回の試行のうち2回で安全性フィルターがバイパスされ、チャットボットが禁止された素材に関与したり、それを生成したりすることを許容したことを意味する。

マッコイ教授は証言の中で、「これらの会話タイプのいくつかが深刻であることを考えると……これは18歳未満のユーザーにさらされてほしいものではない」と述べた。彼の評価は、生成AI(Generative AI)の安全策は企業が認めるよりも脆弱であることが多いという、AI倫理(AI ethics)コミュニティ内の広範な不安を反映している。

児童搾取以外にも、レポートは他の高リスク分野における重大な失敗を詳述している。チャットボットは、性犯罪、暴力犯罪、ヘイトスピーチに関連するプロンプトに直面した際、63.6%の割合で失敗した。さらに、自殺や自傷行為のプロンプトを含むケースの54.8%で、安全介入をトリガーできなかった。これらの統計は、孤立した不具合ではなく、モデルのコンテンツモデレーション(content moderation)層における体系的な弱点を示唆している。

Metaの弁護:製品をローンチしなかったからこそシステムは機能した

Axiosの報道とその後のメディアの騒動に対し、Metaは強力な弁護を展開し、リークされたデータを安全哲学の失敗ではなく、その成功の証拠として位置づけている。

Metaの広報担当者アンディ・ストーン(Andy Stone)氏は、ソーシャルメディアプラットフォームのX(旧Twitter)でこの論争に直接言及し、「真実はこうだ。レッドチーミングの取り組みによって懸念が明らかになった後、我々はこの製品をローンチしなかった。それこそが、そもそも製品をテストする理由だ」と述べた。

この弁護は、ソフトウェア開発における根本的な緊張を浮き彫りにしている。Metaの視点からは、高い失敗率はシステムを破壊するために設計されたストレス・テストの結果であった。モデルが安全でないことを特定したことで、同社はそれを市場から遠ざける決定を下した。ストーン氏の主張は、内部のチェック・アンド・バランスが意図した通りに正確に機能し、危険な製品がユーザーに届くのを防いだというものである。

しかし批判派は、これほど高い脆弱性率を持ちながらモデルがテストの最終段階に達したという事実は、ベースモデル自体に固有の安全性の調整が欠けている可能性があることを示していると反論している。これは、安全性が、トレーニングデータからすでに有害なパターンを学習したモデルの上に「ラッパー」やフィルターとして適用されていることが多く、コアアーキテクチャに組み込まれていないことを示唆している。

安全性の失敗に関する比較分析

訴訟で露呈した脆弱性の範囲を理解するために、Metaの内部チームによってテストされたさまざまなカテゴリーにわたる失敗率を視覚化することが役立つ。以下の表は、未発表チャットボットのパフォーマンスに関する法廷文書で提示されたデータをまとめたものである。

表:内部レッドチーミングの失敗率(2025年6月のレポート)

テストカテゴリー 失敗率(%) 意味・影響
児童の性的搾取 66.8% 搾取コンテンツ生成の試行3回のうち2回でブロックに失敗。
性犯罪、暴力、ヘイトコンテンツ 63.6% プロンプトに応じて違法または憎悪に満ちた言辞を生成する高い感受性。
自殺および自傷行為 54.8% モデルがリソースの提供や自傷行為に関する議論のブロックに頻繁に失敗。
標準的な安全性の基準 0.0%(理想) 違法行為に関する消費者向けAI製品の理論的目標。

出典:New Mexico v. Metaの公開された法廷文書から派生したデータ。

背景:ニューメキシコ州対Meta

この事実は、ニューメキシコ州司法長官のラウル・トレズ氏によって提起されたより広範な訴訟の一環である。この訴訟は、FacebookやInstagramを含む自社プラットフォーム全体でMetaが児童の略奪や性的搾取を助長していると非難している。AI固有の証拠の導入は、Metaが直面している法的精査の重要な拡大を意味する。

以前の訴訟の多くはアルゴリズムによるフィードやソーシャルネットワーキング機能に焦点を当てていたが、チャットボットのパフォーマンスデータの含有は、規制当局が現在、生成AIによってもたらされるリスクを注視していることを示唆している。この訴訟で引用された2025年6月のレポートは、Meta AI Studioエコシステム内でリリースが検討されていた可能性のある製品の「事後分析」またはステータスアップデートであると思われる。

2024年7月に導入されたMeta AI Studioは、クリエイターがカスタムAIキャラクターを構築することを可能にする。同社は最近、これらのカスタムボットに関する批判に直面しており、先月、特定のAIキャラクターへのティーンエイジャーのアクセスを一時停止した。この訴訟は、Metaが最年少ユーザーの安全性よりもエンゲージメントと製品展開のスピードを優先していることを示唆し、過失の境界線を引こうとしている。

LLMにおけるコンテンツモデレーションの技術的課題

これらの文書で明らかになった高い失敗率は、大規模言語モデル(LLMs)を「調整(アライメント)」することの根強い技術的困難を指し示している。バグが修正可能なコードの一行である従来のソフトウェアとは異なり、LLMの挙動は確率的である。モデルは有害なプロンプトを9回拒否するかもしれないが、言い回しや「ジェイルブレイク(脱獄)」の手法によっては、10回目にそれを受け入れる可能性がある。

「レッドチーミング」の文脈では、テスターはしばしば洗練されたプロンプトエンジニアリングを使用してモデルを欺く。彼らはAIにロールプレイを依頼したり、物語を書かせたり、以前の指示を無視させたりして、安全性フィルターを回避しようとする。この文脈における67%の失敗率は、未発表のモデルがこれらの敵対的攻撃に対して非常に脆弱であったことを示唆している。

数十億人のユーザー(数百万人の未成年者を含む)にサービスを提供するMetaのようなプラットフォームにとって、報告された失敗率のほんの一部であっても、実際の環境では壊滅的となるだろう。自傷行為のプロンプトに関する54.8%の失敗率は、ヘルプライン番号の提供などの即時の介入がそのような問い合わせに対する業界標準の対応であるため、特に懸念される。

業界への影響と今後の規制

この事件は、透明性のあるAI安全基準の必要性に関するケーススタディとして機能する。現在、AI業界における安全性テストの多くは自発的なものであり、密室で行われている。一般の人々が失敗について知るのは通常、製品がリリースされた後(初期のチャットボットが暴走するなど)、あるいは今回のようなリークや訴訟を通じてのみである。

これらの文書が裁判所によって公開された事実は、特に公共の安全が危険にさらされている場合、独自のテストデータがもはや公の目から隠されない可能性があるという、法的な状況の変化を示唆している。

開発者やAI企業にとって、教訓は明らかである。内部のレッドチーミングは厳格でなければならず、それらのテストの結果は製品のリリースを効果的に制限(ゲートキープ)しなければならない。製品をローンチしないというMetaの決定はテストプロセスの妥当性を示すものだが、これほど遅い段階で脆弱性が存在していたことは依然として警告信号である。

訴訟が進むにつれ、AI開発における何が「過失」を構成するかについての法的先例が作られるかもしれない。たとえ未発表であっても、自社のモデルが有害なコンテンツを生成する高い傾向があることを企業が知っている場合、技術の開発自体に責任があるのだろうか?これらは、AI規制の次の段階を定義する問いである。

結論

Metaの未発表チャットボットが児童の安全性(child safety)テストに67%の割合で失敗したという事実は、テック大手にとって諸刃の剣である。一方で、Metaのテクノロジーが未成年者にとって本質的にリスクが高いと主張する批判者や規制当局に材料を提供することになる。他方で、最終的に危険なツールを市場に出さなかったことから、自社の安全性チェックが機能しているというMetaの主張を裏付けるものでもある。

しかし、2025年6月のレポートに記録されたあまりに多くの失敗は、業界がAI安全性の問題解決からまだ程遠いことを示している。AIエージェントがティーンエイジャーや子供たちの生活により統合されるにつれ、ミスの余地はなくなる。アンディ・ストーン氏が語る「真実」——製品がローンチされなかったということ——は安堵をもたらすが、それが構築され、テスト中にこれほど劇的に失敗したという事実は、業界が直面しなければならない現実である。

フィーチャー
AirMusic
AirMusic
AirMusic.aiは、テキストプロンプトからスタイルやムードのカスタマイズ、ステム(分離トラック)出力をサポートする高品質なAI音楽トラックを生成します。
AdsCreator.com
AdsCreator.com
任意のウェブサイト URL から、Meta、Google、Stories 向けのブランドに沿った洗練された広告クリエイティブを即座に生成します。
Atoms
Atoms
マルチエージェント自動化により、コーディング不要で数分以内にフルスタックアプリやWebサイトを構築するAI駆動プラットフォーム。
KiloClaw
KiloClaw
ホステッドの OpenClaw エージェント:ワンクリックでデプロイ、500以上のモデル、セキュアなインフラ、自動化されたエージェント管理をチームと開発者に提供します。
Refly.ai
Refly.ai
Refly.AI は、非技術系のクリエイターが自然言語と視覚的キャンバスを使ってワークフローを自動化できるようにするプラットフォームです。
VoxDeck
VoxDeck
視覚革命をリードするAIプレゼンテーションメーカー
Skywork.ai
Skywork.ai
Skywork AIは、生産性を向上させるための革新的なAIツールです。
Pippit
Pippit
Pippitの強力なAIツールでコンテンツ作成を向上させましょう!
Qoder
Qoder
Qoderは、ソフトウェアプロジェクトの計画、コーディング、テストを自動化するAI駆動のコーディングアシスタントです。
BGRemover
BGRemover
SharkFoto BGRemoverでオンラインで簡単に画像の背景を削除できます。
FineVoice
FineVoice
文字を感情に変える — 数秒で表現力豊かなAIボイスをクローン、デザイン、作成しよう。
Flowith
Flowith
Flowithは、無料の🍌Nano Banana Proやその他の効果的なモデルを提供するキャンバスベースのエージェント型ワークスペースです...
Diagrimo
Diagrimo
Diagrimoはテキストをカスタマイズ可能なAI生成の図表やビジュアルに瞬時に変換します。
Elser AI
Elser AI
テキストと画像をアニメ風アート、キャラクター、音声、短編映画に変換するオールインワンのウェブスタジオ。
FixArt AI
FixArt AI
FixArt AI はサインアップ不要で、無料かつ制限なしの画像・動画生成用AIツールを提供します。
SuperMaker AI Video Generator
SuperMaker AI Video Generator
SuperMakerを使って、驚くべき動画、音楽、画像を簡単に作成できます。
Funy AI
Funy AI
想像をアニメに!画像やテキストからAIでビキニやキスの動画を生成。AI着せ替え機能も搭載。登録不要、完全無料!
SharkFoto
SharkFoto
SharkFoto は、動画、画像、音楽を効率的に作成・編集するためのオールインワンの AI 搭載プラットフォームです。
AnimeShorts
AnimeShorts
最先端のAI技術を使用して、魅力的なアニメ短編を簡単に作成できます。
AIsa
AIsa
AIsa は、OpenAI 互換のアクセスを通じて、AI エージェントにモデル、スキル、API、支払いへの単一ゲートウェイを提供します。
Gemini Omni - Video Generator
Gemini Omni - Video Generator
会話型編集、マルチモーダル参照、一貫性のある短尺生成のためのAI動画作成プラットフォーム。
Scavio AI
Scavio AI
AIエージェントがWeb、ショッピング、動画、ソーシャルデータを構造化して取得できる、リアルタイムのマルチプラットフォーム検索API。
AdMakeAI
AdMakeAI
ブランド向けに高パフォーマンスな静止画広告とUGC広告を数秒で作成するAI広告ジェネレーターです。
CreateMemorial
CreateMemorial
CreateMemorialは、大切な人を偲ぶために、ご家族が永く残るオンライン追悼サイトや葬儀用スライドショー動画を作成できるサービスです。
WriteHybrid AI Humanizer
WriteHybrid AI Humanizer
WriteHybrid は、AI 生成テキストを自然に書き換えながら、AI 検出の回避を支援する AI ヒューマナイザー兼検出ツールです。
whatslove.ai
whatslove.ai
あなたの性格に合わせてアドバイス、会話のきっかけ、デートのアイデアをカスタマイズする AI 恋愛コーチ。
Seedance 2.0 Video AI
Seedance 2.0 Video AI
プロンプト、画像、参考クリップから、同期オーディオ付きの映画のような1080p動画を生成します。
VidMage
VidMage
AI技術を使用して、写真や動画で顔を簡単に入れ替えます。
AI Clothes Changer by SharkFoto
AI Clothes Changer by SharkFoto
SharkFoto の AI Clothes Changer は、フィット感、質感、ライティングまでリアルに再現した服を瞬時にバーチャル試着できます。
Mubert AI
Mubert AI
Mubertは、AI音楽プラットフォームで、ロイヤリティフリーのトラックを数秒で生成、拡張、リミックス、ボーカル化できます。
StitchPilot.ai
StitchPilot.ai
画像を変換し、刺繍データをプレビューし、機械フォーマットを確認できるブラウザベースの AI 刺繍ツール。
SkyGen Plus
SkyGen Plus
画像、動画、音楽を一つのスムーズなワークフローで生成できる、マルチモデルAI制作プラットフォームです。
AI Gift finder by wishwave
AI Gift finder by wishwave
数百の人気ストアにある実在の商品から、共有できるウィッシュリストを作成するAIギフト検索ツール。
happy horse AI
happy horse AI
テキストや画像から同期した動画と音声を生成するオープンソースのAI動画生成ツールです。
InstantChapters
InstantChapters
Instant Chaptersを使って、魅力的な書籍の章を瞬時に生成します。
NerdyTips
NerdyTips
AI 搭載のサッカー予測プラットフォーム。世界中のリーグにわたって、データに基づく試合のヒントを提供します。
HappyHorseAIStudio
HappyHorseAIStudio
テキスト、画像、参照素材、動画編集に対応したブラウザベースのAI動画生成ツール。
EaseMate AI
EaseMate AI
チャット、文章作成、学習サポート、画像作成、動画生成を1つのブラウザベースのプラットフォームで提供するオールインワンAIアシスタントです。
UNI-1 AI
UNI-1 AI
UNI-1は視覚的推論と高忠実度の画像合成を組み合わせた統合画像生成モデルです。
Lyria3 AI
Lyria3 AI
テキストのプロンプト、歌詞、スタイルから高音質で完全に制作された曲を瞬時に作成するAI音楽ジェネレーター。
Couple AI - AI Couple Photo Maker
Couple AI - AI Couple Photo Maker
セルフィーから、テーマ別スタイル、素早い生成、プライベートなHDダウンロード付きで、リアルなAIカップルポートレートを作成できます。
AIToHuman
AIToHuman
AI が生成した文章を、自然で人間らしい文章に瞬時に書き換える無料の AI テキスト人間化ツールです。
insmelo AI Music Generator
insmelo AI Music Generator
プロンプト、歌詞、またはアップロードを約1分で洗練されたロイヤリティフリーの曲に変換するAI駆動の音楽ジェネレーターです。
Iara Chat
Iara Chat
Iara Chat: AIによる生産性とコミュニケーションのアシスタント。
BeatMV
BeatMV
楽曲を映画のようなミュージックビデオに変換し、AIで音楽を作成するウェブベースのAIプラットフォームです。
MusicGPT
MusicGPT
シンプルなプロンプトから楽曲、効果音、ボーカル、オーディオ編集を生成するAI音楽プラットフォームです。
Tome AI PPT
Tome AI PPT
AI搭載のプレゼン作成ツール。数分でプロフェッショナルなスライドデッキを生成、整形、エクスポートします。
GPT Image 2 Online
GPT Image 2 Online
フォトリアルな結果、正確なテキスト描画、強力なプロンプト追従を備えたAI画像生成・編集ツールです。
WhatsApp AI Sales
WhatsApp AI Sales
WABot は、リアルタイムのスクリプト、翻訳、インテント検出を提供する WhatsApp 向けの AI セールス コパイロットです。
Claude API
Claude API
Claude API for Everyone
Kirkify
Kirkify
Kirkify AI はミーム作成者向けに、特徴的なネオングリッチ美学を備えた顔入れ替えのバイラルミームを瞬時に生成します。
Anijam AI
Anijam AI
Anijamは、アイデアをエージェント型の動画制作によって洗練されたストーリーへと変える、AIネイティブのアニメーションプラットフォームです。
Free GPT Image 2
Free GPT Image 2
ポスター、広告、漫画、UIモックアップを高精度なタイポグラフィで作成できる無料のGPT Image 2ジェネレーターです。
Wan 2.7
Wan 2.7
プロ仕様のAIビデオモデル。精密な動作制御とマルチビューの一貫性を実現します。
Image3D - AI 2D to 3D Model Generator (GLB, OBJ, STL, PLY)
Image3D - AI 2D to 3D Model Generator (GLB, OBJ, STL, PLY)
ブラウザベースのAIが、あらゆる2D画像やテキストプロンプトを30秒で3Dモデルに変換。GLB、OBJ、STL、PLYを書き出し可能—無料
Text to Music
Text to Music
テキストや歌詞を、AI生成のボーカル、楽器、マルチトラック書き出しを含むフルのスタジオ品質の楽曲に変換します。
AI Pet Video Generator
AI Pet Video Generator
AI駆動のテンプレートと即時HD書き出しを使って、写真からバイラルで共有しやすいペット動画を作成します。SNS向けに最適化されています。
kinovi - Seedance 2.0 - Real Man AI Video
kinovi - Seedance 2.0 - Real Man AI Video
リアルな人物を出力する無料のAI動画ジェネレーター。透かしなし、商用利用権付き。
Image 2 AI
Image 2 AI
OpenAI搭載の画像生成・編集ツール。フォトリアルなビジュアル、正確な文字描画、UIモックアップに対応。
Ampere.SH
Ampere.SH
無料の管理された OpenClaw ホスティング。$500 の Claude クレジットで 60 秒で AI エージェントをデプロイできます。
Paper Banana
Paper Banana
学術テキストを即座に投稿準備が整った方法図や正確な統計図に変換する、AI搭載ツールです。
HookTide
HookTide
あなたの声を学習してコンテンツ作成・エンゲージメント・パフォーマンス分析を行うAI搭載のLinkedIn成長プラットフォームです。
AI Video API: Seedance 2.0 Here
AI Video API: Seedance 2.0 Here
1つのキーで最先端の生成モデルをより低コストで提供する統合AI動画APIです。
Gptimg2 AI
Gptimg2 AI
テキスト、画像、参照素材から画像や動画を作成できる、オールインワンの AI スタジオです。
wan 2.7-image
wan 2.7-image
正確な顔、配色、テキスト、ビジュアルの一貫性を制御できるAI画像生成ツールです。
GenPPT.AI
GenPPT.AI
AI駆動のPPT作成ツール。数分でスピーカーノートとグラフ付きのプロフェッショナルなPowerPointプレゼンテーションを作成、整形、エクスポートします。
Hitem3D
Hitem3D
Hitem3Dは単一の画像をAIで高解像度かつプロダクション対応の3Dモデルに変換します。
Gobii
Gobii
Gobii はチームが 24 時間 365 日稼働する自律型デジタルワーカーを作成し、ウェブ調査やルーティンタスクを自動化できるようにします。
Create WhatsApp Link
Create WhatsApp Link
分析機能、ブランドリンク、ルーティング、マルチエージェントチャット機能を備えた無料のWhatsAppリンク&QRジェネレーター。
Image to Video AI without Login
Image to Video AI without Login
写真を瞬時に滑らかで高品質なアニメーション動画に変換する、透かしなしの無料イメージ→ビデオAIツールです。
Video Sora 2
Video Sora 2
Sora 2 AIはテキストや画像を数分で短く物理的に正確なソーシャル/eコマース向けビデオに変換します。
Palix AI
Palix AI
クリエイター向けのオールインワンAIプラットフォーム。統一されたクレジットで画像、動画、音楽を生成できます。
Seedance 20 Video
Seedance 20 Video
Seedance 2 は、一貫したキャラクター、マルチショットの物語表現、2K のネイティブ音声を提供するマルチモーダルな AI 動画ジェネレーターです。
AI FIRST
AI FIRST
自然言語を通じてリサーチ、ブラウザ作業、ウェブスクレイピング、ファイル管理を自動化する会話型AIアシスタント。
Manga Translator AI
Manga Translator AI
AI Manga Translatorは漫画画像をオンラインで瞬時に複数の言語に翻訳します。
WhatsApp Warmup Tool
WhatsApp Warmup Tool
AI 搭載の WhatsApp ウォームアップツールは、大量メッセージ送信を自動化しつつアカウント停止を防ぎます。
ainanobanana2
ainanobanana2
Nano Banana 2 は、正確なテキストレンダリングと被写体の一貫性を保ちながら、4~6秒でプロ品質の4K画像を生成します。
Veemo - AI Video Generator
Veemo - AI Video Generator
Veemo AIは、テキストや画像から高品質な動画と画像を素早く生成するオールインワンプラットフォームです。
Remy - Newsletter Summarizer
Remy - Newsletter Summarizer
Remyはメールを短くて分かりやすい洞察にまとめることでニュースレター管理を自動化します。
TextToHuman
TextToHuman
AIテキストを瞬時に自然で人間らしい文体に書き直す無料のAI人間化ツール。サインアップ不要。
GLM Image
GLM Image
GLM Image は自己回帰モデルと拡散モデルを組み合わせたハイブリッド方式で、高忠実度のAI画像を生成し、優れたテキストレンダリングを実現します。

メタの未公開AIチャットボット、裁判文書によると児童安全テストで67%失敗

メタの内部テストでは、そのチャットボットが児童を搾取から守ることにおいてほぼ70%の割合で失敗していたことが、ニューメキシコの訴訟文書で明らかになった。