Amazon、AIエージェントが一連の小売サイト障害を引き起こした後に90日間のコード安全リセットを実施

エンタープライズAIへの警鐘：Amazonによる90日間のコード安全性リセット

生成式AI（Generative AI）のソフトウェアエンジニアリングワークフローへの急速な統合は、かつてない速度を約束してきましたが、Amazonの最新の動きは、現実がはるかに複雑であることを示唆しています。小売インフラの一部を麻痺させた一連の重大な停止事態を受け、Amazonは正式に90日間の「コード安全性リセット（code safety reset）」を発表しました。335の重要なティア1システム（Tier-1 systems）を対象としたこの積極的かつ是正的な措置は、業界とAI支援開発との関係における重要な転換点を浮き彫りにしています。

世界中の組織がコーディングタスクのためにAIエージェント（AI agents）の導入を急ぐ中、Amazonの最近の経験は、AIの非決定論的な性質には厳格なガバナンスが必要であるという厳しい教訓となっています。2026年3月初旬の出来事は、本番環境における自動コーディング（automated coding）ツールに対して、どれほどの自律性と信頼を付与すべきかという再評価を余儀なくさせました。

自律の代償：システム停止のメカニズム

この戦略的転換のきっかけとなったのは、1週間のうちに発生した2つの大きなサービス中断でした。2026年3月2日、AmazonのAIコーディングアシスタント「Q」が関与したインシデントが大規模な障害を引き起こし、約160万件のエラーと12万件の顧客注文の損失を招きました。混乱は3月5日の2度目の停止によってさらに深刻化し、報告によると630万件もの注文が失われるという、より甚大な被害をもたらしました。

Amazonのeコマースサービス担当シニアバイスプレジデントであるデイブ・トレッドウェル（Dave Treadwell）氏は、重要なギャップを指摘しました。それは、急速なAI生成コードの生産と、同社の確立された信頼性工学標準との間の不一致です。内部文書により、義務付けられている正式な文書化と承認プロセスを経ずにデプロイされた本番環境の変更が、3月5日の崩壊の主な原因であったことが判明しました。

なぜAIコーディングエージェントは決定論に苦戦するのか

AIエージェントとエンタープライズ級のソフトウェアの安定性との間の核心的な摩擦点は、決定論（Determinism）の概念にあります。従来のソフトウェアエンジニアリングは、特定の入力が与えられるたびに常に全く同じように動作するシステムに依存しています。対照的に、生成式AIモデルは本質的に確率論的（Probabilistic）であり、基礎となるロジックが一貫していても、同じプロンプトに対してわずかに異なるバリエーションのコードを生成する可能性があります。

この確率論的な挙動は、100%の正確性が譲れない基準であるハイステークスな開発環境に統合される際、「コンプライアンスのギャップ」を生み出します。Amazonでは、エンジニアが簡単にコードを生成できるようになったことで、意図せず安全チェックを回避する結果となりました。AIエージェントによって得られた効率性は、逆説的にシステムの信頼性を損なうことになり、スピードが標準化された監視を犠牲にしてはならないことを証明しました。

90日間のリセット：制御された摩擦の導入

Amazonの対応は、シームレスな自動化に慣れすぎていた可能性のあるエンジニアリング文化の中に、「制御された摩擦（Controlled Friction）」を再構築する見事な事例です。この90日間のリセットは単なる一時停止ではなく、335のティア1システムにおけるデプロイワークフローの包括的な再設計です。

新しい指令では以下が義務付けられています：

2名による必須レビュー： 人間による二重の検証なしにはコードを本番環境にプッシュすることはできず、「AIのみ」による承認の近道を無効化します。
ドキュメントの厳格化： 内部の文書化および承認ツールを厳守し、すべての変更に追跡可能な監査ログを確保します。
決定論の強制： エージェントツールと、Amazonの中央信頼性工学標準を強制する決定論的なルールベースのセーフガードを組み合わせる取り組みです。

比較分析：従来のDevOps vs. AI統合型DevOps

以下の表は、AmazonがAI支援型ソフトウェアライフサイクルに関連するリスクを軽減するために強制している、運用哲学のシフトをまとめたものです。

リスクカテゴリ	従来のデブオプス（DevOps）アプローチ	AI統合ワークフロー	「リセット」による調整
コード検証	手動およびピアベース	自律的に生成	2名による手動検証
ドキュメント化	リアルタイムログ記録	しばしば省略/自動化	厳格な手動コンプライアンスが必要
信頼性テスト	ルールベースのシミュレーション	予測的/確率論的	ハードコードされた決定論的ルール
デプロイ速度	調整されたケイデンス	迅速/高速	高摩擦、高完全性

業界全体への示唆：ガバナンスこそが新たなイノベーション

Amazonの苦闘は、エンタープライズ部門にとっての先触れです。CTOやエンジニアリング責任者がGenAIの領域を進む中で、教訓は明確です。AIエージェントは強力なフォースマルチプライヤー（軍事力の倍増装置）ですが、現時点では適切に管理されたソフトウェアサプライチェーンの構造的完全性を代替することはできません。

業界は、すべての本番準備完了AI出力に対して「ヒューマンインザループ（Human-in-the-loop）」を要求する方向へと動いています。生成にはAIを使用しつつ、安全性については決定論的なチェックを強制するハイブリッドソリューションに投資することで、AmazonはGenAIリスク（GenAI risk）管理の新たな基準を打ち立てようとしています。

一般的な企業にとって、進むべき道はAIコーディングアシスタントを放棄することではなく、絶え間ない人間主導の監視を必要とするジュニアデベロッパーとして扱うことです。90日間のリセット期間は、大規模言語モデル（LLM）の機敏性と、グローバルな商取引における妥協のない安定性要件を調和させる枠組みである「AIネイティブな信頼性」の青写真を生み出すことになるでしょう。

2026年の夏に向けて、ソフトウェア速度への絶え間ない需要に対し、これらの新しいガードレールがどれほど効果的に機能するかに注目が集まるでしょう。一つ確かなことは、大規模な小売りの世界において、自動化されたミスの代償は無視するにはあまりにも大きいということです。