AnthropicのユーザーがClaude AIモデルの性能低下を報告

高まる嵐：Anthropic、Claudeモデルのパフォーマンスを巡るユーザーの反発に直面

ここ数週間、Anthropicの主要モデルを信頼して利用するパワーユーザーや開発者の間で、フラストレーションが高まっています。X（旧Twitter）、Reddit、および各種開発者フォーラムでは、Claude Opusや最近導入されたClaude Codeのパフォーマンスが大幅に低下しているという報告が急増しています。高額なサブスクリプション料金を支払って上位プランを利用しているこれらのユーザーは、このAI大手のモデルアップデートにおける一貫性と透明性に疑問を呈しています。

Creati.aiでは、この議論を注視してきました。最初は逸話的な噂話に過ぎなかったものが、今や「モデルのナーフィング（性能低下）」に関する広範な論争へと発展しています。これは、AI企業が計算コストの節約、レイテンシの最小化、あるいはより制限された出力へと挙動を誘導するために、意図的にモデルの能力を低下させているのではないかという疑念です。

疑惑の本質

これらの不満は特定のニッチな層に限られたものではありません。むしろ、「最も人間らしく」、かつ有能なAIを構築するというAnthropicの評価に対し、多面的な課題を突きつけています。開発者は特に、Claude Opusが過去のバージョンと比較して性能が低下していると確信できる主要な領域をいくつか指摘しています。

パワーユーザーによって特定された懸念の主要な領域は以下の通りです：

コーディング効率: 以前は複雑なリファクタリングを処理できる能力で高く評価されていたClaude Codeが、現在では構文エラーを多く生成し、複数ファイルにまたがるアーキテクチャの推論に苦戦していると開発者は報告しています。
推論能力: 複雑な論理パズルや長文の学術的な執筆を任されたユーザーは、モデルが「怠惰」になっていると感じており、かつては反復的で思慮深い解決策を示していたところで、今は表面的な回答ばかりを提供すると述べています。
指示の遵守: モデルがカスタムシステムプロンプトに従順ではなくなり、ネガティブな制約を頻繁に無視したり、ロールプレイの重いタスクの途中でキャラクターを崩したりするようになっているという認識が広まっています。

ワークフローへの比較影響

これらの懸念の規模を理解するために、ユーザーから寄せられたモデルの挙動の変化に関するフィードバックを分類しました。

パフォーマンスの側面	3月以前の観察	現在のユーザー体験
コード補完	最小限のコンテキストで高い精度	頻発するハルシネーションと構文バグ
論理推論	深みのある段階的な思考プロセス	表面的な、しばしば循環論法的な論理
プロンプトの遵守	ユーザー定義の制約を厳格に遵守	スタイルの境界線を頻繁に「忘れる」
タスクのスループット	負荷がかかっても一貫した性能	ピーク時の出力品質にばらつき

「計算リソース危機」の影

この反発の核となっているのは、「計算リソース危機（compute crunch）」という仮説です。NVIDIAのH100のようなハイエンドGPUに対する世界的な需要が史上最高レベルに達する中、業界のアナリストは、Anthropicのような企業が推論コストの最適化という大きなプレッシャーにさらされていると指摘しています。

批判者は、サブスクリプション料金を値上げせずに利益率を維持するために、提供側がひそかに「より重い」モデルのウェイトを、蒸留された、あるいは量子化されたバージョンと入れ替えている可能性があると論じています。これらのバージョンはコスト効率が良く、実行速度も速いものの、パワーユーザーが依存するようになったニュアンスや信頼性が失われることが多々あります。

しかし、技術的な現実はそれほど単純ではありません。こうした懸念について尋ねられた際、業界の専門家はAIモデルが本質的に「非決定的（non-deterministic）」であることを強調することがよくあります。基礎となるインフラストラクチャの更新、トレーニングデータの更新サイクル、さらには安全ガードレールの実装に対する微細な変更までもが、開発者が定量化しにくい形でモデルの「個性」や有効性に意図せず影響を与える可能性があるのです。

透明性と信頼の欠如

ここでの根本的な問題は、エンジニアリングのパフォーマンスそのものではなく、企業コミュニケーションの深刻な溝にあるのかもしれません。歴史的に「憲法AI（Constitutional AI）」と安全性の擁護者を自認してきたAnthropicは今、その透明性について問い詰められています。

特定のモデルの「チェックポイント」に対するバージョン管理が欠如しているということは、ユーザーにとって、特定のユースケースでより良いパフォーマンスを発揮していた過去のバージョンに戻す術がないことを意味します。開発者がClaude Opusの挙動に基づいてパイプラインを構築する際、彼らはその挙動が安定していることを期待します。足元で「ブラックボックス」が変化してしまえば、エンタープライズレベルでの採用に必要な信頼は損なわれ始めます。

Anthropicに対する推奨されるステップ

開発コミュニティの信頼を回復するために、パワーユーザーからは以下の対策が強く求められるようになっています：

バージョニングの提供: APIユーザー向けにレガシーモデルのチェックポイントへのアクセスを提供すること。
より明確な変更ログ: モデルのウェイトや安全フィルターが更新された際に、詳細な技術レポートを提供すること。
一貫性のベンチマーク: モデルの変更に伴いリアルタイムで更新される、推論タスクに関する公開可能かつ検証可能なベンチマークを公開すること。

先を見据えて：AIモデルの安定性の未来

次世代のLLM（大規模言語モデル）を見据える中で、今回のエピソードは業界全体にとっての重要な分岐点となります。AIの「ハネムーン期間」はおそらく終わりを迎えました。開発者やパワーユーザーは初期の「驚き」を超え、モデルを重要なソフトウェア依存関係として扱い始めています。

Anthropicがリーダーとしての地位を維持しようとするならば、安全性とコスト効率へのコミットメントと、実用的な信頼性のニーズとのバランスを取らなければなりません。認識されているパフォーマンスの低下が技術的な最適化の結果であろうと、安全性の優先順位の変化によるものであろうと、一つだけ確かなことがあります。AIコミュニティは、もはや「ブラックボックス」のアップデートには満足していないということです。彼らは議論のテーブルに座ることを求めており、自分たちが頼りにしているツールが、それが構築された基準を維持することを期待しています。

Creati.aiでは、今後もこれらのモデルのパフォーマンスを追跡し、技術的なドリフト（漂流）と意図的なモデル最適化を見分けるために必要な客観的データを読者の皆様に提供していきます。基礎モデルを巡る急速に変化する情勢の中で、Anthropicやその競合他社からのさらなるアップデートを分析していきますので、どうぞご注目ください。