
Googleは、抽象的推論と科学的問題解決における世代交代レベルの飛躍を象徴するモデル、Gemini 3.1 Proのリリースにより、生成AI(Generative AI)分野における支配的な地位を正式に再確立しました。2026年2月19日(木曜日)に発表されたこの新しいモデルは、「AI軍拡競争」の重要な局面で登場し、OpenAIのGPT-5.2やAnthropicのClaude Opus 4.6を含む主要な競合他社を決定的に凌駕するパフォーマンス指標を提供します。
Creati.aiの編集チームにとって、今回のリリースで最も注目すべき点は、標準的な言語タスクにおける段階的な向上ではなく、抽象的推論能力の限界を打ち破ったことです。初期の独立したテストによって検証されたGoogleの内部データによると、Gemini 3.1 Proは、暗記ではなく斬新な視覚パズルを通じて一般知能を測定するように設計されたテストである、悪名高いARC-AGI-2ベンチマークにおいて77.1%のスコアを達成しました。この数値は、以前の最先端モデルと比較して劇的な改善を示しており、私たちが真の「コア推論(Core Reasoning)」が可能なシステムに一歩ずつ近づいていることを示唆しています。
Gemini 3.1 Proの最大の目玉機能は、間違いなくその推論エンジンです。ここ数ヶ月、AI業界の成功の尺度はパラメータ数から、「テスト時計算(Test-time compute)」と推論の深さの評価へと移行しています。バージョン3.1におけるGoogleのアプローチは、この哲学をさらに強化しているようです。
パフォーマンスの差が最も顕著に現れているのは、ARC-AGI-2ベンチマークです。歴史的に、大規模言語モデル(LLM)は、明確な事前学習データなしで斬新なパターンマッチング問題を解決する必要があるため、このテストに苦戦してきました。GPT-5.2が52.9%というまずまずのスコアを出し、最近アップデートされたClaude Opus 4.6が68.8%を記録した一方で、Gemini 3.1 Proの77.1%というスコアは、業界の新たな最高基準を打ち立てました。この能力は、未知のシナリオに適応できる、より信頼性の高い自律型エージェントや複雑な意思決定システムに直接つながることが期待されています。
さらに、硬質科学の分野においても、Gemini 3.1 Proはリードを保っています。生物学、物理学、化学における専門レベルの知識を評価するGPQA Diamondテストにおいて、このモデルは94.3%の正解率を達成しました。これはGPT-5.2(92.4%)やClaude Opus 4.6(91.3%)を僅差で上回り、学術および研究指向のアプリケーションにおけるGoogleの強固な地位を裏付けています。
パフォーマンスの比較分析
以下の表は、発表イベント中に公開された主要なベンチマーク結果をまとめたものです。これらの数値は、Googleが主要なライバルに対して差を広げることに成功した特定の領域を強調しています。
指標|Gemini 3.1 Pro|GPT-5.2|Claude Opus 4.6
---|---|---
ARC-AGI-2 (抽象的推論)|77.1%|52.9%|68.8%
GPQA Diamond (科学的知識)|94.3%|92.4%|91.3%
主要ベンチマークの通算勝利数|19中12|該当なし|該当なし
提供ステータス|現在利用可能|利用可能|利用可能
生の数値を超えて、GoogleはGemini 3.1 Proの強化されたマルチモーダル(Multimodal)理解を活用した実用的なアプリケーションを実演しました。このサイクルで導入された主要なイノベーションは、「ネイティブSVGアニメーション生成」です。スケーラブル・ベクター・グラフィックス(Scalable Vector Graphics:SVG)に必要な座標精度に苦労することが多かった従来のモデルとは異なり、Gemini 3.1 Proは、Webデプロイメントに対応したクリーンでアニメーション化されたSVGコードを生成できます。
発表のデモンストレーション中、Googleは『嵐が丘(Wuthering Heights)』の架空の登場人物のための完全機能するポートフォリオサイトを生成することで、モデルの「クリエイティブコーディング」能力を披露しました。モデルはHTMLとCSSを書くだけでなく、美的方向性を概念化し、要求されたトーンに一致するコードベースのビジュアルを生成しました。
もう一つの際立った例は、インタラクティブデザインに関するものでした。モデルには「3Dインタラクティブなムクドリの群れ(Starling murmuration)」、つまり鳥の群れの複雑なシミュレーションを作成するタスクが課されました。Gemini 3.1 Proは、群れの動きを制御するロジックの生成に成功し、ユーザーのマウス操作に動的に反応する生成的サウンドスケープと組み合わせました。これは、複雑でインタラクティブなフロントエンドエンジニアリングタスクの共同パートナーとしてモデルを使用できるようになった、開発者やデザイナーにとっての転換点を意味します。
発表のお祝いムードの一方で、Googleの技術論文はモデルの限界についても率直に触れています。Gemini 3.1 Proは推論と知識の検索に優れていますが、特定の「エージェント型(Agentic)」コーディングワークフローにおいては競合他社に遅れをとっていると報告されています。
現実世界のGitHubの課題を自律的に解決するAIの能力をテストするSWE-Bench Verified評価において、Gemini 3.1 ProはClaude Opus 4.6をベースに構築された専門のコーディングエージェントにわずかに及びませんでした。これは、Googleのモデルが優れた思考者でありアーキテクトである一方で、介入なしで長期的なソフトウェアエンジニアリングタスクを実行するには、依然として人間の監視や専門的なツールが必要であることを示唆しています。
Googleの幹部は記者会見でこれに言及し、「エージェントのギャップ」は次回のGemini 3.5のアップデートサイクルの主要な焦点であると述べました。現時点では、APIを介してモデルを使用する開発者は、実行前にモデルの計画能力を最大限に引き出すために、「思考の連鎖(Chain-of-thought)」プロンプティングを使用することが推奨されています。
Googleは、エコシステム全体にGemini 3.1 Proを迅速に展開しています。このモデルは、Gemini AdvancedおよびAI Ultraプランの加入者がすぐに利用できます。
Gemini 3.1 Proのリリースは、AI業界にとって激動の時期に行われました。その数日前、AnthropicはClaudeラインのアップデートであるSonnet 4.6をリリースし、そのコンピュータ操作能力が称賛されました。一方、OpenAIはGPT-5.2の後継機については比較的沈黙を保っていますが、2026年後半に「GPT-6」の発表が予定されているとの噂もあります。
企業顧客にとって、ARC-AGI-2ベンチマークにおけるGoogleの勝利は最も重要な指標です。ビジネスが単純なチャットボットから複雑な意思決定エージェントへと移行するにつれ、斬新な問題を推論する能力が最も重要になります。77.1%というスコアは、Gemini 3.1 Proが現在、法的証拠開示、医薬品研究、財務予測など、リスクの高い問題解決を必要とする業界にとって最も実行可能な選択肢であることを示唆しています。
Creati.aiは、今後数週間にわたってGemini 3.1 Proを広範囲にテストし、特にそのクリエイティブライティングのニュアンスと長いコンテキストの保持能力に焦点をおきます。しかし現時点では、ベンチマークが雄弁に物語っています。Googleは首位の座を奪還することに成功し、人工知能(Artificial Intelligence)の新たな基準に対応するよう競合他社に挑んでいます。