Google 發布 Gemini 3.1 Pro，在關鍵基準測試中優於 GPT-5.2 與 Claude Opus 4.6

Google 隨著 Gemini 3.1 Pro 的推出重奪 AI 霸主地位

Google 已正式透過發布 Gemini 3.1 Pro，重新確立了其在生成式 AI（Generative AI）領域的領先地位。該模型象徵著在抽象推理和科學問題解決方面的跨世代飛躍。這款新模型於 2026 年 2 月 19 日星期四亮相，正值「AI 軍備競賽」的關鍵時刻，其交付的性能指標果斷地超越了包括 OpenAI 的 GPT-5.2 和 Anthropic 的 Claude Opus 4.6 在內的主要競爭對手。

對於 Creati.ai 的編輯團隊而言，這次發布最引人注目的方面不僅僅是標準語言任務的漸進式增益，而是打破了抽象推理能力的上限。經早期獨立測試證實，Google 的內部數據顯示 Gemini 3.1 Pro 在著名的 ARC-AGI-2 基準測試中獲得了 77.1% 的分數。該測試旨在透過新穎的視覺謎題而非機械式記憶來衡量通用智能。這一數字代表了對先前最先進模型的巨大改進，並表明我們正逐步接近具備真正「核心推理」能力的系統。

抽象推理與科學知識的新標準

Gemini 3.1 Pro 的核心特色無疑是其推理引擎。近幾個月來，AI 行業已從以參數數量衡量成功，轉向評估「測試時運算（test-time compute）」和推理深度。Google 在 3.1 版本中的方法似乎加倍奉還了這一理念。

性能差距在 ARC-AGI-2 基準測試中表現得最為明顯。從歷史上看，大型語言模型（LLMs）一直難以應對這項測試，因為它需要解決沒有明確先前訓練數據的新穎模式匹配問題。雖然 GPT-5.2 獲得了不錯的 52.9%，而最近更新的 Claude Opus 4.6 則達到了 68.8%，但 Gemini 3.1 Pro 的 77.1% 分數建立了一個新的行業標竿。預計這種能力將直接轉化為更可靠的自主代理和能夠適應未見場景的複雜決策系統。

此外，在硬科學領域，Gemini 3.1 Pro 繼續保持領先。在 GPQA Diamond 測試（評估生物、物理和化學方面的專家級知識）中，該模型達到了 94.3% 的準確率。這略微領先於 GPT-5.2 (92.4%) 和 Claude Opus 4.6 (91.3%)，鞏固了 Google 在學術和研究導向應用中的地位。

競爭性能分析

下表總結了發布會期間發布的關鍵基準測試結果。這些數字突出了 Google 成功擴大與其主要競爭對手差距的特定領域。

指標|Gemini 3.1 Pro|GPT-5.2|Claude Opus 4.6
---|---|---
ARC-AGI-2 (抽象推理)|77.1%|52.9%|68.8%
GPQA Diamond (科學知識)|94.3%|92.4%|91.3%
贏得的主要基準測試總數|19 項中的 12 項|N/A|N/A
可用性狀態|現已推出|已推出|已推出

創意編程與多模態能力

除了原始數據之外，Google 還展示了利用 Gemini 3.1 Pro 增強的多模態理解能力的實際應用。本次週期引入的一項關鍵創新是「原生 SVG 動畫生成」。與以往經常難以處理可縮放向量圖形（SVG）所需座標精確度的模型不同，Gemini 3.1 Pro 可以生成可直接用於網頁部署的乾淨、動畫化 SVG 代碼。

在發布演示中，Google 透過為《咆哮山莊》（Wuthering Heights）中的虛構人物生成一個功能齊全的個人作品集網站，展示了該模型的「創意編程」能力。該模型不僅編寫了 HTML 和 CSS，還構思了美學方向，生成了與要求語調相匹配的代碼化視覺效果。

另一個突出的例子涉及交互式設計。該模型被要求創建一個「3D 交互式椋鳥群飛（starling murmuration）」——一種鳥群飛行的複雜模擬。Gemini 3.1 Pro 成功生成了控制鳥群運動的邏輯，並將其與能對用戶鼠標交互做出動態反應的生成式聲景相結合。這向開發者和設計師發出了一個信號，他們現在可以將該模型作為複雜、交互式前端工程任務的協作夥伴。

代理間隔：待改進領域

儘管發布會基調充滿慶賀感，但 Google 的技術論文也坦誠地審視了模型的局限性。雖然 Gemini 3.1 Pro 在推理和知識檢索方面表現卓越，但據報導在特定的「代理式（agentic）」編程工作流中落後於競爭對手。

在 SWE-Bench Verified 評估（測試 AI 自主解決現實世界 GitHub 問題的能力）中，Gemini 3.1 Pro 略微落後於基於 Claude Opus 4.6 構建的專業編程代理。這表明，雖然 Google 的模型是一位卓越的思考者和架構師，但在無人干預的情況下執行長期的軟件工程任務時，可能仍需要人類監督或專用工具。

Google 高管在新聞簡報中談到了這一點，指出「代理間隔（agentic gap）」是即將到來的 Gemini 3.5 更新週期的主要焦點。目前，鼓勵透過 API 使用該模型的開發者採用「思維鏈（chain-of-thought）」提示，以在執行前最大化模型的規劃能力。

部署與可用性：從 NotebookLM 到 Antigravity

Google 正不遺餘力地在其生態系統中部署 Gemini 3.1 Pro。該模型立即開放給 Gemini Advanced 和 AI Ultra 計劃的訂閱者。

針對消費者： 該模型已整合到標準 Gemini 應用中。用戶可以切換「Pro」模式以使用高級數學和編程功能。
針對研究人員： NotebookLM（Google 的 AI 驅動研究助手）現在為付費用戶運行 Gemini 3.1 Pro。預計此次升級將顯著提高該工具綜合複雜文檔的能力，並生成具有更高事實準確性的播客風格音頻摘要。
針對開發者： 可透過 Google AI Studio 和企業級 Vertex AI 平台訪問 API。有趣的是，Google 還預告了與「Antigravity」的新整合，這是一個尚未完全揭曉細節的產品套件，旨在面向創意專業人士，很可能利用了新的 SVG 和交互式設計能力。

市場影響：2026 年 AI 格局

Gemini 3.1 Pro 的發布正值 AI 行業動盪之際。就在幾天前，Anthropic 發布了其 Claude 系列的更新版本 Sonnet 4.6，因其計算機使用能力而受到讚譽。與此同時，OpenAI 對於 GPT-5.2 的繼任者保持相對沈默，儘管有傳言稱「GPT-6」的公告可能定於 2026 年底。

對於企業客戶而言，Google 在 ARC-AGI-2 基準測試中的勝利是最重要的指標。隨著企業從簡單的聊天機器人轉向複雜的決策代理，推理新穎問題的能力至關重要。77.1% 的得分表明，Gemini 3.1 Pro 目前是需要高風險問題解決行業（如法律取證、藥物研究和金融預測）最可行的選擇。

Creati.ai 將在未來幾週內對 Gemini 3.1 Pro 進行廣泛測試，特別關注其創意寫作的細微差別和長上下文保留能力。然而，目前基準測試數據已說明了一切：Google 已成功奪回領先地位，挑戰其競爭對手對人工智能新標準做出回應。