AI News

Google 以 Gemini 3 Deep Think 升級重新定義科學人工智慧(Scientific AI)

在人工智慧領域的一次重大飛躍中,Google 宣布對其 Gemini 3 Deep Think 模型進行重大升級,將其定位為處理複雜科學推理和先進工程挑戰的首選工具。此更新於 2026 年 2 月 12 日發布,標誌著該模型從高性能的大型語言模型(Large Language Model, LLM)轉型為專業的「推理引擎(Reasoning Engine)」,其能力足以在專業領域與人類專家抗衡。

此次升級的首要成就,是在**人類最後測驗(Humanity's Last Exam, HLE)**中獲得了驚人的 48.4% 評分。該基準測試專為檢驗 AI 的學術和推理能力而設計,被認為是最嚴苛的終極測試。這一得分代表了對以往前沿模型(包括 Gemini 3 Pro 及其競爭對手)的決定性領先,標誌著一個新時代的到來:AI 代理現在可以可靠地解決需要深度、多步邏輯演繹的問題,而無需依賴外部工具。

對於 Creati.ai 的讀者來說,這一發展預示著開發者和研究人員與 AI 互動方式的轉變。我們正在超越「提問並祈禱(prompt and pray)」的時代,進入協作發現的新紀元,像 Deep Think 這樣的模型將作為經過驗證的研究助手,能夠處理混亂的數據集並識別隱晦的理論缺陷。

「系統 2」(System 2)優勢:推理重於檢索

Gemini 3 Deep Think 升級的核心區別在於其對「系統 2」思考過程的依賴。與根據統計概率預測下一個標記(Token)的標準 LLM(系統 1)不同,Deep Think 採用了深思熟慮的迭代推理過程。這使得模型在給出答案之前能夠「暫停」並評估多條邏輯路徑,模擬人類科學家所使用的緩慢、分析性的思考過程。

根據 Google DeepMind 的說法,這種架構是與活躍的科學家合作微調的,旨在解決「棘手」問題——即那些缺乏明確指導方針或單一正確解決方案的問題。在實際應用中,這意味著該模型在數據不完整或存在噪聲的環境中表現卓越,而這正是現實世界工程和實驗科學中常見的挫折。

核心架構能力:

  • 自我修正(Self-Correction): 在推理階段識別自身思維鏈中邏輯謬誤的能力。
  • 跨領域綜合(Cross-Domain Synthesis): 成功將理論物理學原理與實際工程約束相結合。
  • 視覺推理(Visual Reasoning): 將抽象的 2D 草圖轉換為可用於製造的複雜、物理上可行的 3D 模型。

衡量前所未有的突破

要理解此次發布的重要性,必須查看硬性指標。AI 社群長期以來一直面臨「基準測試飽和」的困境,模型能迅速精通 MMLU 等測試。Humanity's Last Exam (HLE) 的創立正是為了應對這一點,它彙整了數學、人文和自然科學領域中最困難的問題。

Gemini 3 Deep Think 在 HLE 上的表現,輔以在 ARC-AGI-2(一項通用智能和新穎模式識別測試)以及 Codeforces(一個競賽編程平台)上的破紀錄得分,顯得相得益彰。

下表總結了 Gemini 3 Deep Think 與本世代其他領向前沿模型的性能對比:

表:前沿基準測試性能對比

指標/基準測試|Gemini 3 Deep Think (升級版)|Gemini 3 Pro|主要競爭對手 (預計為 GPT-5 Pro)
---|---|----
人類最後測驗 (HLE)|48.4%|37.5%|~31.6%
ARC-AGI-2 (推理)|84.6%|~70%|N/A
Codeforces 評分 (Elo)|3455|~2900|~2800
國際物理奧林匹亞 (Intl. Physics Olympiad)|金牌水準|銀牌水準|N/A
國際化學奧林匹亞 (Intl. Chemistry Olympiad)|金牌水準|銅牌水準|N/A
CMT-Benchmark (物理)|50.5%|N/A|N/A

註:得分代表不使用外部工具的情況下的「pass@1」準確度,除非另有說明。競爭對手得分基於截至 2026 年 2 月可獲得的最新公開基準測試。

ARC-AGI-2 的 84.6% 得分對於開發者來說尤其值得注意。該基準測試由 ARC Prize Foundation 驗證,旨在測試 AI 適應其訓練數據中從未見過的全新任務的能力,有效地衡量了「流體智能(Fluid Intelligence)」而非記憶知識。

金牌與理論突破

除了標準化測試外,Google 還根據人類學術成就的最高標準驗證了該模型。升級後的 Deep Think 在 2025 International Physics Olympiad(國際物理奧林匹亞)和國際化學奧林匹亞的筆試部分均達到了金牌水準表現

這不僅僅是解決教科書上的問題。Google 強調了內部案例研究,在這些研究中,模型展現了在先進理論物理學方面的熟練程度,具體在 CMT-Benchmark 上獲得了 50.5% 的得分。這表明該模型可用於假設新的材料特性或驗證複雜的量子力學計算。

在一個展示的應用案例中,研究人員使用 Deep Think 來優化半導體晶體生長。該模型分析了歷史實驗數據,識別出先前被人類研究人員忽略的細微環境變量,並提出了一種改良的生長週期,從而實現了更高的純度產量。

從草圖到現實:實際工程

對於工程界而言,最切實的更新是 Deep Think 的多模態工程能力。Google 展示了一個工作流程,用戶上傳了一張機械零件的粗略手繪草圖。Deep Think 分析了圖紙,推斷出預期的物理約束和承載要求,並生成了一個精確的、可 3D 列印的文件。

這種「從草圖到產品(Sketch-to-Product)」的流水線展示了模型彌合抽象構思(創意)與物理約束(邏輯)之間鸿溝的能力。它要求 AI 不僅要理解圖紙「看起來」像什麼,還要理解物件在現實世界中必須如何「運作」。

可用性與企業整合

Google 正採取雙層方法部署此次升級,同時針對個人專業用戶和企業開發者。

  1. Google AI Ultra 訂閱者: 新的 Deep Think 模式即刻可在 Gemini 應用程式中使用。用戶可以針對需要高強度邏輯處理的查詢切換「Deep Think」選項。
  2. Gemini API (早期存取): Google 首次透過 API 向選定的企業和科學機構開放 Deep Think。對於構建第三方應用程式的 Creati.ai 讀者來說,這是一項至關重要的進展,因為它允許將這種「推理引擎」整合到自定義工作流程中——例如自動化代碼審查機器人或製藥研發流水線。

對 AI 生態系統的影響

升級版 Gemini 3 Deep Think 的發布強化了 2026 年的一個日益增長的趨勢:AI 模型分化為「快速、對話式代理」和「緩慢、深度推理者」。雖然前者(如 Gemini 3 Flash)專注於延遲和用戶體驗,但像 Deep Think 這樣的模型正在開闢作為非同步問題解決者的利基市場。

對於開發者而言,這需要架構上的改變。應用程式可能很快就會依賴「管理員-執行者(manager-worker)」模式,其中快速模型處理用戶交互,並將複雜、高風險的任務委託給 Deep Think。

隨著我們在 Creati.ai 進一步測試該模型,問題仍然存在:這些推理能力將如何轉化為開放式的創意任務?雖然基準測試側重於 STEM 領域,但在人類最後測驗中獲得 48.4% 分數所需的邏輯能力,暗示了一種細微差別的水平,這也可能徹底改變敘事結構和複雜內容的生成。

我們將持續關注 Gemini 3 Deep Think 觸及廣大開發者社群時的表現。目前,「金牌」標準已經確立。

精選
ThumbnailCreator.com
利用人工智慧快速輕鬆創建驚艷且專業的YouTube縮圖工具。
Video Watermark Remover
AI Video Watermark Remover – Clean Sora 2 & Any Video Watermarks!
AdsCreator.com
即時從任何網站 URL 生成精緻、符合品牌調性的廣告素材,適用於 Meta、Google 與 Stories。
Refly.ai
Refly.AI 讓非技術創作者能使用自然語言與視覺畫布自動化工作流程。
VoxDeck
引領視覺革命的AI簡報製作工具
BGRemover
輕鬆地在線移除圖像背景,使用SharkFoto BGRemover。
FineVoice
讓文字化為情感 — 在數秒內克隆、設計並創造富有情感的 AI 聲音。
Flowith
Flowith 是一個基於畫布的代理型工作空間,提供免費的 🍌Nano Banana Pro 和其他高效模型...
Skywork.ai
Skywork AI 是一款創新的工具,旨在利用 AI 提高生產力。
Qoder
Qoder 是一款由人工智能驅動的程式碼助理,自動化軟體專案的規劃、編碼和測試。
FixArt AI
FixArt AI 提供免費、無限制的影像與影片生成 AI 工具,免註冊。
Elser AI
一體化網頁創作工作室,將文字與影像轉換為動畫風格藝術、角色、聲音與短片。
Pippit
提升您的內容創造力,使用 Pippit 的強大 AI 工具!
SharkFoto
SharkFoto 是一個整合型的 AI 平台,用於高效率地創建與編輯影片、影像和音樂。
Funy AI
將你的幻想化為影片!從圖片或文字生成AI比基尼、親吻影片。體驗AI換衣功能。完全免費,無需註冊!
KiloClaw
託管的 OpenClaw 代理:一鍵部署,超過 500 款模型,安全的基礎設施,並為團隊和開發者提供自動化代理管理。
Diagrimo
Diagrimo 即時將文字轉換為可自訂的 AI 產生圖表和視覺圖像。
SuperMaker AI Video Generator
輕鬆打造驚艷的影片、音樂和圖像,使用SuperMaker。
AI Clothes Changer by SharkFoto
SharkFoto 的 AI Clothes Changer 可即時讓您虛擬試穿服裝,呈現逼真的合身度、材質與光影。
Yollo AI
與 AI 伴侶互動聊天。支援圖生片、AI 圖片生成功能。
AnimeShorts
輕鬆使用尖端的AI技術創作驚人的動漫短片。
HappyHorseAIStudio
適用於文字、圖片、參考素材和影片編輯的瀏覽器式 AI 影片生成器。
InstantChapters
即時生成吸引人的書籍章節。
NerdyTips
由 AI 驅動的足球預測平台,為全球聯賽提供以數據為基礎的比賽建議。
WhatsApp AI Sales
WABot 是一款 WhatsApp AI 銷售副駕駛,提供即時腳本、翻譯與意圖偵測。
happy horse AI
開源 AI 影片生成器,可從文字或圖片建立同步的影片與音訊。
insmelo AI Music Generator
以 AI 為驅動的音樂生成器,將提示、歌詞或上傳內容在約一分鐘內轉為精緻且免版稅的歌曲。
AI Video API: Seedance 2.0 Here
透過單一金鑰提供頂尖生成模型的統一 AI 影片 API,且成本更低。
wan 2.7-image
一款可控的 AI 圖像生成器,可精準控制臉部、配色、文字與視覺連貫性。
BeatMV
基於網頁的人工智慧平台,將歌曲轉換為電影感音樂影片並用 AI 創作音樂。
Kirkify
Kirkify AI 為迷因創作者即時生成帶有招牌霓虹故障美學的臉部置換爆紅迷因。
UNI-1 AI
UNI-1 是一個結合視覺推理與高保真影像合成的統一影像生成模型。
Text to Music
將文字或歌詞轉換為完整的錄音室級別歌曲,包含 AI 生成的人聲、樂器與多軌匯出。
Iara Chat
Iara Chat:一個由AI驅動的生產力和通信助手。
Wan 2.7
專業級 AI 影片模型,具精準動作控制與多視角一致性。
kinovi - Seedance 2.0 - Real Man AI Video
免費的 AI 影片產生器,輸出逼真人物畫面,無浮水印,並享有完整商業使用權。
Tome AI PPT
由 AI 驅動的簡報製作工具,可在數分鐘內生成、優化並匯出專業投影片。
Lyria3 AI
AI 音樂生成器,可即時從文字提示、歌詞與風格建立高保真、完整製作的歌曲。
Video Sora 2
Sora 2 AI 將文字或圖像在幾分鐘內轉換為短篇、物理準確的社交及電商影片。
Atoms
由 AI 驅動的平台,使用多智能體自動化在數分鐘內建立全端應用程式與網站,無需編碼。
AI Pet Video Generator
使用 AI 驅动的範本與即時 HD 匯出,從照片建立可病毒式傳播且便於分享的寵物影片,適用於社交平台。
Ampere.SH
免費託管的 OpenClaw 主機。使用 $500 的 Claude 點數,60 秒內部署 AI 代理。
Paper Banana
以 AI 為動力的工具,可即時將學術文字轉換為已達投稿品質的方法圖與精確的統計圖表。
Hitem3D
Hitem3D 使用 AI 將單張影像轉換為高解析度、可投入生產的 3D 模型。
HookTide
由 AI 驅動的 LinkedIn 成長平台,學習你的語氣以產生內容、互動並分析表現。
GenPPT.AI
由 AI 驅動的簡報製作工具,能在數分鐘內建立、美化並匯出專業的 PowerPoint 簡報,包含講者備註與圖表。
Create WhatsApp Link
免費的 WhatsApp 連結與 QR 產生器,具備分析、品牌連結、路由與多代理聊天功能。
Palix AI
為創作者提供的一體化 AI 平台,使用統一點數生成影像、影片和音樂。
Gobii
Gobii 讓團隊建立全天候(24/7)自主的數位工作者,以自動化網路研究與例行工作。
Seedance 20 Video
Seedance 2 是一款多模態的 AI 影片生成器,提供角色一致性、多鏡頭敘事與 2K 原生音訊。
Veemo - AI Video Generator
Veemo AI 是一個整合型平台,可從文字或圖片快速生成高品質的影片與影像。
AI FIRST
透過自然語言自動化研究、瀏覽器任務、網頁擷取與檔案管理的對話式 AI 助手。
WhatsApp Warmup Tool
由 AI 驅動的 WhatsApp 預熱工具,可自動化大量發送訊息並防止帳號被封。
AirMusic
AirMusic.ai 可從文字提示生成高品質的 AI 音樂曲目,支援風格與情緒自訂,並能匯出分軌(stems)。
GLM Image
GLM Image 結合自回歸與擴散混合模型,生成高保真 AI 圖像並具備卓越的文字渲染能力。
Manga Translator AI
AI Manga Translator 即時在線將漫畫影像翻譯為多種語言。
TextToHuman
免費的 AI 人性化工具,能即時將 AI 文字重寫為自然、類人的寫作風格。無需註冊。
ainanobanana2
Nano Banana 2 在 4–6 秒內產生專業品質的 4K 影像,具備精準的文字呈現與主題一致性。
Free AI Video Maker & Generator
免費 AI 視頻製作與生成器 – 無限次使用,無需註冊
Remy - Newsletter Summarizer
Remy通過將電子郵件摘要成易於理解的洞察,自動化新聞稿管理。
Telegram Group Bot
TGDesk 是一款多合一的 Telegram 群組機器人,用於擷取潛在客戶、提升互動並擴展社群。

Google 升級 Gemini 3 Deep Think,具備金牌級科學推理能力

Google 推出對 Gemini 3 Deep Think 的重大升級,在「人類最後考試」中取得 48.4% 的成績,並在國際奧林匹亞挑戰中達到金牌級表現。