AI News

「深度工作(Deep Work)」的新標準

人工智慧(Artificial Intelligence)的格局再次發生變化,標誌著企業和專業 AI 應用的一個決定性時刻。Anthropic 正式發布了 Claude Opus 4.6,這款模型不僅挑戰、而且有效地取代了 Google 的 Gemini 3 Flash 在複雜、高風險專業工作領域的地位。雖然 Google 在 2026 年初憑藉速度和多模態流動性主導了對話,但 Anthropic 的最新版本加倍投入了開發者和企業最關心的領域:推理深度、可靠性和代理能力(Agentic capability)。

在過去的幾個月裡,AI 行業一直由 Google 的 Gemini 生態系統與 OpenAI 的 GPT 系列之間的「拉鋸戰」所定義,其中 Gemini 3 Flash 最近憑藉其速度和海量上下文處理的結合而佔據榜首。然而,Claude Opus 4.6 的發布改變了那些依賴 AI 進行認知勞動的組織的考量。

來自早期採用者的報告和基準測試分析證實,雖然 Gemini 3 Flash 在速度和多模態集成方面仍是一個奇蹟——能以前所未有的輕鬆處理影片和音訊——但 Claude Opus 4.6 已奪得了「深度工作(Deep Work)」的桂冠。兩者的區別至關重要:Gemini 的角色是高速助手,而 Opus 4.6 的功能則像是一名勝任的初級工程師或分析師,展現出在長周期內規劃、執行和自我修正的頑強能力。

業界的反應非常迅速。PromptLayer 團隊在詳細評論中指出:「Opus 4.6 是『能把事辦成』的 Claude。」這種觀點在開發者群體中得到了共鳴,該模型處理龐大程式碼庫和複雜法律文件而「不偏離主題」的能力,為實用性樹立了新的基準。

基準測試:Opus 4.6 讓 Gemini 望塵莫及

關於 Claude Opus 4.6 最具說服力的論點在於原始性能數據,特別是在模擬現實世界 電腦使用(computer use) 和編碼任務而非抽象問答的基準測試中。

兩項特定的基準測試脫穎而出:Terminal-Bench 2.0OSWorld。Terminal-Bench 衡量 AI 處理複雜編碼環境和命令行界面的能力——本質上是它作為軟體工程師的表現。 OSWorld 則測試模型操作電腦操作系統以完成任務的能力。

在這兩個領域,Opus 4.6 都建立了領先地位。在 Terminal-Bench 2.0 上,該模型獲得了 65.4% 的分數,較其前代產品有了重大飛躍,並與 Gemini 3 Flash 等競爭模型拉開了明顯差距。更令人印象深刻的是它在 OSWorld 上的 72.7% 得分,這表明 Anthropic 在「電腦使用」方面取得了巨大進步——即 AI 自主導覽界面、點擊按鈕和管理應用程序的能力。

以下是 Claude Opus 4.6 與當前前沿模型在關鍵指標上的對比分析:

關鍵性能指標對比(2026 年 2 月)

基準測試 / 指標 Claude Opus 4.6 Gemini 3 Flash GPT-5.2 Claude Opus 4.5
Terminal-Bench 2.0(編碼代理) 65.4% ~58% 59.8% 59.8%
OSWorld(電腦使用) 72.7% <70% N/A <60%
GDPval-AA(經濟任務 Elo) 1606 N/A 1462 1416
ARC-AGI v2(推理) 68.8% N/A N/A 37.6%
MRCR v2(長上下文檢索) 76% 18.5%

數據顯示出一個明顯的趨勢:對於需要「代理能力(Agency)」——即獨立採取行動解決問題的能力——的任務,Opus 4.6 目前無人能敵。ARC-AGI v2 分數的大幅提升(從上一版本的 37.6% 提高到 68.8%)表明模型在處理其訓練數據中未曾見過的全新、多步驟推理問題方面發生了質的轉變。

超越原始 Token:一致性的架構

Claude Opus 4.6 最顯著的技術成就之一不僅在於其上下文視窗(Context window)的大小,還在於它如何管理這些上下文。Gemini 3 Flash 和 Opus 4.6 都擁有 100 萬個 token 的上下文視窗,理論上允許它們攝取海量數據。然而,純粹的容量往往會導致「遺忘中間內容(lost in the middle)」的現象,即模型會忘記埋藏在文本深處的細節。

Anthropic 引入了一項名為 上下文壓縮(Context Compaction) 的功能。這種機制會自動總結較舊的對話歷史,以在長時間的對話中保持連貫性。該模型並非簡單地將上下文視窗視為原始緩衝區,而是主動管理其記憶,確保在長編碼環節或法律審查開始時提供的關鍵指令,不會在用戶達到 500,000 個 token 標記時因幻覺而消失。

PromptLayer 報告的內部測試顯示,在 MRCR v2 檢索測試中,Opus 4.6 達到了 76% 的準確度,較 Opus 4.5 的 18.5% 有了驚人的提升。這種可靠性使得 100 萬 token 的視窗在企業應用中具有實際用途,例如審計財務記錄或重構舊有程式碼庫——在這些任務中,單個細節的缺失都可能是災難性的。

代理能力:從聊天機器人到協作者

Opus 4.6 的發布恰逢開發者與大型語言模型(LLM)互動方式的廣泛轉變。我們正從「提示工程(Prompt engineering)」轉向「代理編排(Agent orchestration)」,而 Anthropic 專門針對這一未來調整了該模型。

一項關鍵創新是引入了 代理團隊(Agent Teams)。此功能允許一個主導 AI 代理拆解一個複雜專案(例如構建一個全端 Web 應用程序),並將子任務委派給並行運行的其他模型實例。與以往單個模型嘗試線性處理任務所有方面不同,代理團隊模仿了人類的工作流程,由一名經理協調專業人員。

這種能力由 適應性思考(Adaptive Thinking) 模式 驅動,該模式取代了舊的「擴展思考」功能。用戶現在可以將推理強度從「低」調整到「最高」。對於簡單的查詢,模型會立即響應;對於複雜的架構決策,它可以暫停、進行更深層次的「思考」,並在編寫第一行程式碼之前生成一個更穩健的計劃。

使用該模型的開發者報告稱,Opus 4.6 比其競爭對手更加主動。它不會等待下一個提示,而是識別必要的子任務,提出澄清性問題,並推動專案完成。一位早期測試者指出,該模型在第一次嘗試時就解決了 87.5% 的編碼任務,而之前的版本僅為 62.5%。

企業和開發者生態系統

在對高可靠性 AI 有需求的各大科技巨頭中,採用速度非常快。NotionGitHubReplit 都是首批發布合作夥伴,將 Opus 4.6 整合到了其核心產品中。

  • Notion 利用它驅動一個表現「更像協作者而非工具」的助手。
  • GitHub Copilot 在上下文感知至關重要的複雜、多步驟程式碼生成中使用該模型。
  • Replit 利用其代理規劃能力幫助用戶在雲端 IDE 環境中構建軟體。

除了編碼,Anthropic 還在積極瞄準通用業務工作流。此次更新包括對 Claude in Excel 的重大增強,允許進行自然語言試算表生成和複雜的數據分析,足以媲美人類數據分析師。此外,Claude in PowerPoint 的預覽展示了模型生成投影片大綱和建議視覺化的能力,直接攻擊微軟 Copilot 在辦公生產力領域的堡壘。

安全專家也在 Opus 4.6 中找到了一個強大的盟友。在一次審計能力的演示中,Anthropic 團隊使用該模型掃描開源倉庫,成功識別出超過 500 個先前未知的嚴重漏洞。僅憑這項能力就足以讓許多網路安全公司支付該模型的費用。

定價與可用性

儘管性能大幅提升,Anthropic 的標準層級 API 定價仍保持競爭力:

  • 輸入(Input):每百萬 token 5 美元
  • 輸出(Output):每百萬 token 25 美元

然而,對於使用超過 200k token 擴展上下文能力的用戶,將面臨溢價($10/$37.50),這反映了管理海量活動記憶的計算強度。對於個人「Pro」用戶,訂閱費用維持在每月 20 美元,但由於模型增加了每個 token 的計算量,新推理功能的重度用戶可能會比以前更快達到訊息上限。

權衡:速度 vs. 深度

雖然 Claude Opus 4.6 在專業任務上取得了勝利,但也並非沒有權衡。早期評論的主要批評是其在創意寫作風格上的退步。用於磨練模型邏輯和編碼能力的強化學習技術似乎削弱了其文筆。

追求「奇幻故事」或高度風格化創意內容的用戶可能會發現,與 Claude 4.5 或 Gemini 生動的輸出相比,Opus 4.6 的輸出「更簡潔、更實事求是」。對於創意作家來說,舊款模型或競爭對手可能仍是更好的選擇。

此外還有速度因素。Gemini 3 Flash 名副其實,提供近乎實時的響應和原生影片處理能力,而 Opus 4.6 並未嘗試在這些方面匹配。如果使用場景需要分析實況影片流或低延遲聊天,Google 仍然是更優的選擇。

結論:分層化的市場

Claude Opus 4.6 的發布標誌著 AI 市場正向不同的專業化領域趨於成熟。我們不再尋找一個「統治所有領域的模型」,相反,我們看到了分層化:Google Gemini 主導高速、多模態的消費者領域,而 Anthropic 的 Claude 則牢牢確立了自己作為深度、認知和專業工作首選引擎的地位。

對於 Creati.ai 的讀者——開發者、工程師和企業領袖——選擇正變得越來越清晰。如果您的工作流涉及複雜的問題解決、大規模編碼或數據密集型分析,Claude Opus 4.6 就是您工具箱中新的必備工具。它可能寫不出最富有詩意的詩篇,但它很可能會編寫出驅動發布該詩篇平台的程式碼。

精選
ThumbnailCreator.com
利用人工智慧快速輕鬆創建驚艷且專業的YouTube縮圖工具。
Video Watermark Remover
AI Video Watermark Remover – Clean Sora 2 & Any Video Watermarks!
AdsCreator.com
即時從任何網站 URL 生成精緻、符合品牌調性的廣告素材,適用於 Meta、Google 與 Stories。
BGRemover
輕鬆地在線移除圖像背景,使用SharkFoto BGRemover。
Refly.ai
Refly.AI 讓非技術創作者能使用自然語言與視覺畫布自動化工作流程。
VoxDeck
引領視覺革命的AI簡報製作工具
Qoder
Qoder 是一款由人工智能驅動的程式碼助理,自動化軟體專案的規劃、編碼和測試。
Skywork.ai
Skywork AI 是一款創新的工具,旨在利用 AI 提高生產力。
FineVoice
讓文字化為情感 — 在數秒內克隆、設計並創造富有情感的 AI 聲音。
Flowith
Flowith 是一個基於畫布的代理型工作空間,提供免費的 🍌Nano Banana Pro 和其他高效模型...
FixArt AI
FixArt AI 提供免費、無限制的影像與影片生成 AI 工具,免註冊。
Elser AI
一體化網頁創作工作室,將文字與影像轉換為動畫風格藝術、角色、聲音與短片。
Pippit
提升您的內容創造力,使用 Pippit 的強大 AI 工具!
SharkFoto
SharkFoto 是一個整合型的 AI 平台,用於高效率地創建與編輯影片、影像和音樂。
Funy AI
將你的幻想化為影片!從圖片或文字生成AI比基尼、親吻影片。體驗AI換衣功能。完全免費,無需註冊!
KiloClaw
託管的 OpenClaw 代理:一鍵部署,超過 500 款模型,安全的基礎設施,並為團隊和開發者提供自動化代理管理。
Diagrimo
Diagrimo 即時將文字轉換為可自訂的 AI 產生圖表和視覺圖像。
SuperMaker AI Video Generator
輕鬆打造驚艷的影片、音樂和圖像,使用SuperMaker。
AI Clothes Changer by SharkFoto
SharkFoto 的 AI Clothes Changer 可即時讓您虛擬試穿服裝,呈現逼真的合身度、材質與光影。
Yollo AI
與 AI 伴侶互動聊天。支援圖生片、AI 圖片生成功能。
AnimeShorts
輕鬆使用尖端的AI技術創作驚人的動漫短片。
InstantChapters
即時生成吸引人的書籍章節。
NerdyTips
由 AI 驅動的足球預測平台,為全球聯賽提供以數據為基礎的比賽建議。
WhatsApp AI Sales
WABot 是一款 WhatsApp AI 銷售副駕駛,提供即時腳本、翻譯與意圖偵測。
happy horse AI
開源 AI 影片生成器,可從文字或圖片建立同步的影片與音訊。
AI Video API: Seedance 2.0 Here
透過單一金鑰提供頂尖生成模型的統一 AI 影片 API,且成本更低。
insmelo AI Music Generator
以 AI 為驅動的音樂生成器,將提示、歌詞或上傳內容在約一分鐘內轉為精緻且免版稅的歌曲。
wan 2.7-image
一款可控的 AI 圖像生成器,可精準控制臉部、配色、文字與視覺連貫性。
BeatMV
基於網頁的人工智慧平台,將歌曲轉換為電影感音樂影片並用 AI 創作音樂。
Kirkify
Kirkify AI 為迷因創作者即時生成帶有招牌霓虹故障美學的臉部置換爆紅迷因。
Text to Music
將文字或歌詞轉換為完整的錄音室級別歌曲,包含 AI 生成的人聲、樂器與多軌匯出。
UNI-1 AI
UNI-1 是一個結合視覺推理與高保真影像合成的統一影像生成模型。
Iara Chat
Iara Chat:一個由AI驅動的生產力和通信助手。
Wan 2.7
專業級 AI 影片模型,具精準動作控制與多視角一致性。
kinovi - Seedance 2.0 - Real Man AI Video
免費的 AI 影片產生器,輸出逼真人物畫面,無浮水印,並享有完整商業使用權。
Tome AI PPT
由 AI 驅動的簡報製作工具,可在數分鐘內生成、優化並匯出專業投影片。
Lyria3 AI
AI 音樂生成器,可即時從文字提示、歌詞與風格建立高保真、完整製作的歌曲。
Video Sora 2
Sora 2 AI 將文字或圖像在幾分鐘內轉換為短篇、物理準確的社交及電商影片。
Atoms
由 AI 驅動的平台,使用多智能體自動化在數分鐘內建立全端應用程式與網站,無需編碼。
AI Pet Video Generator
使用 AI 驅动的範本與即時 HD 匯出,從照片建立可病毒式傳播且便於分享的寵物影片,適用於社交平台。
Ampere.SH
免費託管的 OpenClaw 主機。使用 $500 的 Claude 點數,60 秒內部署 AI 代理。
Paper Banana
以 AI 為動力的工具,可即時將學術文字轉換為已達投稿品質的方法圖與精確的統計圖表。
Hitem3D
Hitem3D 使用 AI 將單張影像轉換為高解析度、可投入生產的 3D 模型。
HookTide
由 AI 驅動的 LinkedIn 成長平台,學習你的語氣以產生內容、互動並分析表現。
GenPPT.AI
由 AI 驅動的簡報製作工具,能在數分鐘內建立、美化並匯出專業的 PowerPoint 簡報,包含講者備註與圖表。
Create WhatsApp Link
免費的 WhatsApp 連結與 QR 產生器,具備分析、品牌連結、路由與多代理聊天功能。
Palix AI
為創作者提供的一體化 AI 平台,使用統一點數生成影像、影片和音樂。
Gobii
Gobii 讓團隊建立全天候(24/7)自主的數位工作者,以自動化網路研究與例行工作。
Seedance 20 Video
Seedance 2 是一款多模態的 AI 影片生成器,提供角色一致性、多鏡頭敘事與 2K 原生音訊。
Veemo - AI Video Generator
Veemo AI 是一個整合型平台,可從文字或圖片快速生成高品質的影片與影像。
AI FIRST
透過自然語言自動化研究、瀏覽器任務、網頁擷取與檔案管理的對話式 AI 助手。
WhatsApp Warmup Tool
由 AI 驅動的 WhatsApp 預熱工具,可自動化大量發送訊息並防止帳號被封。
AirMusic
AirMusic.ai 可從文字提示生成高品質的 AI 音樂曲目,支援風格與情緒自訂,並能匯出分軌(stems)。
GLM Image
GLM Image 結合自回歸與擴散混合模型,生成高保真 AI 圖像並具備卓越的文字渲染能力。
Manga Translator AI
AI Manga Translator 即時在線將漫畫影像翻譯為多種語言。
TextToHuman
免費的 AI 人性化工具,能即時將 AI 文字重寫為自然、類人的寫作風格。無需註冊。
ainanobanana2
Nano Banana 2 在 4–6 秒內產生專業品質的 4K 影像,具備精準的文字呈現與主題一致性。
Free AI Video Maker & Generator
免費 AI 視頻製作與生成器 – 無限次使用,無需註冊
Remy - Newsletter Summarizer
Remy通過將電子郵件摘要成易於理解的洞察,自動化新聞稿管理。
Telegram Group Bot
TGDesk 是一款多合一的 Telegram 群組機器人,用於擷取潛在客戶、提升互動並擴展社群。

Anthropic 的 Claude Opus 4.6 在專業 AI 任務上勝過 Google Gemini

Claude Opus 4.6 在 Terminal-Bench 上取得 65.4%、在 OSWorld 上取得 72.7% 的突破性表現,在真實工作應用中超越了 Gemini 3 Flash。