
OpenAI 正式發佈了 GPT-5.4,這是其前沿模型系列的一次里程碑式更新,從根本上將領域從對話式 AI(Conversational AI)轉向自主代理(Autonomous Agency)。今日宣佈的該模型引入了原生電腦控制功能(Native computer control capabilities)、高達 100 萬個 Token 的上下文視窗(Context window),以及與前代 GPT-5 相比經證實的 33% 幻覺減少(Reduction in hallucinations)。
對於在 Creati.ai 關注 AI 行業的創意與技術專業人士來說,GPT-5.4 代表了我們一直在等待的「缺失環節」——這是一個不僅僅是生成文本或代碼的模型,而是能以空前的可靠性直接在用戶裝置上主動執行複雜工作流的模型。
GPT-5.4 的核心功能無疑是其直接與電腦操作系統交互的能力。不同於以往依賴脆弱的 API 整合或文本轉動作翻譯器的版本,GPT-5.4 擁有**原生電腦控制**。這使得模型能夠像人類一樣查看螢幕、操作游標、在虛擬鍵盤上打字,並導航複雜的軟體介面。
根據 Creati.ai 審閱的技術文件,這項能力是結合了新一代的人類回饋強化學習(Reinforcement Learning from Human Feedback,RLHF)以及 OpenAI 稱為「動作空間推理」(Action-Space Reasoning)的新型專有方法訓練而成。這使得模型能夠理解使用者介面(UI)元素的語義背景,使其對可能改變按鈕或選單視覺佈局的軟體更新具有韌性——這是以往代理工具常見的失敗點。
關鍵能力包括:
雖然 Google 的 Gemini 系列此前推動了上下文視窗的邊界,但 OpenAI 現在為企業效能平準了競爭場域。GPT-5.4 配備了標準的 100 萬 Token 上下文視窗,有效地消除了絕大多數專業使用場景中的記憶限制。
這種擴展允許用戶在單一對話中加載整個代碼庫、龐大的法律調查檔案或長篇文學系列的完整情節設定集。在內部基準測試中,OpenAI 聲稱該模型在「大海撈針」(Needle in a Haystack)檢索測試中達到了 99.9% 的準確率,即使信息埋藏在一百萬個 Token 的噪音中間。
對於 Creati.ai 的讀者來說,這意味著我們與大型文件交互方式的根本性變化。你現在可以上傳一份 500 頁的技術手冊,並要求模型「導航到第 40 頁描述的設置選單,並將這些更改應用到我實際的系統中」,縮小了知識與行動之間的差距。
對於企業採用而言,最重要的更新或許是可靠性指標。OpenAI 報告稱,與 GPT-5 基礎模型相比,幻覺減少了 33%。這一進步歸功於推理過程中的新型「驗證層」(Verification Layer),模型在輸出回應之前,會根據已知事實對其自身的邏輯進行實質上的「雙重檢查」。
準確性的這一飛躍對於模型的新代理能力至關重要。當 AI 被授予對滑鼠和鍵盤的控制權時,出錯的成本——例如刪除錯誤的文件或發送電子郵件給錯誤的聯絡人——顯著高於基於文本的錯誤。
性能比較:GPT-5.4 vs. 前代產品
為了直觀展示代際飛躍,我們將關鍵規格彙編如下:
規格|GPT-4o (2024 年底)|GPT-5 (2025 年)|GPT-5.4 (2026 年)
---|---|---
上下文視窗|128k Tokens|200k Tokens|100 萬 Tokens
代理能力|基於文本的工具調用|有限的瀏覽功能|原生電腦控制
幻覺率|基準值|較 4o 減少 15%|較 GPT-5 減少 33%
模態|多模態(靜態)|多模態(影片)|主動 UI 交互
權力越大,責任越大,強大的安全機制必不可少。OpenAI 在推出 GPT-5.4 的同時引入了新的「代理權限協定」(Agentic Permissions Protocol,APP)。該協定確保模型在沒有明確、逐步的人工確認下,無法採取高風險行動——例如授權付款、刪除系統文件或在社群媒體上發文。
安全研究人員對這種方法表示讚賞,指出它平衡了自主性的效率與人工監督(Human-in-the-loop)的安全性。在設置過程中,用戶可以定義「安全區域」(例如特定的文件夾或應用程式),讓模型在其中自由運行,以及「受限區域」,其中每一次點擊都需要批准。
GPT-5.4 的發佈標誌著**代理化 AI(Agentic AI)**從實驗性研究走向可部署產品的成熟。對於軟體即服務(SaaS)行業來說,這是一個顛覆性事件;許多僅為橋接 AI 與舊版軟體而構建的工具現在可能會變得過時,因為模型本身成為了通用的橋樑。
OpenAI 已宣佈 GPT-5.4 將從本週開始向 ChatGPT Plus 和 Team 用戶推出,開發者的 API 訪問將分階段開放以確保電網穩定性。企業客戶將立即獲得 100 萬 Token 的上下文能力,以促進內部數據處理。
當我們在 Creati.ai 測試 GPT-5.4 時,我們將專注於其在創意工作流中的應用。它真的能獨立編輯影片時間軸嗎?它能重組混亂的作家研究文件夾嗎?早期跡象表明答案是肯定的,讓我們向 AI 的最終承諾又邁進了一步:一個真正的數位協作者。