
這是行動人工智慧(AI)的一個轉折點,Google 正式宣佈其 Gemini AI 助理現在可以在 Android 裝置上自主執行複雜的多步驟任務。這項於 2026 年 2 月 25 日揭曉的重大更新,標誌著行動 AI 從被動的資訊檢索轉向主動的「代理式」(agentic)參與。這些新功能包括端對端處理外送訂單和叫車服務,將在廣泛推廣之前,先在全新發佈的 Samsung Galaxy S26 系列和 Google 自家的 Pixel 10 系列上作為早期預覽版獨家首發。
這項發展代表了 Google「賈維斯專案」(Project Jarvis)和「阿斯特拉專案」(Project Astra)計畫的頂點,終於將真正有用且主動的數位代理承諾帶入消費者的口袋。透過利用進階視覺處理和深度作業系統整合,Gemini 現在可以像人類用戶一樣操作第三方應用程式介面,有效地彌補了意圖與行動之間的差距。
多年來,業界一直承諾 AI 將「做事」而不僅僅是「知事」。隨著這次更新,Google 正在兌現這一承諾。新功能允許用戶下達廣泛且高層次的指令,例如「在 DoorDash 訂購我平常週五晚上的晚餐」或「為兩個人預訂去機場的車」。
Gemini 現在不再僅僅是開啟應用程式或提供連結,而是自主執行以下操作:
這種「人機協同」(Human-in-the-loop)的設計理念解決了圍繞 代理式 AI 的主要擔憂:失去控制。透過處理繁瑣的導覽,同時將最終決策權留給用戶,Google 在便利與安全之間取得了平衡。
Google 與 Samsung 之間的戰略合作夥伴關係持續深化,Galaxy S26 系列成為這些進階功能的主要首發載體。在 Samsung Unpacked 2026 活動期間,高層展示了整合的流暢性,展示了 Galaxy S26 的 NPU(神經網路處理單元)如何與 Gemini 基於雲端的推理協同工作,以極低的延遲處理即時應用程式導覽。
Google 發言人表示:「這不僅僅是一個應用程式更新;它是對作業系統如何服務用戶的根本性重構。透過將 Samsung 的卓越硬體與我們的 Gemini 3.0 Pro 模型相結合,我們正在傳統應用程式生態系統之上創建一個『AI OS』層。」
雖然該功能同時在 Pixel 10 上推出,但對 Galaxy S26 的強調凸顯了 Google 依賴 Samsung 龐大的用戶基礎來推動代理式行為的主流普及。
支撐這一突破的技術依賴於大型行動模型(Large Action Models, LAMs)和視覺定位的結合。與需要開發者為 AI 構建特定「掛鉤」(hooks)的傳統 API 整合不同,Gemini 的新功能是以視覺為主的。它能「看見」螢幕。
「虛擬視窗」(Virtual Window)架構:
為了防止 AI 劫持用戶的使用畫面,自動化操作發生在「虛擬視窗」中——這是一個在背景運行的沙盒環境。用戶可以繼續瀏覽 Instagram 或查看電子郵件,而 Gemini 則在背景隱形地操作 Uber 應用程式。螢幕頂部的動態通知島會讓用戶了解代理的進度(例如「正在選擇車輛...」、「正在檢查購物車...」)。
支援的服務:
在發佈時,多步驟自動化已針對一組特定的高頻應用程式進行了優化,主要集中在隨選經濟領域:
Google 已承諾在 2026 年第三季之前將此相容性擴展到旅遊預訂和日曆管理。
將應用程式的控制權和購買力交給 AI 需要巨大的信任。Google 實施了多層安全措施來降低風險。「虛擬視窗」與作業系統的其他部分隔離,防止 AI 訪問特定任務之外的數據。此外,未經用戶明確的生物辨識身份驗證(指紋或面部解鎖),AI 被禁止完成支付。
然而,批評者指出,這種視覺方法涉及 AI 分析用戶私人應用程式的截圖。Google 保證,得益於 Galaxy S26 和 Pixel 10 進階的本地處理能力,這種處理主要在裝置上完成,雲端僅驗證匿名化的行動權杖。
這一宣佈使 Google 在部署面向消費者的代理式 AI 競賽中牢牢領先於競爭對手。雖然 OpenAI 已透過其桌面模型展示了類似的「電腦使用」(computer use)能力,但其行動端的實施仍處於早期階段。同樣,Apple 的 Apple Intelligence 專注於透過 API(App Intents)進行深度的 Siri 整合,這需要開發者的採用。Google 的視覺方法使其能夠繞過對開發者特定更新的需求,潛在地使其能更快地與更廣泛的舊版應用程式相容。
為了理解這次轉變的幅度,我們可以將前一代助理的工作流程與新的代理式 Gemini 進行比較。
功能比較:工作流程效率
| 任務 | 傳統語音助理 (2024) | 代理式 Gemini (2026) |
|---|---|---|
| 指令 | 「向 Thai Spice 訂餐」 | 「在 DoorDash 上向 Thai Spice 訂購我平常點的泰式炒河粉(Pad Thai)。」 |
| 行動 | 開啟 DoorDash 應用程式或進行 Google 搜尋。 | 在背景開啟 DoorDash,導覽選單,將品項加入購物車。 |
| 用戶努力度 | 高:用戶必須手動捲動、選擇品項並結帳。 | 低:用戶等待通知,查看摘要,點擊「確認」。 |
| 互動性 | 僅用語音轉文字。 | 視覺導覽、點擊按鈕、填寫表格。 |
| 多工處理 | 互動期間阻塞螢幕。 | 在背景運行;用戶繼續處理其他任務。 |
| 付款 | 用戶在應用程式內手動驗證。 | 對預先準備好的購物車進行生物辨識審核。 |
隨著 2026 年的推进,「智慧型手機」的定義正在向「智慧伴侶」轉變。Gemini 自動化處理諸如訂餐或叫車等平凡物流的能力僅僅是開端。行業分析師預測,到今年年底,這項技術將擴展到複雜的跨應用程式工作流程,例如「規劃約會之夜」,屆時 AI 將自主透過 OpenTable 預訂餐廳座位,透過 Fandango 購買電影票,並安排車程以配合時間。
目前,Galaxy S26 和 Pixel 10 的 Android 用戶正在搶先體驗手機為他們服務,而不是讓他們為手機服務的未來。