Gemini AI 現在可以在 Android 上自動化多步驟任務，包括訂餐和預約搭乘

Google Gemini 的演進：Android 平台迎來自主任務執行（Autonomous Task Execution）

這是行動人工智慧（AI）的一個轉折點，Google 正式宣佈其 Gemini AI 助理現在可以在 Android 裝置上自主執行複雜的多步驟任務。這項於 2026 年 2 月 25 日揭曉的重大更新，標誌著行動 AI 從被動的資訊檢索轉向主動的「代理式」（agentic）參與。這些新功能包括端對端處理外送訂單和叫車服務，將在廣泛推廣之前，先在全新發佈的 Samsung Galaxy S26 系列和 Google 自家的 Pixel 10 系列上作為早期預覽版獨家首發。

這項發展代表了 Google「賈維斯專案」（Project Jarvis）和「阿斯特拉專案」（Project Astra）計畫的頂點，終於將真正有用且主動的數位代理承諾帶入消費者的口袋。透過利用進階視覺處理和深度作業系統整合，Gemini 現在可以像人類用戶一樣操作第三方應用程式介面，有效地彌補了意圖與行動之間的差距。

從聊天機器人到代理：「代理式」（Agentic）轉型

多年來，業界一直承諾 AI 將「做事」而不僅僅是「知事」。隨著這次更新，Google 正在兌現這一承諾。新功能允許用戶下達廣泛且高層次的指令，例如「在 DoorDash 訂購我平常週五晚上的晚餐」或「為兩個人預訂去機場的車」。

Gemini 現在不再僅僅是開啟應用程式或提供連結，而是自主執行以下操作：

應用程式啟動與導覽： 它會在安全的背景虛擬視窗中開啟相關應用程式（例如 Uber、GrubHub 或 DoorDash）。
上下文互動： 利用電腦視覺和螢幕分析，它能識別按鈕、選單和文字欄位。
決策制定： 它根據用戶歷史記錄或特定的口頭指示選擇品項，引導結帳流程，並選擇付款方式。
人工驗證： 至關重要的一點是，它會在最後的確認畫面暫停，向用戶顯示摘要通知以進行最終的「核准」點擊，確保不會發生未經授權的交易。

這種「人機協同」（Human-in-the-loop）的設計理念解決了圍繞代理式 AI 的主要擔憂：失去控制。透過處理繁瑣的導覽，同時將最終決策權留給用戶，Google 在便利與安全之間取得了平衡。

Samsung Galaxy S26 與 Pixel 10：首發載體

Google 與 Samsung 之間的戰略合作夥伴關係持續深化，Galaxy S26 系列成為這些進階功能的主要首發載體。在 Samsung Unpacked 2026 活動期間，高層展示了整合的流暢性，展示了 Galaxy S26 的 NPU（神經網路處理單元）如何與 Gemini 基於雲端的推理協同工作，以極低的延遲處理即時應用程式導覽。

Google 發言人表示：「這不僅僅是一個應用程式更新；它是對作業系統如何服務用戶的根本性重構。透過將 Samsung 的卓越硬體與我們的 Gemini 3.0 Pro 模型相結合，我們正在傳統應用程式生態系統之上創建一個『AI OS』層。」

雖然該功能同時在 Pixel 10 上推出，但對 Galaxy S26 的強調凸顯了 Google 依賴 Samsung 龐大的用戶基礎來推動代理式行為的主流普及。

技術解析：它是如何運作的

支撐這一突破的技術依賴於大型行動模型（Large Action Models, LAMs）和視覺定位的結合。與需要開發者為 AI 構建特定「掛鉤」（hooks）的傳統 API 整合不同，Gemini 的新功能是以視覺為主的。它能「看見」螢幕。

「虛擬視窗」（Virtual Window）架構：
為了防止 AI 劫持用戶的使用畫面，自動化操作發生在「虛擬視窗」中——這是一個在背景運行的沙盒環境。用戶可以繼續瀏覽 Instagram 或查看電子郵件，而 Gemini 則在背景隱形地操作 Uber 應用程式。螢幕頂部的動態通知島會讓用戶了解代理的進度（例如「正在選擇車輛...」、「正在檢查購物車...」）。

支援的服務：
在發佈時，多步驟自動化已針對一組特定的高頻應用程式進行了優化，主要集中在隨選經濟領域：

叫車服務： Uber、Lyft
外送服務： DoorDash、GrubHub、Uber Eats
雜貨代購： Instacart (Beta)

Google 已承諾在 2026 年第三季之前將此相容性擴展到旅遊預訂和日曆管理。

隱私與安全性影響

將應用程式的控制權和購買力交給 AI 需要巨大的信任。Google 實施了多層安全措施來降低風險。「虛擬視窗」與作業系統的其他部分隔離，防止 AI 訪問特定任務之外的數據。此外，未經用戶明確的生物辨識身份驗證（指紋或面部解鎖），AI 被禁止完成支付。

然而，批評者指出，這種視覺方法涉及 AI 分析用戶私人應用程式的截圖。Google 保證，得益於 Galaxy S26 和 Pixel 10 進階的本地處理能力，這種處理主要在裝置上完成，雲端僅驗證匿名化的行動權杖。

競爭格局：爭奪「超級代理」的競賽

這一宣佈使 Google 在部署面向消費者的代理式 AI 競賽中牢牢領先於競爭對手。雖然 OpenAI 已透過其桌面模型展示了類似的「電腦使用」（computer use）能力，但其行動端的實施仍處於早期階段。同樣，Apple 的 Apple Intelligence 專注於透過 API（App Intents）進行深度的 Siri 整合，這需要開發者的採用。Google 的視覺方法使其能夠繞過對開發者特定更新的需求，潛在地使其能更快地與更廣泛的舊版應用程式相容。

比較：傳統助理 vs. 代理式 Gemini

為了理解這次轉變的幅度，我們可以將前一代助理的工作流程與新的代理式 Gemini 進行比較。

功能比較：工作流程效率

任務	傳統語音助理 (2024)	代理式 Gemini (2026)
指令	「向 Thai Spice 訂餐」	「在 DoorDash 上向 Thai Spice 訂購我平常點的泰式炒河粉（Pad Thai）。」
行動	開啟 DoorDash 應用程式或進行 Google 搜尋。	在背景開啟 DoorDash，導覽選單，將品項加入購物車。
用戶努力度	高：用戶必須手動捲動、選擇品項並結帳。	低：用戶等待通知，查看摘要，點擊「確認」。
互動性	僅用語音轉文字。	視覺導覽、點擊按鈕、填寫表格。
多工處理	互動期間阻塞螢幕。	在背景運行；用戶繼續處理其他任務。
付款	用戶在應用程式內手動驗證。	對預先準備好的購物車進行生物辨識審核。

前瞻

隨著 2026 年的推进，「智慧型手機」的定義正在向「智慧伴侶」轉變。Gemini 自動化處理諸如訂餐或叫車等平凡物流的能力僅僅是開端。行業分析師預測，到今年年底，這項技術將擴展到複雜的跨應用程式工作流程，例如「規劃約會之夜」，屆時 AI 將自主透過 OpenTable 預訂餐廳座位，透過 Fandango 購買電影票，並安排車程以配合時間。

目前，Galaxy S26 和 Pixel 10 的 Android 用戶正在搶先體驗手機為他們服務，而不是讓他們為手機服務的未來。