Gemini AI가 이제 안드로이드에서 음식 주문 및 차량 호출을 포함한 다단계 작업을 자동화할 수 있습니다

Google의 Gemini 진화: 안드로이드에 자율 작업 실행 도입

모바일 인공지능의 획기적인 순간(watershed moment)으로, Google은 이제 Gemini AI 어시스턴트가 안드로이드(Android) 기기에서 복잡하고 여러 단계로 이루어진 작업을 자율적으로 실행할 수 있다고 공식 발표했습니다. 2026년 2월 25일에 공개된 이 주요 업데이트는 모바일 AI가 수동적인 정보 검색에서 능동적인 "에이전트(Agentic)" 참여로 전환됨을 의미합니다. 음식 배달 주문 및 차량 호출 서비스의 엔드 투 엔드(end-to-end) 처리를 포함하는 새로운 기능은 광범위한 출시에 앞서 새로 출시된 삼성 갤럭시(Samsung Galaxy) S26 시리즈와 Google의 자체 픽셀(Pixel) 10 라인업에서 초기 프리뷰로 독점 데뷔할 예정입니다.

이러한 발전은 Google의 "프로젝트 자비스(Project Jarvis)" 및 "프로젝트 아스트라(Project Astra)" 이니셔티브의 정점으로, 진정으로 도움이 되고 능동적인 디지털 에이전트를 소비자들의 주머니 속에 제공하겠다는 약속을 마침내 실현한 것입니다. Gemini는 고급 시각 처리 및 심층 운영 체제 통합을 활용하여 인간 사용자와 매우 유사하게 서드파티 애플리케이션 인터페이스를 탐색할 수 있으며, 의도와 행동 사이의 격차를 효과적으로 메웁니다.

챗봇에서 에이전트로: "에이전트(Agentic)"로의 전환

수년 동안 업계는 단순히 "아는 것"이 아니라 "실행하는" AI를 약속해 왔습니다. 이번 업데이트를 통해 Google은 그 약속을 이행하고 있습니다. 새로운 기능을 통해 사용자는 "DoorDash에서 평소 먹던 금요일 밤 저녁 식사를 주문해줘" 또는 "공항까지 갈 두 명분 차량을 예약해줘"와 같이 광범위하고 높은 수준의 명령을 내릴 수 있습니다.

단순히 앱을 열거나 링크를 제공하는 대신, Gemini는 이제 다음 작업을 자율적으로 수행합니다:

앱 실행 및 탐색: 보안이 유지되는 백그라운드 가상 창에서 관련 애플리케이션(예: Uber, GrubHub 또는 DoorDash)을 엽니다.
맥락적 상호작용: 컴퓨터 비전과 화면 분석을 사용하여 버튼, 메뉴 및 텍스트 필드를 식별합니다.
의사 결정: 사용자 기록이나 특정 음성 지침을 기반으로 항목을 선택하고, 결제 흐름을 탐색하며, 결제 수단을 선택합니다.
인간 확인: 결정적으로, 최종 확인 화면에서 일시 중지하여 사용자에게 최종 "승인" 탭을 위한 요약 알림을 제시함으로써 승인되지 않은 거래가 발생하지 않도록 보장합니다.

이 "휴먼 인 더 루프(Human-in-the-loop)" 설계 철학은 에이전트 AI(Agentic AI)를 둘러싼 주요 우려 사항인 통제력 상실 문제를 해결합니다. 지루한 탐색은 처리하면서 최종 결정권은 사용자에게 남겨둠으로써, Google은 편의성과 보안 사이의 균형을 유지합니다.

삼성 갤럭시 S26 및 픽셀 10: 출시의 주역

Google과 삼성의 전략적 파트너십은 계속 심화되고 있으며, 갤럭시 S26 시리즈는 이러한 고급 기능의 주요 출시 수단 역할을 합니다. 삼성 언팩(Samsung Unpacked) 2026 행사에서 경영진은 갤럭시 S26의 NPU(Neural Processing Unit)가 Gemini의 클라우드 기반 추론과 협력하여 최소한의 지연 시간으로 실시간 앱 탐색을 처리하는 통합의 유연성을 시연했습니다.

Google 대변인은 "이것은 단순한 앱 업데이트가 아니라 운영 체제가 사용자를 지원하는 방식에 대한 근본적인 재구상입니다"라며, "삼성의 뛰어난 하드웨어와 당사의 Gemini 3.0 Pro 모델을 결합함으로써 기존 앱 생태계 위에 자리 잡은 'AI OS' 계층을 구축하고 있습니다"라고 밝혔습니다.

이 기능은 픽셀 10에서도 동시에 출시되지만, 갤럭시 S26에 대한 강조는 에이전트 행동의 주류 채택을 이끌기 위해 삼성의 방대한 사용자 기반에 의존하는 Google의 전략을 잘 보여줍니다.

기술적 분석: 작동 원리

이러한 혁신의 근간이 되는 기술은 거대 행동 모델(Large Action Models, LAMs)과 비주얼 그라운딩(Visual Grounding)의 결합에 의존합니다. 개발자가 AI를 위한 특정 "후크(hooks)"를 구축해야 하는 기존 API 통합과 달리, Gemini의 새로운 기능은 시각 우선(visual-first) 방식입니다. 즉, 화면을 "봅니다".

"가상 창(Virtual Window)" 아키텍처:
AI가 사용자의 활성 화면을 가로채는 것을 방지하기 위해 자동화는 백그라운드에서 실행되는 샌드박스 환경인 "가상 창"에서 발생합니다. 사용자는 Gemini가 보이지 않게 Uber 앱을 탐색하는 동안 Instagram을 계속 스크롤하거나 이메일을 확인할 수 있습니다. 화면 상단의 다이내믹 알림 아일랜드는 사용자에게 에이전트의 진행 상황(예: "차량 선택 중...", "장바구니 검토 중...")을 계속 알려줍니다.

지원 서비스:
출시 시점에 다단계 자동화는 주로 온디맨드 경제 분야의 일부 고빈도 앱에 최적화되어 있습니다:

차량 호출: Uber, Lyft
음식 배달: DoorDash, GrubHub, Uber Eats
식료품: Instacart (베타)

Google은 2026년 3분기까지 이 호환성을 여행 예약 및 캘린더 관리로 확장하겠다고 약속했습니다.

개인정보 보호 및 보안 영향

자신의 앱 제어권과 구매력을 AI에게 넘겨주는 데는 막대한 신뢰가 필요합니다. Google은 위험을 완화하기 위해 여러 보안 계층을 구현했습니다. "가상 창"은 나머지 OS와 격리되어 AI가 당면한 특정 작업 이외의 데이터에 접근하는 것을 방지합니다. 또한, AI는 사용자의 명시적인 생체 인식 인증(지문 또는 얼굴 인식) 없이는 결제를 완료할 수 없습니다.

그러나 비판론자들은 이러한 시각적 접근 방식이 사용자의 비공개 앱 스크린샷을 분석하는 AI를 수반한다고 지적합니다. Google은 고급 로컬 처리 기능 덕분에 갤럭시 S26 및 픽셀 10의 경우 이 처리가 주로 온디바이스(on-device)에서 수행되며, 익명화된 행동 토큰만 클라우드에서 확인된다고 보장합니다.

경쟁 환경: "슈퍼 에이전트"를 향한 경주

이번 발표로 Google은 소비자용 에이전트 AI를 배포하기 위한 경쟁에서 경쟁자들보다 확실히 앞서 나가게 되었습니다. OpenAI가 데스크톱 모델에서 유사한 "컴퓨터 사용" 기능을 시연했지만, 모바일 구현은 아직 초기 단계에 머물러 있습니다. 마찬가지로 Apple의 애플 인텔리전스(Apple Intelligence)는 개발자의 채택이 필요한 API(App Intents)를 통한 심층 Siri 통합에 집중해 왔습니다. Google의 시각적 접근 방식을 사용하면 개발자별 업데이트가 필요하지 않아 잠재적으로 더 넓은 범위의 레거시 앱과 더 빠르게 호환될 수 있습니다.

비교: 전통적인 어시스턴트 vs 에이전트 Gemini

이러한 변화의 규모를 이해하기 위해 이전 세대 어시스턴트와 새로운 에이전트 Gemini의 워크플로우를 비교해 볼 수 있습니다.

기능 비교: 워크플로우 효율성

작업	전통적인 음성 어시스턴트 (2024)	에이전트 Gemini (2026)
명령	"Thai Spice에서 음식 주문해줘"	"DoorDash의 Thai Spice에서 평소 먹던 팟타이 주문해줘."
작업	DoorDash 앱을 열거나 Google 검색을 수행합니다.	백그라운드에서 DoorDash를 열고 메뉴를 탐색하며 장바구니에 항목을 추가합니다.
사용자 노력	높음: 사용자가 수동으로 스크롤하고 항목을 선택하고 결제해야 합니다.	낮음: 사용자는 알림을 기다리고 요약을 검토한 후 "확인"을 누릅니다.
상호작용성	음성-텍스트 변환만 가능합니다.	시각적 탐색, 버튼 클릭, 양식 작성이 가능합니다.
멀티태스킹	상호작용 중에 화면을 차단합니다.	백그라운드에서 실행되며 사용자는 다른 작업을 계속할 수 있습니다.
결제	사용자가 앱 내에서 수동으로 인증합니다.	사전에 준비된 장바구니를 생체 인식으로 승인합니다.

향후 전망

2026년이 지나면서 "스마트폰"의 정의는 "지능형 동반자"로 바뀌고 있습니다. 저녁 식사를 주문하거나 차량을 호출하는 것과 같은 일상적인 물류를 자동화하는 Gemini의 능력은 단지 시작에 불과합니다. 업계 분석가들은 올해 말까지 이 기술이 "데이트 밤 계획해줘"와 같은 복잡한 앱 간 워크플로우로 확장될 것이라고 예측합니다. 이 경우 AI는 OpenTable을 통해 식당 테이블을 자율적으로 예약하고, Fandango를 통해 영화 티켓을 구매하며, 시간에 맞춰 이동할 차량을 예약하게 될 것입니다.

현재 갤럭시 S26 및 픽셀 10을 사용하는 안드로이드 사용자들은 사용자가 전화를 위해 일하는 것이 아니라 전화가 사용자를 위해 일하는 미래를 가장 먼저 맛보고 있습니다.