Google DeepMind представила Gemini 3.1 Flash Live — наиболее естественно звучащую голосовую модель ИИ, обеспечивающую глобальный запуск Search Live

Google DeepMind представляет Gemini 3.1 Flash Live: новый стандарт естественного взаимодействия с ИИ

Компания Google DeepMind официально сделала значительный шаг вперед в области разговорного интеллекта (conversational intelligence), выпустив Gemini 3.1 Flash Live. Эта новая, высокооптимизированная голосовая модель ИИ (AI voice model) разработана для обеспечения беспрецедентной естественности, меньшей задержки и более глубокой эмоциональной выразительности, устанавливая новый стандарт того, как люди взаимодействуют с искусственным интеллектом. Наряду с запуском этой модели, Google начинает глобальное развертывание Search Live, трансформирующей функции, которая использует базовую мощь Gemini 3.1 Flash Live, чтобы превратить камеры смартфонов в проактивные инструменты поиска в реальном времени.

Этот двойной релиз знаменует собой согласованные усилия Google по выходу за рамки текстового или статического аудиовзаимодействия. Сосредоточив внимание на мультимодальной обработке (multimodal processing) с низкой задержкой, компания стремится сделать помощников на базе ИИ менее похожими на программные инструменты и более похожими на подлинных партнеров по общению, способных видеть и понимать физический мир в режиме реального времени.

Техническая архитектура Gemini 3.1 Flash Live

В основе этого достижения лежит Gemini 3.1 Flash Live, голосовая модель ИИ, разработанная специально для требований связи в реальном времени. В отличие от своих предшественников, эта модель отдает приоритет плавному темпу и эмоциональной просодии, гарантируя, что подача ИИ будет нюансированной, учитывающей контекст и, что самое важное, адаптированной к темпу пользователя.

Технические оценки, в том числе от Artificial Analysis, показывают, что модель достигает впечатляющего результата в 95,9% в бенчмарке Big Bench Audio при работе на «высоком» уровне мышления. Эта высокая точность (high-fidelity) позволяет осуществлять сложные рассуждения и точное определение тона, что важно для поддержания вовлеченности пользователя во время длительных бесед.

Чтобы удовлетворить различные потребности в отношении задержки и когнитивных способностей, Google представила настраиваемые уровни мышления:

Режим минимального мышления (Minimal Thinking Mode): оптимизирован для скорости, сокращая задержку ответа примерно до 0,96 секунды, что идеально подходит для быстрых запросов.
Режим высокого мышления (High Thinking Mode): приоритет отдается глубине и точности рассуждений, обеспечивая более вдумчивый и нюансированный опыт общения за счет немного более высокой задержки.

Эта гибкость позволяет разработчикам использовать голосовую модель ИИ в более широком спектре приложений: от быстрого поиска информации до эмпатичного виртуального общения.

Ключевые возможности и операционные параметры

В следующей таблице обобщены технические и операционные улучшения, представленные в архитектуре Gemini 3.1 Flash Live, по сравнению с предыдущими итеративными выпусками.

Категория функций	Техническая возможность	Основная выгода для пользователя
Оптимизация задержки	Время ответа менее секунды (0,96 с в режиме Minimal) Улучшенная потоковая архитектура	Обеспечивает плавный, прерываемый и разговорный поток
Эмоциональный интеллект	Улучшенное определение высоты тона и эмоций Настраиваемые параметры просодии	Повышает вовлеченность и удовлетворенность пользователей
Мультимодальная обработка	Интегрированный анализ визуальных и аудиопотоков Осведомленность о среде в реальном времени	Бесшовное взаимодействие с физическим миром через камеру
Экономическая эффективность	Конкурентоспособная модель ценообразования (0,35 $/час на входе) Оптимизирована для корпоративного масштаба	Снижает барьер для разработчиков при создании приложений промышленного уровня

Глобальное расширение Search Live

Хотя модель обеспечивает интеллектуальную мощь, Search Live является основным интерфейсом, через который большинство пользователей познакомятся с этими возможностями. В настоящее время Google развертывает Search Live более чем в 200 странах, делая эту функцию краеугольным камнем современного поискового опыта.

Search Live функционирует путем интеграции видеопотока с камеры непосредственно в конвейер Google Search. Пользователи больше не ограничены вводом запросов; теперь они могут направлять свои смартфоны на объекты — такие как сложная потребительская электроника, растения или автомобильные компоненты — и вступать в речевой диалог с ИИ, чтобы понять, что они видят.

Для примерa, пользователь, пытающийся собрать сложную книжную полку, может направить камеру на компоненты и попросить у ИИ совета. Мультимодальный ИИ обрабатывает визуальные данные с камеры вместе с голосовыми вопросами пользователя, предоставляя пошаговые инструкции или советы по устранению неполадок в режиме реального времени. Эта интеграция эффективно превращает смартфон в сложного полевого помощника, сокращая разрыв между цифровой информацией и физическим исполнением.

Последствия для экосистемы ИИ

Внедрение Gemini 3.1 Flash Live и глобальная доступность Search Live представляют собой сдвиг в стратегическом фокусе крупнейших лабораторий ИИ. Индустрия стремительно движется к «ИИ-нативным» (AI-native) рабочим процессам, где модели не просто отвечают на вопросы, но и активно участвуют в задачах пользователя.

Устанавливая агрессивные цены на модель ИИ реального времени и делая ее широко доступной через Gemini Live API и Google AI Studio, компания позиционирует себя для завоевания значительного внимания разработчиков. Такой подход создает благотворный цикл: чем больше разработчиков интегрируют Gemini 3.1 Flash Live в сторонние приложения, тем больше данных об использовании получает модель, что, в свою очередь, способствует дальнейшему совершенствованию ее эмоциональных и технических возможностей.

Кроме того, интеграция этих функций в основное приложение Google на Android и iOS обеспечивает немедленный доступ для огромной пользовательской базы. Эта доступность имеет решающее значение, поскольку она формирует ожидания того, как должен функционировать современный поисковый опыт на базе Google DeepMind — не как простой инструмент поиска, а как интерактивный интеллектуальный компаньон, который понимает мир таким, каким его видит пользователь.

Заключение

Запуск Gemini 3.1 Flash Live и последующее глобальное развертывание Search Live сигнализируют о том, что эра пассивного ИИ подходит к концу. Google DeepMind успешно продемонстрировала, что сочетание высокопроизводительных мультимодальных рассуждений с голосовой доставкой с чрезвычайно низкой задержкой создает превосходный пользовательский опыт. Поскольку компания продолжает совершенствовать эти модели и расширять их интеграцию в свою экосистему, фокус, скорее всего, останется на повышении «естественности» этих взаимодействий, гарантируя, что ИИ останется полезным и интуитивно понятным расширением человеческих возможностей.