
Google DeepMind 隨著 Gemini 3.1 Flash Live 的發布,在對話式智慧領域邁出了重要的一步。這款全新且高度優化的 AI 語音模型(AI voice model)旨在提供前所未有的自然度、更低的延遲和更深層的情緒表達,為人類與人工智慧的互動建立了新的基準。除了該模型的推出,Google 正在啟動 Search Live 的全球部署,這是一項變革性功能,利用 Gemini 3.1 Flash Live 的底層效能,將智慧型手機相機轉化為主動、即時的搜尋工具。
此次雙重發布標誌著 Google 致力於超越基於文字或靜態音訊的互動。透過專注於低延遲、多模態處理(multimodal processing),該公司旨在讓 AI 助理感覺不像軟體工具,而更像是一個真正的對話夥伴,能夠即時觀察並理解物理世界。
這一進展的核心是 Gemini 3.1 Flash Live,這是一個專為即時通訊需求設計的 AI 語音模型(AI voice model)。與其前代產品不同,該模型優先考慮流暢的語調和情感韻律,確保 AI 的表達細膩、具備上下文意識,且最重要的是能回應使用者的步調。
包括 Artificial Analysis 在內的技術評估強調,該模型在「高」思考等級(thinking level)下運行時,在 Big Bench 音訊基準測試中取得了令人印象深刻的 95.9% 分數。這種高保真性能允許複雜的推理和準確的音調檢測,這對於在長篇對話中保持使用者參與度至關重要。
為了應對延遲與推理能力方面的不同需求,Google 引入了可配置的思考等級:
這種靈活性使開發者能夠在更廣泛的應用中利用 AI 語音模型,從快速資訊檢索到具備同理心的虛擬陪伴。
下表總結了與之前的迭代版本相比,Gemini 3.1 Flash Live 架構引入的技術和運作改進。
| 功能類別 | 技術能力 | 主要使用者效益 |
|---|---|---|
| 延遲優化 | 亞秒級響應時間(最小模式下為 0.96 秒) 先進的串流架構 |
實現流暢、可打斷且具對話性的流程 |
| 情緒智慧 | 改進的音高和情緒檢測 可配置的韻律設定 |
提高參與度和使用者滿意度 |
| 多模態處理 | 整合式視覺和音訊流分析 即時環境意識 |
透過相機與物理世界無縫互動 |
| 成本效率 | 具競爭力的定價模型(每小時輸入 0.35 美元) 針對企業規模進行優化 |
降低開發者構建生產級應用程式的門檻 |
雖然模型提供了大腦能力,但 Search Live 是大多數使用者體驗這些功能的主要介面。Google 目前正向 200 多個國家部署 Search Live,使該功能成為現代搜尋體驗的基石。
Search Live 的運作方式是將相機饋送直接整合到 Google 搜尋流程中。使用者不再局限於輸入查詢;他們現在可以將智慧型手機對準物體——如複雜的消費性電子產品、植物或汽車零件——並與 AI 進行語音對話,以了解他們所看到的內容。
例如,嘗試組裝複雜書架的使用者可以將相機對準零件,並向 AI 尋求指引。多模態 AI(Multimodal AI) 同步處理來自相機的視覺輸入和使用者的語音問題,即時提供分步說明或故障排除建議。這種整合有效地將智慧型手機轉變為精密的現場助手,彌合了數位資訊與實體執行之間的鴻溝。
Gemini 3.1 Flash Live 的推出和 Search Live 的全球可用性代表了主要 AI 實驗室策略重點的轉移。該行業正迅速邁向「AI 原生(AI-native)」工作流程,在這種工作流程中,模型不僅是回答問題,而是主動參與使用者任務。
透過對 即時 AI(Real-time AI) 模型進行激進定價,並透過 Gemini Live API 和 Google AI Studio 廣泛提供,該公司正定位自己以獲取重要的開發者心智佔有率。這種方法創造了一個良性循環:隨著更多開發者將 Gemini 3.1 Flash Live 整合到第三方應用程式中,該模型獲得了更多的曝光和使用數據,進而推動了其情緒和技術能力的進一步細化。
此外,將這些功能整合到 Android 和 iOS 上的 Google 原生應用程式中,確保了龐大使用者群體的立即存取。這種可及性至關重要,因為它設定了對現代 Google DeepMind 驅動的搜尋體驗應如何運作的預期——不是作為一個簡單的查找工具,而是作為一個能夠像使用者所見那樣理解世界的互動式智慧夥伴。
Gemini 3.1 Flash Live 的發布以及隨後 Search Live 的全球推廣,標誌著被動 AI 時代即將結束。Google DeepMind 已成功證明,將高效能的多模態推理與極低延遲的語音傳輸相結合,可以創造卓越的使用者體驗。隨著該公司繼續完善這些模型並擴展其在整個生態系統中的整合,重點可能仍將放在增強這些互動的「自然度」上,確保 AI 仍然是人類能力的實用且直覺的延伸。