
在 2026 年 3 月 10 日,Google DeepMind 透過正式發佈 Gemini Embedding 2,揭示了人工智慧(Artificial Intelligence,AI)基礎設施的突破性進展。作為科技產業首款原生多模態嵌入模型(Natively multimodal embedding model),此次發佈標誌著機器處理、儲存和檢索複雜企業資訊方式的決定性轉變。在 Creati.ai,我們體認到將不同資料類型映射到單一、統一向量空間的能力,不僅僅是軟體的增量升級,更是一場將從根本上重新定義企業搜尋、資料管理和自主代理(Autonomous agents)開發的範式轉移(Paradigm shift)。
傳統上,人工智慧系統依賴高度碎片化的架構。前幾代 AI 模型基本上為不同類型的媒體維護獨立的「數位文件櫃」。文字文件、圖像檔案、音訊剪輯和影片被完全隔離地儲存、處理和索引。如果使用者向企業系統查詢「貓」,底層的大型語言模型(Large Language Model,LLM)會將文字文件中的書面文字「貓」與 MP4 影片中貓的視覺呈現視為完全不同且不相關的實體。
Gemini Embedding 2 透過利用一種革命性的架構,將文字、圖像、影片、音訊甚至複雜的多頁文件映射到一個共享的嵌入空間,打破了這些歷史孤島。這使得系統能夠同時處理跨多種模態的交錯輸入,模擬人類從物理和數位環境中自然消化資訊的方式。
多年來,多模態 AI(Multimodal AI)的標準方法涉及產業專家所稱的嚴苛「翻譯稅」(Translation tax)。為了在影片存檔或圖像資料庫中進行搜尋,AI 系統首先必須將口頭語言轉錄為文字,或使用獨立的視覺模型生成圖像的文字描述。只有在完成這個翻譯步驟後,系統才能將生成的文字嵌入到資料庫中。
這種強制轉換過程本質上導致了關鍵語義細微差別的丟失,引入了轉錄錯誤,並顯著增加了處理延遲和運算成本。透過原生支援混合媒體,Gemini Embedding 2 無需任何中間翻譯步驟即可處理原始數據。開發人員現在可以提交一個包含複雜機械零件圖像和文字「這件零件的維護要求是什麼?」的單一 API 請求,模型將本質上理解視覺和文字數據之間的語義關係。這種原生理解從根本上消除了翻譯稅,在大幅提高語義意圖捕捉準確性的同時,減少了運算開銷。
直接建立在強大的 Gemini 架構基礎之上,這款新的嵌入模型提供了一系列令人印象深刻的技術能力,專為苛刻的大規模企業環境量身定制。該系統有效地捕捉了超過 100 種語言的語義含義和使用者意圖,使其成為跨國組織真正的全球工具。此外,其強大的上下文視窗(Context window)和多樣化的檔案格式支援,確保了開發人員可以同時向系統輸入大量的多樣化數據。
為了充分掌握此次發佈的規模和效用,有必要查看 Google DeepMind 提供的確切技術規格。下表概述了模型在各種媒體類型上的處理能力和格式支援:
| 模態 | 容量與限制 | 支援格式 |
|---|---|---|
| 文字 | 每次請求最多 8,192 個輸入 Token | 原生支援超過 100 種語言 |
| 圖像 | 單次請求最多 6 張圖像 | PNG, JPEG |
| 影片 | 長達 120 秒的影片輸入 | MP4, MOV |
| 音訊 | 無需文字轉錄的原生處理 | 標準音訊輸入 |
| 文件 | 多達 6 頁的直接語義嵌入 |
透過在單一 API 呼叫中容納這些廣泛的輸入,開發人員可以無縫構建理解複雜現實世界數據的應用程式,而無需協調複雜且脆弱的分離數據編碼器管線。
Gemini Embedding 2 最具技術複雜性的功能之一是其對 俄羅斯娃娃標徵學習(Matryoshka Representation Learning,MRL)的實作。在機器學習領域,高維向量空間在企業規模下的儲存、管理和查詢成本可能非常昂貴。預設情況下,Gemini Embedding 2 會輸出 3,072 維的高度詳細向量。
然而,MRL 允許這些數學標徵的運作方式非常類似於俄羅斯娃娃——最重要的語義資訊高度集中在向量的最早維度中。這種先進的架構允許開發人員動態地將輸出從 3,072 維縮減到 1,536 甚至 768 維,而不會遭受檢索準確性的災難性損失。對於每天管理數十億個向量的企業數據堆疊而言,在保留模型強大的跨模態理解能力的同時將雲端儲存成本減半,是一項巨大的營運和財務優勢。
Gemini Embedding 2 的引入將顯著增強整個軟體產業的 檢索增強生成(Retrieval-Augmented Generation,RAG)系統。到目前為止,RAG 架構絕大多數是以文字為中心的。如果一家公司希望其內部 AI 知識助理參考企業培訓影片、建築藍圖或錄音會議,工程團隊必須構建複雜且高度客製化的權宜之計。
藉由統一的 向量空間(Vector space),語義意圖在所有媒體類型中都得到了完美的保留。使用者可以使用簡單的指令向企業搜尋工具發出提示,例如:「尋找專案更新中討論第三季定價變化的部分。」智慧系統可以立即返回錄音會議中的確切時刻、PDF 簡報中的特定投影片或文字合約中的段落——所有這些都是使用單一、統一的查詢從完全相同的資料庫中檢索出來的。這種能力顯著降低了檢索成本,減少了幻覺風險,並加速了整個企業數據管線。
除了標準的文件搜尋,這還深刻影響了資料分群(Data clustering)和情感分析(Sentiment analysis)的工作流程。例如,行銷團隊現在可以無縫地對包含書面評論、音訊語音郵件和開箱影片的客戶回饋進行分群,以獲得使用者情感的全方位視角,而無需在獨立的孤島中處理每種模態。
這項技術的實際現實利益已經由早期企業合作夥伴實現。Google 已宣佈,具有前瞻性思維的組織正在利用 Gemini Embedding 2 來獲得競爭優勢。例如,領先的法律科技平台 Everlaw 正在積極使用該模型來大幅改善法律文件檢索。他們的實作毫不費力地將文字法律證據與相應的視覺證物和音訊證詞聯繫起來。
同樣地,在創作者經濟中運營的平台 Sparkonomy 也整合了該模型,以增強跨越大量混合媒體內容庫的內容探索、推薦演算法和資產分類。這些早期合作夥伴關係清楚地證明了對於願意升級其底層搜尋基礎設施的公司而言,即時的投資回報。
除了眼前的企業搜尋改進,Gemini Embedding 2 還為下一代自主 AI 系統奠定了基礎。為了讓 AI 代理在現實世界中有效且自主地運行,它需要一個反映人類認知過程的可靠、持久的記憶系統。人類不會在孤立的文字或音訊流中感知世界;我們處理的是整合的、連續的多模態體驗。
統一的嵌入空間作為這些先進系統的真正、全方位的記憶層。隨著 AI 代理變得更加自主——承擔編寫軟體代碼、設計使用者介面或在網路上進行廣泛學術研究等複雜操作——它們現在可以將所有內容類型的記憶儲存在單一向量儲存中並進行檢索。這種能力使代理能夠更準確地對其環境進行推理。代理可以無縫地引用它昨天「看到」的視覺流程圖,以及它今天「heard」的音訊指令,而無需在格式之間不斷翻譯或丟失關鍵的上下文線索。
截至本週的正式發佈,Gemini Embedding 2 已以預覽模式向公眾開放。開發人員、資料科學家和企業工程團隊可以立即透過 Gemini API 和 Google Cloud 的 Vertex AI 平台開始存取該模型。為了促進快速採用,Google 還提供了全面的程式碼範例、詳細的技術文件和互動式筆記本,以協助工程團隊進行下一代應用程式的原型設計。
對於希望採用這項尖端技術的組織來說,轉型需要戰略規劃。由於嵌入空間是完全統一的,且與以前僅限文字的迭代版本有本質上的不同,遷移現有的向量資料庫將需要對舊數據進行完整地重新嵌入(Re-embedding)。雖然這需要初始運算資源,但長期利益——減少管線複雜性、透過俄羅斯娃娃標徵學習顯著降低儲存成本,以及無與倫比的跨模態檢索準確性——遠遠超過了設定工作。
隨著人工智慧格局的迅速演變,原生多模態基礎設施不再只是一個理論概念;它已成為一個可觸及且具有高度影響力的現實。Gemini Embedding 2 為產業設定了嚴格的新基準,確保隨著我們的 AI 應用程式變得更加複雜,它們對世界的基礎理解仍保持凝聚力、高效且深刻地相互關聯。