Waymo 公布由 DeepMind 的 Genie 3 驅動的全球模擬，用於自駕車

Waymo 整合 DeepMind 的 Genie 3，徹底變革自動駕駛車輛訓練

在自動駕駛車輛（Autonomous Vehicle, AV）開發的重大飛躍中，Waymo 正式發佈了其全新的「Waymo 世界模型（Waymo World Model）」，這是一個由 Google DeepMind 的 Genie 3 驅動的下一代模擬引擎。這次整合標誌著從傳統的、基於重放的模擬，向完全生成式、交互式環境的關鍵轉變，使這家 Alphabet 旗下的公司能夠在「長尾（long-tail）」邊緣案例（edge cases）上訓練其駕駛系統，而這些案例在統計學上幾乎不可能在現實世界中捕捉到。

本週早些時候發佈的這項公告，強調了 Google AI 研究部門與其自動駕駛子公司之間日益加深的協同效應。透過利用 Genie 3——一個能夠從文本或圖像提示生成可操作、擬真（Photorealistic）3D 環境的通用世界模型——Waymo 旨在解決行業內最持久的挑戰：開放道路的不可預測性。

向生成式模擬的轉變

多年來，自動駕駛車輛模擬的金科玉律涉及「重新模擬」現實世界的日誌。工程師會從車隊車輛中獲取記錄的傳感器數據，更改特定參數（例如行人的速度），並測試軟件如何響應。雖然這對於驗證已知場景非常有效，但該方法受限於實際收集的數據。如果車隊沒有見過特定的異常情況，它就無法準確地對其進行模擬。

Waymo 世界模型 打破了這種依賴。基於 Genie 3 構建，它不僅僅是重放數據；它在「夢想」新的現實。

根據 Waymo 的技術披露，該系統可以生成一致、高保真的傳感器數據——包括攝像頭影片和 3D 光學雷達（LiDAR）點雲——這反映了物理世界的複雜性。這允許對危險或罕見的場景進行模擬，例如在高速公路附近形成的龍捲風、阻斷鄉村道路的野象，或在極端天氣條件下的複雜多代理交互。

由 Genie 3 驅動模型的核心能力

DeepMind 的 Genie 3 最初被設計為生成交互式虛擬世界的基礎模型。其在自動駕駛中的應用利用了其對物理學、物體永恆性和因果關係的理解。Waymo 對這一基礎進行了調整，以創建一個具有三個獨特機制的受控模擬器：

駕駛動作控制（Driving Action Control）： 這允許工程師測試「反事實（counterfactuals）」。例如，他們可以模擬如果在特定的歷史情況下，自動駕駛車輛加速而不是讓行，它會做出什麼反應。世界模型會對這些新動作做出動態反應，生成合理的後果，而不僅僅是播放錄音。
場景佈局控制（Scene Layout Control）： 開發人員可以程式化地改變靜態環境，更改道路幾何形狀、交通信號配置或城市障礙物的密度，以對駕駛策略進行壓力測試。
語言控制（Language Control）： 這或許是最強大的功能，它允許工程師使用自然語言提示立即修改環境條件。諸如「在左側車道添加濃霧和一輛停滯的卡車」之類的提示會立即更新模擬，創建填補現實世界數據集空白的合成訓練數據。

解決安全性的「長尾」問題

這項技術背後的主要驅動力是安全性。自動駕駛系統通常精通處理 99% 的日常駕駛任務。剩餘的 1%——邊緣案例的「長尾」——仍然是大規模 L4 和 L5 部署的障礙。

透過使用 生成式 AI（Generative AI） 來合成這些邊緣案例，Waymo 可以讓其「駕駛員」（自動駕駛車輛軟體）暴露於數百萬種關鍵場景的變體中，而無需行駛數十億英里的實體里程。這創造了一個反饋迴路，AI 從合成體驗中學習，而這些體驗對於車輛的傳感器來說與現實難以區分。

由 Genie 3 生成的 合成數據（Synthetic Data） 包括準確的光影反射、天氣對傳感器的影響，以及其他道路使用者（行人、自行車手和其他車輛）的真實行為，確保了從模擬到現實世界的遷移學習保持穩健。

比較分析：傳統模擬 vs. 生成式模擬

行業目前正在見證從基於規則和日誌的模擬器向神經模擬器的轉變。下表概述了 Waymo 的新方法與傳統方法有何不同。

自動駕駛模擬範式比較

特徵	傳統模擬	Waymo 世界模型 (Genie 3)
數據來源	歷史日誌重放與手動素材	生成式影片與光學雷達（LiDAR）合成
場景創建	參與者/事件的手動腳本編寫	文本/圖像提示與程式化生成
物理保真度	剛體動力學 (遊戲引擎)	習得的物理與因果推理
靈活性	受限於現有素材/地圖	透過潛在空間實現無限變化
邊緣案例處理	難以對未見事件建模	可以幻覺出真實的「黑天鵝」事件
傳感器輸出	近似渲染	擬真神經渲染

與更廣泛的 AI 技術棧整合

這項發展並非孤立存在。它與 Waymo 的其他研究計劃並駕齊驅，例如 EMMA（自動駕駛端到端多模態模型）。雖然 EMMA 專注於使用基於 Gemini 的多模態模型來處理傳感器數據並做出駕駛決策，但基於 Genie 3 的世界模型則提供了訓練這些決策模型的「健身房」。

這種結合暗示了一個未來的趨勢，即整個自動駕駛技術棧都是 AI 原生的：生成模型創建世界（Genie 3），而多模態模型在其中駕駛（EMMA），從而創建一個閉環訓練系統，其改進速度比單純的現實世界測試要快得多。

行業影響

Waymo 對 Genie 3 的採用標誌著機器人領域中「世界模型」概念的成熟。像 Tesla 這樣的競爭對手多年來一直宣揚自己的世界模型方法，主要基於影片預測。然而，Waymo 的實施似乎利用了 DeepMind 對交互式環境研究的特定優勢，在可控性和傳感器模擬（特別是 LiDAR）方面可能提供更高的保真度。

由於監管機構對自動駕駛車輛的審查依然嚴格，透過對極端場景進行嚴格、高保真的模擬來證明安全性的能力可能成為關鍵的差異化因素。Waymo 押注於在任何地方部署無人駕駛出租車（Robotaxis）的路徑始於在任何地方模擬它們。