AI News

Waymo 整合 DeepMind 的 Genie 3,徹底變革自動駕駛車輛訓練

在自動駕駛車輛(Autonomous Vehicle, AV)開發的重大飛躍中,Waymo 正式發佈了其全新的「Waymo 世界模型(Waymo World Model)」,這是一個由 Google DeepMind 的 Genie 3 驅動的下一代模擬引擎。這次整合標誌著從傳統的、基於重放的模擬,向完全生成式、交互式環境的關鍵轉變,使這家 Alphabet 旗下的公司能夠在「長尾(long-tail)」邊緣案例(edge cases)上訓練其駕駛系統,而這些案例在統計學上幾乎不可能在現實世界中捕捉到。

本週早些時候發佈的這項公告,強調了 Google AI 研究部門與其自動駕駛子公司之間日益加深的協同效應。透過利用 Genie 3——一個能夠從文本或圖像提示生成可操作、擬真(Photorealistic)3D 環境的通用世界模型——Waymo 旨在解決行業內最持久的挑戰:開放道路的不可預測性。

向生成式模擬的轉變

多年來,自動駕駛車輛模擬的金科玉律涉及「重新模擬」現實世界的日誌。工程師會從車隊車輛中獲取記錄的傳感器數據,更改特定參數(例如行人的速度),並測試軟件如何響應。雖然這對於驗證已知場景非常有效,但該方法受限於實際收集的數據。如果車隊沒有見過特定的異常情況,它就無法準確地對其進行模擬。

Waymo 世界模型 打破了這種依賴。基於 Genie 3 構建,它不僅僅是重放數據;它在「夢想」新的現實。

根據 Waymo 的技術披露,該系統可以生成一致、高保真的傳感器數據——包括攝像頭影片和 3D 光學雷達(LiDAR) 點雲——這反映了物理世界的複雜性。這允許對危險或罕見的場景進行模擬,例如在高速公路附近形成的龍捲風、阻斷鄉村道路的野象,或在極端天氣條件下的複雜多代理交互。

由 Genie 3 驅動模型的核心能力

DeepMind 的 Genie 3 最初被設計為生成交互式虛擬世界的基礎模型。其在自動駕駛中的應用利用了其對物理學、物體永恆性和因果關係的理解。Waymo 對這一基礎進行了調整,以創建一個具有三個獨特機制的受控模擬器:

  1. 駕駛動作控制(Driving Action Control): 這允許工程師測試「反事實(counterfactuals)」。例如,他們可以模擬如果在特定的歷史情況下,自動駕駛車輛加速而不是讓行,它會做出什麼反應。世界模型會對這些新動作做出動態反應,生成合理的後果,而不僅僅是播放錄音。
  2. 場景佈局控制(Scene Layout Control): 開發人員可以程式化地改變靜態環境,更改道路幾何形狀、交通信號配置或城市障礙物的密度,以對駕駛策略進行壓力測試。
  3. 語言控制(Language Control): 這或許是最強大的功能,它允許工程師使用自然語言提示立即修改環境條件。諸如「在左側車道添加濃霧和一輛停滯的卡車」之類的提示會立即更新模擬,創建填補現實世界數據集空白的合成訓練數據。

解決安全性的「長尾」問題

這項技術背後的主要驅動力是安全性。自動駕駛系統通常精通處理 99% 的日常駕駛任務。剩餘的 1%——邊緣案例 的「長尾」——仍然是大規模 L4 和 L5 部署的障礙。

透過使用 生成式 AI(Generative AI) 來合成這些邊緣案例,Waymo 可以讓其「駕駛員」(自動駕駛車輛軟體)暴露於數百萬種關鍵場景的變體中,而無需行駛數十億英里的實體里程。這創造了一個反饋迴路,AI 從合成體驗中學習,而這些體驗對於車輛的傳感器來說與現實難以區分。

由 Genie 3 生成的 合成數據(Synthetic Data) 包括準確的光影反射、天氣對傳感器的影響,以及其他道路使用者(行人、自行車手和其他車輛)的真實行為,確保了從模擬到現實世界的遷移學習保持穩健。

比較分析:傳統模擬 vs. 生成式模擬

行業目前正在見證從基於規則和日誌的模擬器向神經模擬器的轉變。下表概述了 Waymo 的新方法與傳統方法有何不同。

自動駕駛模擬範式比較

特徵 傳統模擬 Waymo 世界模型 (Genie 3)
數據來源 歷史日誌重放與手動素材 生成式影片與光學雷達(LiDAR)合成
場景創建 參與者/事件的手動腳本編寫 文本/圖像提示與程式化生成
物理保真度 剛體動力學 (遊戲引擎) 習得的物理與因果推理
靈活性 受限於現有素材/地圖 透過潛在空間實現無限變化
邊緣案例處理 難以對未見事件建模 可以幻覺出真實的「黑天鵝」事件
傳感器輸出 近似渲染 擬真 神經渲染

與更廣泛的 AI 技術棧整合

這項發展並非孤立存在。它與 Waymo 的其他研究計劃並駕齊驅,例如 EMMA(自動駕駛端到端多模態模型)。雖然 EMMA 專注於使用基於 Gemini 的多模態模型來處理傳感器數據並做出駕駛決策,但基於 Genie 3 的世界模型則提供了訓練這些決策模型的「健身房」。

這種結合暗示了一個未來的趨勢,即整個自動駕駛技術棧都是 AI 原生的:生成模型創建世界(Genie 3),而多模態模型在其中駕駛(EMMA),從而創建一個閉環訓練系統,其改進速度比單純的現實世界測試要快得多。

行業影響

Waymo 對 Genie 3 的採用標誌著機器人領域中「世界模型」概念的成熟。像 Tesla 這樣的競爭對手多年來一直宣揚自己的世界模型方法,主要基於影片預測。然而,Waymo 的實施似乎利用了 DeepMind 對交互式環境研究的特定優勢,在可控性和傳感器模擬(特別是 LiDAR)方面可能提供更高的保真度。

由於監管機構對 自動駕駛車輛 的審查依然嚴格,透過對極端場景進行嚴格、高保真的模擬來證明安全性的能力可能成為關鍵的差異化因素。Waymo 押注於在任何地方部署無人駕駛出租車(Robotaxis)的路徑始於在任何地方模擬它們。

精選
AdsCreator.com
即時從任何網站 URL 生成精緻、符合品牌調性的廣告素材,適用於 Meta、Google 與 Stories。
Refly.ai
Refly.AI 讓非技術創作者能使用自然語言與視覺畫布自動化工作流程。
VoxDeck
引領視覺革命的AI簡報製作工具
FixArt AI
FixArt AI 提供免費、無限制的影像與影片生成 AI 工具,免註冊。
BGRemover
輕鬆地在線移除圖像背景,使用SharkFoto BGRemover。
Skywork.ai
Skywork AI 是一款創新的工具,旨在利用 AI 提高生產力。
FineVoice
讓文字化為情感 — 在數秒內克隆、設計並創造富有情感的 AI 聲音。
Qoder
Qoder 是一款由人工智能驅動的程式碼助理,自動化軟體專案的規劃、編碼和測試。
Flowith
Flowith 是一個基於畫布的代理型工作空間,提供免費的 🍌Nano Banana Pro 和其他高效模型...
Elser AI
一體化網頁創作工作室,將文字與影像轉換為動畫風格藝術、角色、聲音與短片。
Pippit
提升您的內容創造力,使用 Pippit 的強大 AI 工具!
SharkFoto
SharkFoto 是一個整合型的 AI 平台,用於高效率地創建與編輯影片、影像和音樂。
Funy AI
將你的幻想化為影片!從圖片或文字生成AI比基尼、親吻影片。體驗AI換衣功能。完全免費,無需註冊!
KiloClaw
託管的 OpenClaw 代理:一鍵部署,超過 500 款模型,安全的基礎設施,並為團隊和開發者提供自動化代理管理。
Diagrimo
Diagrimo 即時將文字轉換為可自訂的 AI 產生圖表和視覺圖像。
SuperMaker AI Video Generator
輕鬆打造驚艷的影片、音樂和圖像,使用SuperMaker。
AI Clothes Changer by SharkFoto
SharkFoto 的 AI Clothes Changer 可即時讓您虛擬試穿服裝,呈現逼真的合身度、材質與光影。
Yollo AI
與 AI 伴侶互動聊天。支援圖生片、AI 圖片生成功能。
AnimeShorts
輕鬆使用尖端的AI技術創作驚人的動漫短片。
HappyHorseAIStudio
適用於文字、圖片、參考素材和影片編輯的瀏覽器式 AI 影片生成器。
Anijam AI
Anijam 是一個 AI 原生動畫平台,透過代理式影片創作將點子轉化為精緻的故事。
happy horse AI
開源 AI 影片生成器,可從文字或圖片建立同步的影片與音訊。
InstantChapters
即時生成吸引人的書籍章節。
wan 2.7-image
一款可控的 AI 圖像生成器,可精準控制臉部、配色、文字與視覺連貫性。
NerdyTips
由 AI 驅動的足球預測平台,為全球聯賽提供以數據為基礎的比賽建議。
WhatsApp AI Sales
WABot 是一款 WhatsApp AI 銷售副駕駛,提供即時腳本、翻譯與意圖偵測。
Claude API
Claude API for Everyone
AI Video API: Seedance 2.0 Here
透過單一金鑰提供頂尖生成模型的統一 AI 影片 API,且成本更低。
Image to Video AI without Login
免費的影像轉影片 AI 工具,立即將照片轉成平滑且高品質的動畫影片,並且無浮水印。
insmelo AI Music Generator
以 AI 為驅動的音樂生成器,將提示、歌詞或上傳內容在約一分鐘內轉為精緻且免版稅的歌曲。
BeatMV
基於網頁的人工智慧平台,將歌曲轉換為電影感音樂影片並用 AI 創作音樂。
UNI-1 AI
UNI-1 是一個結合視覺推理與高保真影像合成的統一影像生成模型。
Kirkify
Kirkify AI 為迷因創作者即時生成帶有招牌霓虹故障美學的臉部置換爆紅迷因。
Wan 2.7
專業級 AI 影片模型,具精準動作控制與多視角一致性。
Text to Music
將文字或歌詞轉換為完整的錄音室級別歌曲,包含 AI 生成的人聲、樂器與多軌匯出。
Iara Chat
Iara Chat:一個由AI驅動的生產力和通信助手。
kinovi - Seedance 2.0 - Real Man AI Video
免費的 AI 影片產生器,輸出逼真人物畫面,無浮水印,並享有完整商業使用權。
Video Sora 2
Sora 2 AI 將文字或圖像在幾分鐘內轉換為短篇、物理準確的社交及電商影片。
Lyria3 AI
AI 音樂生成器,可即時從文字提示、歌詞與風格建立高保真、完整製作的歌曲。
Tome AI PPT
由 AI 驅動的簡報製作工具,可在數分鐘內生成、優化並匯出專業投影片。
Atoms
由 AI 驅動的平台,使用多智能體自動化在數分鐘內建立全端應用程式與網站,無需編碼。
Paper Banana
以 AI 為動力的工具,可即時將學術文字轉換為已達投稿品質的方法圖與精確的統計圖表。
AI Pet Video Generator
使用 AI 驅动的範本與即時 HD 匯出,從照片建立可病毒式傳播且便於分享的寵物影片,適用於社交平台。
Ampere.SH
免費託管的 OpenClaw 主機。使用 $500 的 Claude 點數,60 秒內部署 AI 代理。
Palix AI
為創作者提供的一體化 AI 平台,使用統一點數生成影像、影片和音樂。
Hitem3D
Hitem3D 使用 AI 將單張影像轉換為高解析度、可投入生產的 3D 模型。
GenPPT.AI
由 AI 驅動的簡報製作工具,能在數分鐘內建立、美化並匯出專業的 PowerPoint 簡報,包含講者備註與圖表。
HookTide
由 AI 驅動的 LinkedIn 成長平台,學習你的語氣以產生內容、互動並分析表現。
Create WhatsApp Link
免費的 WhatsApp 連結與 QR 產生器,具備分析、品牌連結、路由與多代理聊天功能。
Seedance 20 Video
Seedance 2 是一款多模態的 AI 影片生成器,提供角色一致性、多鏡頭敘事與 2K 原生音訊。
Gobii
Gobii 讓團隊建立全天候(24/7)自主的數位工作者,以自動化網路研究與例行工作。
Free AI Video Maker & Generator
免費 AI 視頻製作與生成器 – 無限次使用,無需註冊
Veemo - AI Video Generator
Veemo AI 是一個整合型平台,可從文字或圖片快速生成高品質的影片與影像。
AI FIRST
透過自然語言自動化研究、瀏覽器任務、網頁擷取與檔案管理的對話式 AI 助手。
GLM Image
GLM Image 結合自回歸與擴散混合模型,生成高保真 AI 圖像並具備卓越的文字渲染能力。
ainanobanana2
Nano Banana 2 在 4–6 秒內產生專業品質的 4K 影像,具備精準的文字呈現與主題一致性。
WhatsApp Warmup Tool
由 AI 驅動的 WhatsApp 預熱工具,可自動化大量發送訊息並防止帳號被封。
TextToHuman
免費的 AI 人性化工具,能即時將 AI 文字重寫為自然、類人的寫作風格。無需註冊。
Manga Translator AI
AI Manga Translator 即時在線將漫畫影像翻譯為多種語言。
Remy - Newsletter Summarizer
Remy通過將電子郵件摘要成易於理解的洞察,自動化新聞稿管理。

Waymo 公布由 DeepMind 的 Genie 3 驅動的全球模擬,用於自駕車

Waymo 揭示了一個建立在 Google DeepMind 的 Genie 3 上的生成型模擬模型,用於在極端天氣等邊緣情境下訓練自駕系統。