
機器人產業長期以來一直面臨一個根本性的限制:在受控的實驗室環境中表現完美的機器,一旦接觸到不可預測的工業環境現實,往往會力不從心。總部位於帕羅奧圖(Palo Alto)的 Rhoda AI 正式結束了為期 18 個月的隱形階段(Stealth phase)以應對這一挑戰,並宣佈了一筆高達 4.5 億美元的 A 輪融資。這筆巨額資金挹注使公司的投後估值達到 17 億美元,顯示了市場對其範式轉移的機器人智能方法的巨大信心。
從 Creati.ai 的角度來看,這項發展代表了實體人工智慧(Physical AI)演進中的分水嶺時刻。Rhoda AI 並非依賴大量的人類操作員來教導機器人如何移動,而是利用網路上龐大且尚未開發的公開影片庫。透過在數億個影片剪輯上訓練基礎模型,該公司正在彌合數位人工智慧與實體現實世界互動之間的差距,旨在提供業界數十年來一直追求的泛化能力。
即使在資金充足的 AI 領域,獲得 4.5 億美元的 A 輪融資也極為罕見,這凸顯了 Rhoda AI 建立的強大技術基礎。本輪融資由 Premji Invest 領投,該公司以對持久性企業技術的長期戰略投資而聞名。這筆資金將用於擴大工業部署、加速客戶試點計畫,並積極擴充 Rhoda AI 在生成式 AI(Generative AI)、電腦視覺和機器人領域的多學科專家團隊。
股東名冊包含了一群在深科技(Deep-tech)和風險投資領域最具影響力的實體。這種多元化的支持不僅為 Rhoda AI 提供了無與倫比的財務跑道,還為其進入全球製造和供應鏈網絡提供了戰略途徑。
Rhoda AI 的戰略支持者
| 投資者類別 | 實體或個人 | 戰略價值 |
|---|---|---|
| 領投方 | Premji Invest | 長期資本承諾與戰略擴展專業知識 |
| 全球機構與主權基金 | Temasek | 進入國際市場與大規模機構部署渠道 |
| 第一梯隊風險投資 | Khosla Ventures Mayfield Matter Venture Partners |
深科技生態系統聯繫與營運早期指導 |
| 個人技術領袖 | John Doerr | 傳奇的矽谷營運與戰略指導 |
| 氣候與前沿科技 | Capricorn Investment Group Prelude Ventures |
專注於變革性、重硬體的工業創新 |
Premji Invest 管理合夥人 Sandesh Patnam 強調,第一家成功大規模部署具備智慧操作能力機器人的公司,將啟動一個強大的「數據飛輪」。這種複合優勢對於捕捉目前阻礙傳統機器人系統的現實世界長尾邊緣案例至關重要。
要理解 Rhoda AI 技術飛躍的重要性,必須先檢視機器人基礎模型的現狀。目前流行的方法在很大程度上依賴視覺-語言-動作(Vision-Language-Action, VLA)模型。雖然這些系統展示了令人印象深刻的能力,但其主要的學習機制是遠端操作(Teleoperation)——這是一個由人類遠程控制機器人動作以生成訓練數據的過程。
這種遠端操作優先的方法具有嚴重的可擴展性限制。僅接受遠端操作數據訓練的機器人,只了解其手動操作之特定環境中的物理特性和空間動態。如果攝影機角度偏移、光線變化或引入先前未見過的物體,該模型極易發生故障。機器人缺乏對其狹窄訓練分佈之外的物理世界如何運作的泛化理解。
Rhoda AI 系統性地拆解了這一瓶頸,將互聯網規模的影片視為物理真理的終極來源。
Rhoda AI 突破的核心是其專有的 直接影片動作(Direct Video Action, DVA)架構。這種影片優先的策略完全繞過了對數千小時手動遠端操作的需求。其訓練流程分為兩個不同的階段,模仿人類學習世界的方式:觀察,隨後是特定的運動練習。
首先,DVA 模型使用數億個公開互聯網影片進行大規模預訓練。此階段建立了一個強大的「世界模型(World model)」,或是對運動、物理、動力學和物體互動的強大先驗認知。透過觀察無數場景——從人類雙手操作工具到物體墜落、滾動和碰撞——AI 發展出了對物理定律的天生理解。它已經從數百萬個方向看過物體,使其具備了遠端操作天生缺乏的泛化能力。
在完成廣泛的預訓練後,模型會進入一個高效的後訓練階段。Rhoda AI 利用極少量的機器人專用遙測數據——通常僅需 10 到 20 小時的遠端操作——將其廣闊的視覺理解映射到實體機器人手臂或人形身體的特定運動學約束上。
機器人架構比較
| 特徵 | 傳統 VLA 模型 | Rhoda AI DVA 架構 |
|---|---|---|
| 主要訓練數據 | 實驗室中大量的人類遠端操作 | 互聯網規模的公開影片 |
| 後訓練要求 | 每個特定任務需數百至數千小時 | 10 到 20 小時的定向機器人遙測 |
| 控制機制 | 通常為開環或低頻回饋 | 閉環、高頻動態更新 |
| 記憶與上下文 | 短期,處理受限的幀歷史 | 長上下文視覺記憶(數百幀) |
| 環境適應性 | 僵化,常在未見過的佈局中掙扎 | 高度適應,具備物理感知泛化能力 |
DVA 架構的商業體現是 FutureVision,這是 Rhoda AI 新發佈的機器人智能平台。FutureVision 採用硬體無關性設計,可與廣泛的現有機器人系統集成,允許製造和物流營運商在不捨棄舊有硬體的情況下升級其自動化能力。
FutureVision 的一個決定性特徵是其閉環影片預測控制。與生成移動計畫並在沒有持續回饋的情況下執行之傳統開環方法不同,FutureVision 極具動態性。系統持續觀察環境,將未來的物理狀態預測為影片幀,將這些預測轉化為機械動作,執行動作,並重新觀察世界。這個循環每幾百毫秒重複一次,實現了即時、具備物理感知的精確控制。如果物體從抓取器中滑落或箱子在傳送帶上移位,系統會瞬時修正其軌跡。
此外,FutureVision 透過長上下文視覺記憶(Long-Context Visual Memory)解決了關鍵的視覺歧義問題。標準的 VLA 模型通常僅處理少量最近的視覺幀。Rhoda 的架構則原生處理數百幀的歷史記錄。為了證明這項能力,Rhoda AI 展示了一個機器人「三杯球(Shell Game)」挑戰,機器人成功追蹤了隱藏在杯子下並不斷變換位置的物體。透過保持連續的視覺記憶,機器人保留了物體恆存(Object permanence)能力——這是一個複雜的認知里程碑,可防止物體暫時從視線中消失時機器人發生當機。
對於任何實體 AI 公司來說,最終的考驗是在非結構化、混亂的商業環境中的表現。Rhoda AI 並不等待完美條件才部署其技術。該公司已經展示了其硬體在全球最大的汽車工廠之一自主運作。
除汽車製造外,物流仍是主要目標。Rhoda AI 正在應對退貨處理等複雜流程,這是物流業中公認的難題。退貨處理涉及高度的視覺歧義,因為外觀相似的包裹可能代表分揀流程中完全不同的狀態。透過利用其長上下文視覺記憶,FutureVision 允許機器人保持空間感知和工作流程上下文,大幅減少了人工干預的需求。
隨著這些機器人在工廠和倉庫中運作,它們持續將邊緣案例數據傳回 Rhoda AI。這啟動了夢寐以求的數據飛輪:機器人在現實世界中運作得越多,基礎模型就變得越強大,加速通往實體人工通用智慧(Artificial General Intelligence, AGI)之路。
Rhoda AI 的快速崛起依託於一支擁有擴張高度複雜、資本密集型深科技企業之過往紀錄的領導團隊。執行長兼共同創辦人 Jagdeep Singh 帶來了寶貴的營運經驗。作為一名連續創業家,他此前創立並領導了開創性的固態電池製造商 QuantumScape,Singh 深刻理解將變革性的硬體與軟體交叉技術推向大規模生產所面臨的挑戰。
與 Singh 的營運專業知識相輔相成的是首席科學官 Eric Ryan Chan,他是來自史丹佛大學的傑出電腦視覺研究員。Chan 對自回歸影片預測和基礎模型的深刻技術洞察,是直接影片動作架構背後的學術與實踐引擎。他們共同組建了一支世界級的多學科團隊,站在生成式 AI 與實體自動化的最前沿。
在 Creati.ai,我們將 Rhoda AI 龐大的 A輪融資視為更廣泛機器人軍備競賽中的關鍵催化劑。智慧工業機器人市場正在迅速擴張,主要的科技巨頭和專門的初創公司都在爭奪主導地位。然而,Rhoda AI 獨特的「影片優先」策略建立了一道獨特的競爭護城河。當競爭對手建立日益龐大的遠端操作中心以獲取專有機器人數據時,Rhoda AI 正有效地利用整個互聯網作為其訓練場。
透過將物理知識的獲取與機器人硬體的物理限制解耦,Rhoda AI 顯著縮短了可擴展機器人自主化的時間表。4.5 億美元的新資金確保了公司擁有精煉 FutureVision 並將其部署到全球供應鏈所需的運算資源和工程人才。
從可程式化機器向真正智慧的實體代理的轉變不再是一個遙遠的理論概念。憑藉其直接影片動作框架、強大的資金支持以及對現實世界工業實用性的關注,Rhoda AI 正在積極編寫人工智慧革命的下一章——機器人終於走出實驗室,走進複雜的現實世界。