Rhoda AI、インターネット動画を使ってロボットを訓練するために17億ドルの評価で4.5億ドルを調達

Rhoda AIがステルス状態から脱却し、物理的知性を再定義

ロボット工学業界は、長年ある根本的な限界に直面してきました。それは、制御された実験室環境では完璧に動作するマシンが、予測不可能な産業環境の現実にさらされるとしばしば失敗するという点です。パロアルトを拠点とするRhoda AIは、18か月に及ぶステルスフェーズを正式に終了し、このまさに課題に対処することを発表しました。同社は、記念碑的な4億5,000万ドルのシリーズA資金調達ラウンドを公表しました。この大規模な資本注入により、同社のポストマネー評価額は17億ドルに達し、ロボット知能に対するパラダイムシフト的なアプローチへの絶大な市場の信頼を示しています。

Creati.aiの視点から見れば、この進展は物理的AI（Physical AI）の進化における画期的な瞬間を象徴しています。ロボットに動きを教えるために膨大な数の人間のオペレーターに頼るのではなく、Rhoda AIはインターネット上に公開されている未活用の膨大なビデオのリポジトリを活用しています。数億本ものビデオクリップで基盤モデルをトレーニングすることで、同社はデジタル人工知能と物理的な現実世界での相互作用との間の溝を埋め、業界が数十年にわたり求めてきた汎用能力を提供することを目指しています。

財務状況：評価額と戦略的投資家

シリーズAラウンドで4億5,000万ドルを確保することは、資金豊富なAIセクターにおいてさえ稀であり、Rhoda AIが築き上げた強力な技術基盤を裏付けています。このラウンドは、永続的なエンタープライズ技術への長期的な戦略的投資で知られるPremji Investがリードしました。流入した資金は、産業展開の拡大、顧客パイロットプログラムの加速、そして生成AI（Generative AI）、コンピュータビジョン、ロボット工学の多分野にわたる専門家チームの積極的な増員に充てられる予定です。

資本構成表（Cap Table）には、ディープテックおよびベンチャーキャピタル分野で最も影響力のある組織のコンソーシアムが名を連ねています。この多様な支持は、Rhoda AIに比類のない財務的基盤を提供するだけでなく、グローバルな製造およびサプライチェーンネットワークへの戦略的な道筋をもたらします。

Rhoda AIの戦略的支援者

投資家カテゴリー	組織または個人	戦略的価値
リード投資家	Premji Invest	長期的な資本コミットメントと戦略的スケーリングの専門知識
グローバル機関・政府系	Temasek	国際市場へのアクセスと大規模な機関展開チャネル
ティア1ベンチャーキャピタル	Khosla Ventures Mayfield Matter Venture Partners	ディープテックエコシステムとの繋がりと、初期段階の運営ガイダンス
個人のテックリーダー	John Doerr	シリコンバレーの伝説的な運営・戦略的メンターシップ
気候・フロンティアテック	Capricorn Investment Group Prelude Ventures	変革をもたらすハードウェア重視の産業イノベーションへの注力

Premji InvestのマネージングパートナーであるSandesh Patnam氏は、インテリジェントで高度な操作が可能なロボットを大規模に展開することに最初に成功した企業が、強力な「データフライホイール」を始動させることになると強調しました。この複利的な優位性は、従来のロボットシステムを現在阻んでいる、現実世界の複雑なエッジケース（特殊事例）のロングテールを捉える上で極めて重要になります。

テレオペレーションのボトルネックの克服

Rhoda AIの技術的飛躍の意義を理解するには、ロボット基盤モデルの現状を検証することが不可欠です。現在の主流な手法は、視覚・言語・行動（Vision-Language-Action: VLA）モデルに大きく依存しています。これらのシステムは印象的な能力を示してきましたが、主な学習メカニズムはテレオペレーション（Teleoperation）、つまり人間がロボットの動きを遠隔操作してトレーニングデータを生成するプロセスです。

このテレオペレーション優先のアプローチには、深刻なスケーラビリティの限界があります。テレオペレーションデータのみでトレーニングされたロボットは、手動で操作された特定の環境の物理法則や空間力学しか理解できません。カメラの角度が変わったり、照明が変化したり、あるいは以前に見たことのないオブジェクトが導入されたりすると、モデルは非常に失敗しやすくなります。ロボットは、その狭いトレーニング分布の外側で物理世界がどのように動作するかという汎用的な理解を欠いています。

Rhoda AIは、インターネット規模のビデオを物理的真実の究極のソースとして扱うことで、このボトルネックを体系的に打破しています。

ダイレクト・ビデオ・アクション（DVA）の仕組み

Rhoda AIのブレイクスルーの核心にあるのは、独自のDirect Video Action（DVA）アーキテクチャです。このビデオ優先の戦略は、数千時間の手動テレオペレーションの必要性を完全に回避します。トレーニングパイプラインは、人間が世界について学ぶ方法を模倣した2つの明確なフェーズに分かれています。まず「観察」があり、その後に「特定の運動練習」が続きます。

まず、DVAモデルは数億本の公開インターネットビデオを使用して大規模な事前学習を行います。この段階で、動き、物理、力学、およびオブジェクトの相互作用に関する堅牢な「世界モデル（World model）」、あるいは強力な事前知識を構築します。道具を操る人間の手から、物体が落下し、転がり、衝突する様子まで、無数のシナリオを観察することで、AIは物理法則に対する先天的な理解を深めます。何百万もの方向からオブジェクトを見てきたことで、テレオペレーションが本質的に欠いている汎用能力を身につけます。

この広範な事前学習に続いて、モデルは非常に効率的な事後学習フェーズに移行します。Rhoda AIは、最小限のロボット固有のテレメトリデータ（多くの場合、わずか10〜20時間のテレオペレーション）を利用して、その膨大な視覚的理解を、物理的なロボットアームやヒューマノイドの身体の特定の運動学的制約へとマッピングします。

ロボット工学におけるアーキテクチャの比較

機能	従来のVLAモデル	Rhoda AI DVAアーキテクチャ
主なトレーニングデータ	実験室での広範な人間によるテレオペレーション	インターネット規模の公開ビデオ
事後学習の要件	特定のタスクごとに数百から数千時間	10〜20時間のターゲットを絞ったロボットテレメトリ
制御メカニズム	多くの場合、オープンループまたは低頻度のフィードバック	クローズドループ、高頻度の動的アップデート
メモリとコンテキスト	短期的、限定的なフレーム履歴の処理	長文脈視覚メモリ（数百フレーム）
環境適応性	硬直的で、未知のレイアウトに苦戦することが多い	適応性が高く、物理を意識した汎用化が可能

FutureVision：クローズドループ制御と長文脈メモリ

DVAアーキテクチャの商業的具現化が、Rhoda AIが新たに発表したロボット知能プラットフォームであるFutureVisionです。ハードウェアに依存しない（ハードウェア・アグノスティック）設計のFutureVisionは、幅広い既存のロボットシステムと統合できるため、製造および物流事業者はレガシーなハードウェアを廃棄することなくオートメーション機能をアップグレードできます。

FutureVisionの決定的な特徴は、クローズドループ・ビデオ予測制御です。動作計画を生成して継続的なフィードバックなしに実行する従来のオープンループ・アプローチとは異なり、FutureVisionは非常に動的です。システムは継続的に環境を観察し、将来の物理的状態をビデオフレームとして予測し、それらの予測を機械的なアクションに変換して実行し、再び世界を観察します。このサイクルが数百ミリ秒ごとに繰り返され、リアルタイムで正確かつ物理を意識した制御を可能にします。グリッパーから物体が滑り落ちたり、コンベアベルト上の箱がずれたりした場合、システムは即座に軌道を修正します。

さらに、FutureVisionは長文脈視覚メモリ（Long-Context Visual Memory）を通じて、視覚的な曖昧さという重大な問題を解決します。標準的なVLAモデルは、通常、直近の数枚の視覚フレームしか処理しません。Rhodaのアーキテクチャは、数百フレームの履歴をネイティブに処理します。この能力を証明するために、Rhoda AIは「カップの中の物体を当てるゲーム（Shell Game）」のチャレンジをデモンストレーションしました。ロボットはカップの下に隠され、シャッフルされる物体を追跡することに成功しました。継続的な視覚メモリを維持することで、ロボットは「物の永続性（Object permanence）」を保持します。これは、物体が一時的に視界から消えてもフリーズすることを防ぐ、高度な認知のマイルストーンです。

産業展開：実験室から工場フロアへ

あらゆる物理的AI企業にとっての究極のテストは、構造化されていない、混沌とした商業環境でのパフォーマンスです。Rhoda AIは、テクノロジーを導入するために完璧な条件が整うのを待ってはいません。同社は、世界最大級の自動車工場の一つで、自社のハードウェアが自律的に稼働していることをすでに実証しています。

自動車製造に加えて、物流も主要なターゲットです。Rhoda AIは、物流業界において悪名高く困難なタスクである「返品処理（Returns processing）」のような複雑なワークフローに取り組んでいます。返品処理は、見た目が似ているパッケージが仕分けパイプラインにおいて全く異なる状態を表す可能性があるため、高い視覚的曖昧さを伴います。長文脈視覚メモリを活用することで、FutureVisionはロボットに空間認識とワークフローのコンテキストを維持させ、人間の介入の必要性を劇的に削減します。

これらのロボットが工場や倉庫で稼働するにつれ、エッジケースのデータが継続的にRhoda AIへとストリーミングされます。これにより、待望のデータフライホイールが始動します。ロボットが現実世界で稼働すればするほど、基盤モデルはより堅牢になり、物理的人工汎用知能（Physical AGI）への道が加速されます。

物理的AGIのビジョンを推進するリーダーシップ

Rhoda AIの急速な台頭は、非常に複雑で資本集約的なディープテック・ベンチャーをスケーリングしてきた実績のあるリーダーシップチームに支えられています。CEO兼共同創業者のJagdeep Singh氏は、極めて貴重な運営経験をもたらしています。先駆的な全固体電池メーカーであるQuantumScapeを創設し率いたシリアルアントレプレナーとして、Singh氏は革新的なハードウェアとソフトウェアの交差点を量産体制に持ち込む際の課題を深く理解しています。

Singh氏の運営上の専門知識を補完するのは、スタンフォード大学出身の著名なコンピュータビジョン研究者である最高科学責任者（CSO）のEric Ryan Chan氏です。自己回帰的なビデオ予測と基盤モデルに関するChan氏の深い技術的洞察は、Direct Video Actionアーキテクチャの背後にある学術的かつ実践的なエンジンとして機能しています。彼らは共に、生成AIと物理的オートメーションの最前線に位置する、世界クラスの多分野チームを編成しました。

競争環境と今後の展望

Creati.aiでは、Rhoda AIの大規模なシリーズAを、より広範なロボット工学の軍拡競争における決定的な触媒であると見ています。インテリジェントな産業用ロボットの市場は急速に拡大しており、主要なテクノロジーコングロマリットや特化したスタートアップが覇権を争っています。しかし、Rhoda AIの独特な「ビデオ優先」戦略は、独自の競争上の優位性（Moat）を築いています。競合他社が独自のロボットデータを収集するために大規模なテレオペレーションセンターを建設する一方で、Rhoda AIはインターネット全体をトレーニング場として効果的に活用しています。

物理的知識の獲得をロボットハードウェアの物理的制限から切り離すことで、Rhoda AIはスケーラブルなロボットの自律性実現までのタイムラインを劇的に加速させました。4億5,000万ドルの新規資本により、同社はFutureVisionを洗練させ、グローバルなサプライチェーン全体に展開するために必要な計算リソースとエンジニアリングの才能を確保しています。

プログラミングされた機械から、真に知的な物理的エージェントへの移行は、もはや遠い理論的な概念ではありません。Direct Video Actionフレームワーク、膨大な資金的裏付け、そして現実世界の産業的有用性への注力により、Rhoda AIは人工知能革命の次なる章を積極的に書き換えています。それは、ロボットがついに実験室を出て、現実世界の複雑さの中へと足を踏み入れる章です。