AI News

Rhoda AIがステルス状態から脱却し、物理的知性を再定義

ロボット工学業界は、長年ある根本的な限界に直面してきました。それは、制御された実験室環境では完璧に動作するマシンが、予測不可能な産業環境の現実にさらされるとしばしば失敗するという点です。パロアルトを拠点とするRhoda AIは、18か月に及ぶステルスフェーズを正式に終了し、このまさに課題に対処することを発表しました。同社は、記念碑的な4億5,000万ドルのシリーズA資金調達ラウンドを公表しました。この大規模な資本注入により、同社のポストマネー評価額は17億ドルに達し、ロボット知能に対するパラダイムシフト的なアプローチへの絶大な市場の信頼を示しています。

Creati.aiの視点から見れば、この進展は物理的AI(Physical AI)の進化における画期的な瞬間を象徴しています。ロボットに動きを教えるために膨大な数の人間のオペレーターに頼るのではなく、Rhoda AIはインターネット上に公開されている未活用の膨大なビデオのリポジトリを活用しています。数億本ものビデオクリップで基盤モデルをトレーニングすることで、同社はデジタル人工知能と物理的な現実世界での相互作用との間の溝を埋め、業界が数十年にわたり求めてきた汎用能力を提供することを目指しています。

財務状況:評価額と戦略的投資家

シリーズAラウンドで4億5,000万ドルを確保することは、資金豊富なAIセクターにおいてさえ稀であり、Rhoda AIが築き上げた強力な技術基盤を裏付けています。このラウンドは、永続的なエンタープライズ技術への長期的な戦略的投資で知られるPremji Investがリードしました。流入した資金は、産業展開の拡大、顧客パイロットプログラムの加速、そして生成AI(Generative AI)、コンピュータビジョン、ロボット工学の多分野にわたる専門家チームの積極的な増員に充てられる予定です。

資本構成表(Cap Table)には、ディープテックおよびベンチャーキャピタル分野で最も影響力のある組織のコンソーシアムが名を連ねています。この多様な支持は、Rhoda AIに比類のない財務的基盤を提供するだけでなく、グローバルな製造およびサプライチェーンネットワークへの戦略的な道筋をもたらします。

Rhoda AIの戦略的支援者

投資家カテゴリー 組織または個人 戦略的価値
リード投資家 Premji Invest 長期的な資本コミットメントと戦略的スケーリングの専門知識
グローバル機関・政府系 Temasek 国際市場へのアクセスと大規模な機関展開チャネル
ティア1ベンチャーキャピタル Khosla Ventures
Mayfield
Matter Venture Partners
ディープテックエコシステムとの繋がりと、初期段階の運営ガイダンス
個人のテックリーダー John Doerr シリコンバレーの伝説的な運営・戦略的メンターシップ
気候・フロンティアテック Capricorn Investment Group
Prelude Ventures
変革をもたらすハードウェア重視の産業イノベーションへの注力

Premji InvestのマネージングパートナーであるSandesh Patnam氏は、インテリジェントで高度な操作が可能なロボットを大規模に展開することに最初に成功した企業が、強力な「データフライホイール」を始動させることになると強調しました。この複利的な優位性は、従来のロボットシステムを現在阻んでいる、現実世界の複雑なエッジケース(特殊事例)のロングテールを捉える上で極めて重要になります。

テレオペレーションのボトルネックの克服

Rhoda AIの技術的飛躍の意義を理解するには、ロボット基盤モデルの現状を検証することが不可欠です。現在の主流な手法は、視覚・言語・行動(Vision-Language-Action: VLA)モデルに大きく依存しています。これらのシステムは印象的な能力を示してきましたが、主な学習メカニズムはテレオペレーション(Teleoperation)、つまり人間がロボットの動きを遠隔操作してトレーニングデータを生成するプロセスです。

このテレオペレーション優先のアプローチには、深刻なスケーラビリティの限界があります。テレオペレーションデータのみでトレーニングされたロボットは、手動で操作された特定の環境の物理法則や空間力学しか理解できません。カメラの角度が変わったり、照明が変化したり、あるいは以前に見たことのないオブジェクトが導入されたりすると、モデルは非常に失敗しやすくなります。ロボットは、その狭いトレーニング分布の外側で物理世界がどのように動作するかという汎用的な理解を欠いています。

Rhoda AIは、インターネット規模のビデオを物理的真実の究極のソースとして扱うことで、このボトルネックを体系的に打破しています。

ダイレクト・ビデオ・アクション(DVA)の仕組み

Rhoda AIのブレイクスルーの核心にあるのは、独自のDirect Video Action(DVA)アーキテクチャです。このビデオ優先の戦略は、数千時間の手動テレオペレーションの必要性を完全に回避します。トレーニングパイプラインは、人間が世界について学ぶ方法を模倣した2つの明確なフェーズに分かれています。まず「観察」があり、その後に「特定の運動練習」が続きます。

まず、DVAモデルは数億本の公開インターネットビデオを使用して大規模な事前学習を行います。この段階で、動き、物理、力学、およびオブジェクトの相互作用に関する堅牢な「世界モデル(World model)」、あるいは強力な事前知識を構築します。道具を操る人間の手から、物体が落下し、転がり、衝突する様子まで、無数のシナリオを観察することで、AIは物理法則に対する先天的な理解を深めます。何百万もの方向からオブジェクトを見てきたことで、テレオペレーションが本質的に欠いている汎用能力を身につけます。

この広範な事前学習に続いて、モデルは非常に効率的な事後学習フェーズに移行します。Rhoda AIは、最小限のロボット固有のテレメトリデータ(多くの場合、わずか10〜20時間のテレオペレーション)を利用して、その膨大な視覚的理解を、物理的なロボットアームやヒューマノイドの身体の特定の運動学的制約へとマッピングします。

ロボット工学におけるアーキテクチャの比較

機能 従来のVLAモデル Rhoda AI DVAアーキテクチャ
主なトレーニングデータ 実験室での広範な人間によるテレオペレーション インターネット規模の公開ビデオ
事後学習の要件 特定のタスクごとに数百から数千時間 10〜20時間のターゲットを絞ったロボットテレメトリ
制御メカニズム 多くの場合、オープンループまたは低頻度のフィードバック クローズドループ、高頻度の動的アップデート
メモリとコンテキスト 短期的、限定的なフレーム履歴の処理 長文脈視覚メモリ(数百フレーム)
環境適応性 硬直的で、未知のレイアウトに苦戦することが多い 適応性が高く、物理を意識した汎用化が可能

FutureVision:クローズドループ制御と長文脈メモリ

DVAアーキテクチャの商業的具現化が、Rhoda AIが新たに発表したロボット知能プラットフォームであるFutureVisionです。ハードウェアに依存しない(ハードウェア・アグノスティック)設計のFutureVisionは、幅広い既存のロボットシステムと統合できるため、製造および物流事業者はレガシーなハードウェアを廃棄することなくオートメーション機能をアップグレードできます。

FutureVisionの決定的な特徴は、クローズドループ・ビデオ予測制御です。動作計画を生成して継続的なフィードバックなしに実行する従来のオープンループ・アプローチとは異なり、FutureVisionは非常に動的です。システムは継続的に環境を観察し、将来の物理的状態をビデオフレームとして予測し、それらの予測を機械的なアクションに変換して実行し、再び世界を観察します。このサイクルが数百ミリ秒ごとに繰り返され、リアルタイムで正確かつ物理を意識した制御を可能にします。グリッパーから物体が滑り落ちたり、コンベアベルト上の箱がずれたりした場合、システムは即座に軌道を修正します。

さらに、FutureVisionは長文脈視覚メモリ(Long-Context Visual Memory)を通じて、視覚的な曖昧さという重大な問題を解決します。標準的なVLAモデルは、通常、直近の数枚の視覚フレームしか処理しません。Rhodaのアーキテクチャは、数百フレームの履歴をネイティブに処理します。この能力を証明するために、Rhoda AIは「カップの中の物体を当てるゲーム(Shell Game)」のチャレンジをデモンストレーションしました。ロボットはカップの下に隠され、シャッフルされる物体を追跡することに成功しました。継続的な視覚メモリを維持することで、ロボットは「物の永続性(Object permanence)」を保持します。これは、物体が一時的に視界から消えてもフリーズすることを防ぐ、高度な認知のマイルストーンです。

産業展開:実験室から工場フロアへ

あらゆる物理的AI企業にとっての究極のテストは、構造化されていない、混沌とした商業環境でのパフォーマンスです。Rhoda AIは、テクノロジーを導入するために完璧な条件が整うのを待ってはいません。同社は、世界最大級の自動車工場の一つで、自社のハードウェアが自律的に稼働していることをすでに実証しています。

自動車製造に加えて、物流も主要なターゲットです。Rhoda AIは、物流業界において悪名高く困難なタスクである「返品処理(Returns processing)」のような複雑なワークフローに取り組んでいます。返品処理は、見た目が似ているパッケージが仕分けパイプラインにおいて全く異なる状態を表す可能性があるため、高い視覚的曖昧さを伴います。長文脈視覚メモリを活用することで、FutureVisionはロボットに空間認識とワークフローのコンテキストを維持させ、人間の介入の必要性を劇的に削減します。

これらのロボットが工場や倉庫で稼働するにつれ、エッジケースのデータが継続的にRhoda AIへとストリーミングされます。これにより、待望のデータフライホイールが始動します。ロボットが現実世界で稼働すればするほど、基盤モデルはより堅牢になり、物理的人工汎用知能(Physical AGI)への道が加速されます。

物理的AGIのビジョンを推進するリーダーシップ

Rhoda AIの急速な台頭は、非常に複雑で資本集約的なディープテック・ベンチャーをスケーリングしてきた実績のあるリーダーシップチームに支えられています。CEO兼共同創業者のJagdeep Singh氏は、極めて貴重な運営経験をもたらしています。先駆的な全固体電池メーカーであるQuantumScapeを創設し率いたシリアルアントレプレナーとして、Singh氏は革新的なハードウェアとソフトウェアの交差点を量産体制に持ち込む際の課題を深く理解しています。

Singh氏の運営上の専門知識を補完するのは、スタンフォード大学出身の著名なコンピュータビジョン研究者である最高科学責任者(CSO)のEric Ryan Chan氏です。自己回帰的なビデオ予測と基盤モデルに関するChan氏の深い技術的洞察は、Direct Video Actionアーキテクチャの背後にある学術的かつ実践的なエンジンとして機能しています。彼らは共に、生成AIと物理的オートメーションの最前線に位置する、世界クラスの多分野チームを編成しました。

競争環境と今後の展望

Creati.aiでは、Rhoda AIの大規模なシリーズAを、より広範なロボット工学の軍拡競争における決定的な触媒であると見ています。インテリジェントな産業用ロボットの市場は急速に拡大しており、主要なテクノロジーコングロマリットや特化したスタートアップが覇権を争っています。しかし、Rhoda AIの独特な「ビデオ優先」戦略は、独自の競争上の優位性(Moat)を築いています。競合他社が独自のロボットデータを収集するために大規模なテレオペレーションセンターを建設する一方で、Rhoda AIはインターネット全体をトレーニング場として効果的に活用しています。

物理的知識の獲得をロボットハードウェアの物理的制限から切り離すことで、Rhoda AIはスケーラブルなロボットの自律性実現までのタイムラインを劇的に加速させました。4億5,000万ドルの新規資本により、同社はFutureVisionを洗練させ、グローバルなサプライチェーン全体に展開するために必要な計算リソースとエンジニアリングの才能を確保しています。

プログラミングされた機械から、真に知的な物理的エージェントへの移行は、もはや遠い理論的な概念ではありません。Direct Video Actionフレームワーク、膨大な資金的裏付け、そして現実世界の産業的有用性への注力により、Rhoda AIは人工知能革命の次なる章を積極的に書き換えています。それは、ロボットがついに実験室を出て、現実世界の複雑さの中へと足を踏み入れる章です。

フィーチャー
AdsCreator.com
任意のウェブサイト URL から、Meta、Google、Stories 向けのブランドに沿った洗練された広告クリエイティブを即座に生成します。
VoxDeck
視覚革命をリードするAIプレゼンテーションメーカー
Refly.ai
Refly.AI は、非技術系のクリエイターが自然言語と視覚的キャンバスを使ってワークフローを自動化できるようにするプラットフォームです。
FineVoice
文字を感情に変える — 数秒で表現力豊かなAIボイスをクローン、デザイン、作成しよう。
BGRemover
SharkFoto BGRemoverでオンラインで簡単に画像の背景を削除できます。
Flowith
Flowithは、無料の🍌Nano Banana Proやその他の効果的なモデルを提供するキャンバスベースのエージェント型ワークスペースです...
Qoder
Qoderは、ソフトウェアプロジェクトの計画、コーディング、テストを自動化するAI駆動のコーディングアシスタントです。
Skywork.ai
Skywork AIは、生産性を向上させるための革新的なAIツールです。
FixArt AI
FixArt AI はサインアップ不要で、無料かつ制限なしの画像・動画生成用AIツールを提供します。
Elser AI
テキストと画像をアニメ風アート、キャラクター、音声、短編映画に変換するオールインワンのウェブスタジオ。
Pippit
Pippitの強力なAIツールでコンテンツ作成を向上させましょう!
SharkFoto
SharkFoto は、動画、画像、音楽を効率的に作成・編集するためのオールインワンの AI 搭載プラットフォームです。
Funy AI
想像をアニメに!画像やテキストからAIでビキニやキスの動画を生成。AI着せ替え機能も搭載。登録不要、完全無料!
KiloClaw
ホステッドの OpenClaw エージェント:ワンクリックでデプロイ、500以上のモデル、セキュアなインフラ、自動化されたエージェント管理をチームと開発者に提供します。
Diagrimo
Diagrimoはテキストをカスタマイズ可能なAI生成の図表やビジュアルに瞬時に変換します。
SuperMaker AI Video Generator
SuperMakerを使って、驚くべき動画、音楽、画像を簡単に作成できます。
AI Clothes Changer by SharkFoto
SharkFoto の AI Clothes Changer は、フィット感、質感、ライティングまでリアルに再現した服を瞬時にバーチャル試着できます。
Yollo AI
AIパートナーとチャット&創作。画像から動画作成、AI画像生成機能も搭載。
AnimeShorts
最先端のAI技術を使用して、魅力的なアニメ短編を簡単に作成できます。
Claude API
Claude API for Everyone
Image to Video AI without Login
写真を瞬時に滑らかで高品質なアニメーション動画に変換する、透かしなしの無料イメージ→ビデオAIツールです。
InstantChapters
Instant Chaptersを使って、魅力的な書籍の章を瞬時に生成します。
NerdyTips
AI 搭載のサッカー予測プラットフォーム。世界中のリーグにわたって、データに基づく試合のヒントを提供します。
WhatsApp AI Sales
WABot は、リアルタイムのスクリプト、翻訳、インテント検出を提供する WhatsApp 向けの AI セールス コパイロットです。
Anijam AI
Anijamは、アイデアをエージェント型の動画制作によって洗練されたストーリーへと変える、AIネイティブのアニメーションプラットフォームです。
HappyHorseAIStudio
テキスト、画像、参照素材、動画編集に対応したブラウザベースのAI動画生成ツール。
wan 2.7-image
正確な顔、配色、テキスト、ビジュアルの一貫性を制御できるAI画像生成ツールです。
AI Video API: Seedance 2.0 Here
1つのキーで最先端の生成モデルをより低コストで提供する統合AI動画APIです。
insmelo AI Music Generator
プロンプト、歌詞、またはアップロードを約1分で洗練されたロイヤリティフリーの曲に変換するAI駆動の音楽ジェネレーターです。
happy horse AI
テキストや画像から同期した動画と音声を生成するオープンソースのAI動画生成ツールです。
BeatMV
楽曲を映画のようなミュージックビデオに変換し、AIで音楽を作成するウェブベースのAIプラットフォームです。
UNI-1 AI
UNI-1は視覚的推論と高忠実度の画像合成を組み合わせた統合画像生成モデルです。
Iara Chat
Iara Chat: AIによる生産性とコミュニケーションのアシスタント。
Kirkify
Kirkify AI はミーム作成者向けに、特徴的なネオングリッチ美学を備えた顔入れ替えのバイラルミームを瞬時に生成します。
Text to Music
テキストや歌詞を、AI生成のボーカル、楽器、マルチトラック書き出しを含むフルのスタジオ品質の楽曲に変換します。
Wan 2.7
プロ仕様のAIビデオモデル。精密な動作制御とマルチビューの一貫性を実現します。
kinovi - Seedance 2.0 - Real Man AI Video
リアルな人物を出力する無料のAI動画ジェネレーター。透かしなし、商用利用権付き。
Tome AI PPT
AI搭載のプレゼン作成ツール。数分でプロフェッショナルなスライドデッキを生成、整形、エクスポートします。
Video Sora 2
Sora 2 AIはテキストや画像を数分で短く物理的に正確なソーシャル/eコマース向けビデオに変換します。
Lyria3 AI
テキストのプロンプト、歌詞、スタイルから高音質で完全に制作された曲を瞬時に作成するAI音楽ジェネレーター。
Atoms
マルチエージェント自動化によりコード不要で数分でフルスタックのアプリやウェブサイトを構築するAI駆動プラットフォーム。
Paper Banana
学術テキストを即座に投稿準備が整った方法図や正確な統計図に変換する、AI搭載ツールです。
AI Pet Video Generator
AI駆動のテンプレートと即時HD書き出しを使って、写真からバイラルで共有しやすいペット動画を作成します。SNS向けに最適化されています。
Ampere.SH
無料の管理された OpenClaw ホスティング。$500 の Claude クレジットで 60 秒で AI エージェントをデプロイできます。
GenPPT.AI
AI駆動のPPT作成ツール。数分でスピーカーノートとグラフ付きのプロフェッショナルなPowerPointプレゼンテーションを作成、整形、エクスポートします。
Hitem3D
Hitem3Dは単一の画像をAIで高解像度かつプロダクション対応の3Dモデルに変換します。
Palix AI
クリエイター向けのオールインワンAIプラットフォーム。統一されたクレジットで画像、動画、音楽を生成できます。
HookTide
あなたの声を学習してコンテンツ作成・エンゲージメント・パフォーマンス分析を行うAI搭載のLinkedIn成長プラットフォームです。
Seedance 20 Video
Seedance 2 は、一貫したキャラクター、マルチショットの物語表現、2K のネイティブ音声を提供するマルチモーダルな AI 動画ジェネレーターです。
Create WhatsApp Link
分析機能、ブランドリンク、ルーティング、マルチエージェントチャット機能を備えた無料のWhatsAppリンク&QRジェネレーター。
Gobii
Gobii はチームが 24 時間 365 日稼働する自律型デジタルワーカーを作成し、ウェブ調査やルーティンタスクを自動化できるようにします。
Veemo - AI Video Generator
Veemo AIは、テキストや画像から高品質な動画と画像を素早く生成するオールインワンプラットフォームです。
Free AI Video Maker & Generator
無料 AI 動画メーカー&ジェネレーター – 無制限、登録不要
AI FIRST
自然言語を通じてリサーチ、ブラウザ作業、ウェブスクレイピング、ファイル管理を自動化する会話型AIアシスタント。
GLM Image
GLM Image は自己回帰モデルと拡散モデルを組み合わせたハイブリッド方式で、高忠実度のAI画像を生成し、優れたテキストレンダリングを実現します。
WhatsApp Warmup Tool
AI 搭載の WhatsApp ウォームアップツールは、大量メッセージ送信を自動化しつつアカウント停止を防ぎます。
ainanobanana2
Nano Banana 2 は、正確なテキストレンダリングと被写体の一貫性を保ちながら、4~6秒でプロ品質の4K画像を生成します。
TextToHuman
AIテキストを瞬時に自然で人間らしい文体に書き直す無料のAI人間化ツール。サインアップ不要。
Manga Translator AI
AI Manga Translatorは漫画画像をオンラインで瞬時に複数の言語に翻訳します。
Remy - Newsletter Summarizer
Remyはメールを短くて分かりやすい洞察にまとめることでニュースレター管理を自動化します。

Rhoda AI、インターネット動画を使ってロボットを訓練するために17億ドルの評価で4.5億ドルを調達

パロアルト拠点のRhoda AIは、Premji Investが主導するシリーズAで4.5億ドルを確保し、評価額は17億ドルに達しました。公開されているインターネット動画を用い、'Direct Video Action'アプローチで学習させた基礎的なロボットモデルを開発し、テレオペレーションだけでは得られない汎化能力をロボットに付与することを目指しています。