Rhoda AI lève 450 millions de dollars pour une valorisation de 1,7 milliard afin de former des robots à l'aide de vidéos Internet

Rhoda AI sort de l'ombre pour redéfinir l'intelligence physique (Physical Intelligence)

L'industrie de la robotique est depuis longtemps aux prises avec une limitation fondamentale : les machines qui fonctionnent parfaitement dans des environnements de laboratoire contrôlés échouent souvent lorsqu'elles sont exposées aux réalités imprévisibles des environnements industriels. Rhoda AI, basée à Palo Alto, a officiellement quitté sa phase furtive (stealth phase) de 18 mois pour relever précisément ce défi, en annonçant un tour de financement de série A monumental de 450 millions de dollars. Cette injection massive de capitaux propulse l'entreprise à une valorisation post-monétaire de 1,7 milliard de dollars, signalant une immense confiance du marché dans son approche révolutionnaire de l'intelligence robotique.

Du point de vue de Creati.ai, ce développement représente un moment charnière dans l'évolution de l' IA physique (physical AI). Plutôt que de s'appuyer sur des flottes massives d'opérateurs humains pour apprendre aux robots comment se déplacer, Rhoda AI exploite le vaste réservoir inexploité de vidéos publiques disponibles sur Internet. En entraînant des modèles de fondation (foundation models) sur des centaines de millions de clips vidéo, l'entreprise comble le fossé entre l'intelligence artificielle numérique et l'interaction physique dans le monde réel, visant à offrir les capacités de généralisation que l'industrie recherche depuis des décennies.

Le paysage financier : valorisations et investisseurs stratégiques

Sécuriser 450 millions de dollars lors d'un tour de série A est une rareté, même dans le secteur de l'IA riche en capitaux, soulignant la fondation technique redoutable que Rhoda AI a bâtie. Le tour a été mené par Premji Invest, une société connue pour ses investissements stratégiques à long terme dans les technologies d'entreprise durables. L'afflux de capitaux sera orienté vers l'expansion des déploiements industriels, l'accélération des programmes pilotes clients et la croissance agressive de l'équipe multidisciplinaire d'experts de Rhoda AI en IA générative (Generative AI), vision par ordinateur et robotique.

Le tableau de capitalisation comprend un consortium des entités les plus influentes de la deep-tech et du capital-risque. Ce soutien diversifié offre à Rhoda AI non seulement des ressources financières inégalées, mais aussi des ouvertures stratégiques dans les réseaux mondiaux de fabrication et de chaîne d'approvisionnement.

Investisseurs stratégiques de Rhoda AI

Catégorie d'investisseur	Entité ou individu	Valeur stratégique
Investisseur principal	Premji Invest	Engagement de capital à long terme et expertise en mise à l'échelle stratégique
Institutionnel mondial et souverain	Temasek	Accès aux marchés internationaux et aux canaux de déploiement institutionnels massifs
Capital-risque de premier plan (Tier-1)	Khosla Ventures Mayfield Matter Venture Partners	Connexions avec l'écosystème deep-tech et conseils opérationnels aux premiers stades
Dirigeants technologiques individuels	John Doerr	Mentorat opérationnel et stratégique légendaire de la Silicon Valley
Technologies climatiques et de pointe	Capricorn Investment Group Prelude Ventures	Focus sur l'innovation industrielle transformatrice et matérielle lourde

Sandesh Patnam, associé directeur chez Premji Invest, a souligné que la première entreprise à déployer avec succès des robots intelligents et capables de manipulation à grande échelle initiera un puissant « volant d'inertie de données » (data flywheel). Cet avantage cumulatif sera crucial pour capturer la longue traîne des cas limites du monde réel qui entravent actuellement les systèmes robotiques traditionnels.

Surmonter le goulot d'étranglement de la téléopération

Pour comprendre l'importance du saut technologique de Rhoda AI, il est essentiel d'examiner l'état actuel des modèles de fondation robotiques. La méthodologie dominante repose fortement sur les modèles Vision-Langage-Action (Vision-Language-Action - VLA). Bien que ces systèmes aient démontré des capacités impressionnantes, leur principal mécanisme d'apprentissage est la téléopération — un processus où des humains contrôlent à distance les mouvements du robot pour générer des données d'entraînement.

Cette approche axée sur la téléopération présente de sévères limites de mise à l'échelle. Un robot entraîné exclusivement sur des données de téléopération ne comprend que la physique et la dynamique spatiale des environnements spécifiques dans lesquels il a été conduit manuellement. Si un angle de caméra change, si l'éclairage varie ou si un objet inédit est introduit, le modèle est très susceptible de faillir. Le robot manque d'une compréhension généralisée du fonctionnement du monde physique en dehors de sa distribution d'entraînement étroite.

Rhoda AI démantèle systématiquement ce goulot d'étranglement en traitant la vidéo à l'échelle d'Internet comme la source ultime de vérité physique.

La mécanique de l'Action Vidéo Directe (Direct Video Action - DVA)

Au cœur de la percée de Rhoda AI se trouve son architecture propriétaire Direct Video Action (DVA). Cette stratégie axée sur la vidéo contourne entièrement le besoin de milliers d'heures de téléopération manuelle. Le pipeline d'entraînement est divisé en deux phases distinctes qui reflètent la manière dont les êtres humains apprennent le monde : l'observation suivie d'une pratique motrice spécifique.

Premièrement, le modèle DVA subit un pré-entraînement massif utilisant des centaines de millions de vidéos publiques sur Internet. Cette étape construit un « modèle du monde » robuste ou un a priori solide sur le mouvement, la physique, la dynamique et l'interaction des objets. En observant d'innombrables scénarios — des mains humaines manipulant des outils aux objets qui tombent, roulent et entrent en collision — l'IA développe une compréhension innée des lois physiques. Elle a vu des objets sous des millions d'orientations, ce qui lui confère la capacité de généralisation qui fait intrinsèquement défaut à la téléopération.

À la suite de cet entraînement extensif, le modèle subit une phase de post-entraînement hautement efficace. Rhoda AI utilise une quantité minimale de données de télémétrie spécifiques au robot — ne nécessitant souvent que 10 à 20 heures de téléopération — pour projeter sa vaste compréhension visuelle sur les contraintes cinématiques spécifiques d'un bras robotique physique ou d'un corps humanoïde.

Comparaison architecturale en robotique

Caractéristique	Modèles VLA traditionnels	Architecture DVA de Rhoda AI
Données d'entraînement principales	Téléopération humaine extensive en laboratoire	Vidéos publiques à l'échelle d'Internet
Exigences post-entraînement	Des centaines à des milliers d'heures par tâche spécifique	10 à 20 heures de télémétrie robotique ciblée
Mécanisme de contrôle	Souvent en boucle ouverte ou retour à basse fréquence	Boucle fermée, mises à jour dynamiques à haute fréquence
Mémoire et contexte	Court terme, traitement limité de l'historique des images	Mémoire visuelle à long contexte (centaines d'images)
Adaptabilité environnementale	Rigide, éprouve souvent des difficultés avec des configurations inconnues	Hautement adaptable, généralisation consciente de la physique

FutureVision : contrôle en boucle fermée et mémoire à long contexte

La manifestation commerciale de l'architecture DVA est FutureVision, la plateforme d'intelligence robotique nouvellement dévoilée par Rhoda AI. Conçue pour être indépendante du matériel (hardware-agnostic), FutureVision peut s'intégrer à un large éventail de systèmes robotiques existants, permettant aux opérateurs de fabrication et de logistique de mettre à niveau leurs capacités d'automatisation sans se débarrasser de leur matériel hérité.

Une caractéristique déterminante de FutureVision est son contrôle prédictif vidéo en boucle fermée (closed-loop). Contrairement aux approches traditionnelles en boucle ouverte qui génèrent un plan de mouvement et l'exécutent sans retour continu, FutureVision est farouchement dynamique. Le système observe continuellement son environnement, prédit les futurs états physiques sous forme d'images vidéo, convertit ces prédictions en actions mécaniques, les exécute et ré-observe le monde. Ce cycle se répète toutes les quelques centaines de millisecondes, permettant un contrôle précis et conscient de la physique en temps réel. Si un objet glisse d'une pince ou si une boîte bouge sur un tapis roulant, le système corrige instantanément sa trajectoire.

De plus, FutureVision résout le problème critique de l'ambiguïté visuelle grâce à la mémoire visuelle à long contexte (Long-Context Visual Memory). Les modèles VLA standard ne traitent généralement qu'une poignée d'images visuelles récentes. L'architecture de Rhoda traite nativement des centaines d'images d'historique. Pour prouver cette capacité, Rhoda AI a fait la démonstration d'un défi de « Bonneteau » (Shell Game) robotique, où le robot a suivi avec succès un objet caché déplacé sous des gobelets. En maintenant une mémoire visuelle continue, le robot conserve la permanence de l'objet — un jalon cognitif sophistiqué qui l'empêche de se figer lorsqu'un objet disparaît temporairement de sa vue.

Déploiement industriel : du laboratoire à l'usine

Le test ultime pour toute entreprise d'IA physique est sa performance dans des environnements commerciaux non structurés et chaotiques. Rhoda AI n'attend pas des conditions immaculées pour déployer sa technologie. L'entreprise a déjà démontré son matériel fonctionnant de manière autonome au sein de l'une des plus grandes usines automobiles du monde.

Au-delà de la fabrication automobile, la logistique reste une cible prioritaire. Rhoda AI s'attaque à des flux de travail complexes comme le traitement des retours, une tâche notoirement difficile dans l'industrie logistique. Le traitement des retours implique une grande ambiguïté visuelle, car des colis d'apparence similaire peuvent représenter des états entièrement différents dans le pipeline de tri. En exploitant sa mémoire visuelle à long contexte, FutureVision permet aux robots de maintenir une conscience spatiale et un contexte de flux de travail, réduisant considérablement le besoin d'intervention humaine.

À mesure que ces robots opèrent dans les usines et les entrepôts, ils renvoient continuellement des données sur les cas limites à Rhoda AI. Cela initie le volant d'inertie de données tant convoité : plus les robots opèrent dans le monde réel, plus le modèle de fondation devient robuste, accélérant la voie vers l'intelligence artificielle générale (Artificial General Intelligence - AGI) physique.

Un leadership au service de la vision de l'AGI physique

L'ascension rapide de Rhoda AI repose sur une équipe de direction ayant fait ses preuves dans la mise à l'échelle d'entreprises deep-tech complexes et à forte intensité de capital. Le PDG et cofondateur Jagdeep Singh apporte une expérience opérationnelle inestimable. En tant qu'entrepreneur en série ayant précédemment fondé et dirigé QuantumScape, le pionnier de la fabrication de batteries à l'état solide, Singh comprend intimement les défis liés à la production de masse d'intersections transformatrices entre matériel et logiciel.

L'expertise opérationnelle de Singh est complétée par le directeur scientifique (Chief Science Officer) Eric Ryan Chan, chercheur émérite en vision par ordinateur de l'Université de Stanford. Les connaissances techniques approfondies de Chan sur la prédiction vidéo autorégressive et les modèles de fondation servent de moteur académique et pratique à l'architecture Direct Video Action. Ensemble, ils ont réuni une équipe multidisciplinaire de classe mondiale située à la pointe de l'IA générative et de l'automatisation physique.

Le paysage concurrentiel et perspectives d'avenir

Chez Creati.ai, nous considérons la série A massive de Rhoda AI comme un catalyseur déterminant dans la course aux armements robotiques plus large. Le marché de la robotique industrielle intelligente est en pleine expansion, avec de grands conglomérats technologiques et des startups spécialisées se disputant la domination. Cependant, la stratégie distinctive « axée sur la vidéo » de Rhoda AI crée un fossé concurrentiel unique. Tandis que ses concurrents construisent des centres de téléopération de plus en plus vastes pour récolter des données robotiques propriétaires, Rhoda AI utilise efficacement l'intégralité d'Internet comme terrain d'entraînement.

En découplant l'acquisition de connaissances physiques des limitations physiques du matériel robotique, Rhoda AI a considérablement accéléré le calendrier de l'autonomie robotique évolutive. Les 450 millions de dollars de nouveaux capitaux garantissent que l'entreprise possède les ressources de calcul et le talent d'ingénierie nécessaires pour affiner FutureVision et le déployer à travers les chaînes d'approvisionnement mondiales.

La transition de machines programmables vers des agents physiques véritablement intelligents n'est plus un concept théorique lointain. Avec son cadre Direct Video Action, son soutien financier immense et son accent mis sur l'utilité industrielle concrète, Rhoda AI écrit activement le prochain chapitre de la révolution de l'intelligence artificielle — celui où les robots sortent enfin du laboratoire pour entrer dans les complexités du monde réel.