Rhoda AI recauda 450 millones de dólares con una valoración de 1.700 millones para entrenar robots usando videos de internet

Rhoda AI surge del sigilo para redefinir la inteligencia física

La industria de la robótica ha lidiado durante mucho tiempo con una limitación fundamental: las máquinas que funcionan perfectamente en entornos de laboratorio controlados a menudo fallan cuando se exponen a las realidades impredecibles de los entornos industriales. Rhoda AI, con sede en Palo Alto, ha salido oficialmente de su fase de sigilo de 18 meses para abordar exactamente este desafío, anunciando una monumental ronda de financiación Serie A de 450 millones de dólares. Esta inyección masiva de capital catapulta a la empresa a una valoración posterior al dinero de 1.700 millones de dólares, lo que indica una inmensa confianza del mercado en su enfoque de cambio de paradigma hacia la inteligencia robótica.
Desde la perspectiva de Creati.ai, este desarrollo representa un momento decisivo en la evolución de la IA física (Physical AI). En lugar de depender de flotas masivas de operadores humanos para enseñar a los robots cómo moverse, Rhoda AI está aprovechando el vasto e inexplorado repositorio de videos de internet disponibles públicamente. Al entrenar modelos fundacionales en cientos de millones de clips de video, la empresa está cerrando la brecha entre la inteligencia artificial digital y la interacción física en el mundo real, con el objetivo de ofrecer las capacidades de generalización que la industria ha buscado durante décadas.

El panorama financiero: Valoraciones e inversores estratégicos

Asegurar 450 millones de dólares en una ronda Serie A es una rareza incluso en el sector de la IA, rico en efectivo, lo que subraya la formidable base técnica que Rhoda AI ha construido. La ronda fue liderada por Premji Invest, una firma conocida por sus inversiones estratégicas a largo plazo en tecnologías empresariales duraderas. La afluencia de capital se dirigirá a expandir los despliegues industriales, acelerar los programas piloto con clientes y hacer crecer agresivamente el equipo multidisciplinario de expertos de Rhoda AI en IA generativa (Generative AI), visión por computadora y robótica.
La tabla de capitalización cuenta con un consorcio de las entidades más influyentes en tecnología profunda (deep-tech) y capital de riesgo. Este respaldo diverso proporciona a Rhoda AI no solo pistas financieras sin precedentes, sino también incursiones estratégicas en las redes globales de fabricación y cadena de suministro.
Respaldos estratégicos de Rhoda AI

Categoría de inversor	Entidad o individuo	Valor estratégico
Inversor principal	Premji Invest	Compromiso de capital a largo plazo y experiencia en escalado estratégico
Institucional global y soberano	Temasek	Acceso a mercados internacionales y canales de despliegue institucional masivos
Capital de riesgo de nivel 1	Khosla Ventures Mayfield Matter Venture Partners	Conexiones con el ecosistema de tecnología profunda y orientación operativa en etapas tempranas
Líderes tecnológicos individuales	John Doerr	Mentoría operativa y estratégica legendaria de Silicon Valley
Tecnología climática y de frontera	Capricorn Investment Group Prelude Ventures	Enfoque en innovación industrial transformadora y pesada en hardware
Sandesh Patnam, socio director de Premji Invest, enfatizó que la primera empresa que despliegue con éxito robots inteligentes con capacidad de manipulación a escala iniciará un poderoso "volante de datos" (data flywheel). Esta ventaja acumulativa será crucial para capturar la larga cola de casos límite del mundo real que actualmente obstaculizan los sistemas robóticos tradicionales.

Superar el cuello de botella de la teleoperación

Para comprender la importancia del salto tecnológico de Rhoda AI, es esencial examinar el estado actual de los modelos fundacionales de robots. La metodología predominante se basa en gran medida en los modelos de Visión-Lenguaje-Acción (Vision-Language-Action o VLA). Si bien estos sistemas han demostrado capacidades impresionantes, su principal mecanismo de aprendizaje es la teleoperación, un proceso en el que los humanos controlan de forma remota los movimientos del robot para generar datos de entrenamiento.
Este enfoque centrado en la teleoperación tiene severos límites de escalabilidad. Un robot entrenado exclusivamente en datos de teleoperación solo comprende la física y la dinámica espacial de los entornos específicos en los que fue conducido manualmente. Si un ángulo de cámara cambia, la iluminación varía o se introduce un objeto no visto anteriormente, el modelo es altamente susceptible al fallo. El robot carece de una comprensión generalizada de cómo funciona el mundo físico fuera de su estrecha distribución de entrenamiento.
Rhoda AI desmantela sistemáticamente este cuello de botella al tratar el video a escala de internet como la fuente definitiva de la verdad física.

La mecánica de la Acción de Video Directa (Direct Video Action)

En el núcleo del avance de Rhoda AI se encuentra su arquitectura patentada Acción de Video Directa (Direct Video Action o DVA). Esta estrategia centrada en el video evita por completo la necesidad de miles de horas de teleoperación manual. El flujo de entrenamiento se divide en dos fases distintas que reflejan la forma en que los seres humanos aprenden sobre el mundo: la observación seguida de la práctica motora específica.
Primero, el modelo DVA se somete a un preentrenamiento masivo utilizando cientos de millones de videos públicos de internet. Esta etapa construye un robusto "modelo de mundo" (world model) o una fuerte prioridad sobre el movimiento, la física, la dinámica y la interacción de objetos. Al observar innumerables escenarios, desde manos humanas manipulando herramientas hasta objetos que caen, ruedan y chocan, la IA desarrolla una comprensión innata de las leyes físicas. Ha visto objetos desde millones de orientaciones, lo que le otorga la capacidad de generalización de la que carece intrínsecamente la teleoperación.
Tras este extenso preentrenamiento, el modelo se somete a una fase de postentrenamiento altamente eficiente. Rhoda AI utiliza una cantidad mínima de datos de telemetría específicos del robot, que a menudo requieren solo de 10 a 20 horas de teleoperación, para mapear su vasta comprensión visual a las limitaciones cinemáticas específicas de un brazo robótico físico o un cuerpo humanoide.
Comparación arquitectónica en robótica

Característica	Modelos VLA tradicionales	Arquitectura DVA de Rhoda AI
Datos de entrenamiento primarios	Teleoperación humana extensa en laboratorios	Videos públicos a escala de internet
Requisito de postentrenamiento	Cientos a miles de horas por tarea específica	10 a 20 horas de telemetría robótica dirigida
Mecanismo de control	A menudo de bucle abierto o retroalimentación de baja frecuencia	Bucle cerrado, actualizaciones dinámicas de alta frecuencia
Memoria y contexto	Corto plazo, procesamiento limitado del historial de cuadros	Memoria visual de contexto largo (cientos de cuadros)
Adaptabilidad ambiental	Rígida, frecuentemente tiene dificultades con diseños no vistos	Altamente adaptable, generalización consciente de la física

FutureVision: Control de bucle cerrado y memoria visual de contexto largo

La manifestación comercial de la arquitectura DVA es FutureVision, la plataforma de inteligencia robótica recién presentada de Rhoda AI. Diseñada para ser agnóstica al hardware, FutureVision puede integrarse con una amplia gama de sistemas robóticos existentes, lo que permite a los operadores de fabricación y logística actualizar sus capacidades de automatización sin descartar el hardware heredado.
Una característica definitoria de FutureVision es su control predictivo de video de bucle cerrado (closed-loop). A diferencia de los enfoques tradicionales de bucle abierto que generan un plan de movimiento y lo ejecutan sin retroalimentación continua, FutureVision es intensamente dinámico. El sistema observa continuamente su entorno, predice estados físicos futuros como cuadros de video, convierte esas predicciones en acciones mecánicas, las ejecuta y vuelve a observar el mundo. Este ciclo se repite cada pocos cientos de milisegundos, permitiendo un control preciso y consciente de la física en tiempo real. Si un objeto se resbala de una pinza o una caja se desplaza en una cinta transportadora, el sistema corrige instantáneamente su trayectoria.
Además, FutureVision resuelve el problema crítico de la ambigüedad visual a través de la Memoria Visual de Contexto Largo (Long-Context Visual Memory). Los modelos VLA estándar generalmente procesan solo un puñado de cuadros visuales recientes. La arquitectura de Rhoda procesa de forma nativa cientos de cuadros de historial. Para demostrar esta capacidad, Rhoda AI presentó el desafío robótico del "Juego de los cubiletes" (Shell Game), donde el robot rastreó con éxito un objeto oculto que se barajaba debajo de vasos. Al mantener una memoria visual continua, el robot conserva la permanencia del objeto, un hito cognitivo sofisticado que evita que se congele cuando un objeto desaparece temporalmente de la vista.

Despliegue industrial: Del laboratorio a la planta de fabricación

La prueba definitiva para cualquier empresa de IA física es su rendimiento en entornos comerciales desestructurados y caóticos. Rhoda AI no está esperando condiciones prístinas para desplegar su tecnología. La empresa ya ha demostrado su hardware operando de forma autónoma dentro de una de las fábricas de automóviles más grandes del mundo.
Más allá de la fabricación de automóviles, la logística sigue siendo un objetivo principal. Rhoda AI está abordando flujos de trabajo complejos como el procesamiento de devoluciones, una tarea notoriamente difícil en la industria logística. El procesamiento de devoluciones implica una alta ambigüedad visual, ya que paquetes de apariencia similar pueden representar estados completamente diferentes en el flujo de clasificación. Al aprovechar su Memoria Visual de Contexto Largo, FutureVision permite a los robots mantener la conciencia espacial y el contexto del flujo de trabajo, reduciendo drásticamente la necesidad de intervención humana.
A medida que estos robots operan en fábricas y almacenes, transmiten continuamente datos de casos límite de vuelta a Rhoda AI. Esto inicia el codiciado volante de datos: cuanto más operan los robots en el mundo real, más robusto se vuelve el modelo fundacional, acelerando el camino hacia la inteligencia artificial general física.

Liderazgo que impulsa la visión de la AGI física

El rápido ascenso de Rhoda AI está anclado en un equipo de liderazgo con una trayectoria comprobada en el escalado de empresas de tecnología profunda altamente complejas y con un uso intensivo de capital. El CEO y cofundador Jagdeep Singh aporta una valiosa experiencia operativa. Como emprendedor en serie que anteriormente fundó y dirigió QuantumScape, el fabricante pionero de baterías de estado sólido, Singh comprende íntimamente los desafíos de llevar las intersecciones transformadoras de hardware y software a la producción en masa.
Complementando la experiencia operativa de Singh está el Director Científico (Chief Science Officer), Eric Ryan Chan, un distinguido investigador de visión por computadora de la Universidad de Stanford. Los profundos conocimientos técnicos de Chan en la predicción de video autorregresiva y los modelos fundacionales sirven como el motor académico y práctico detrás de la arquitectura Direct Video Action. Juntos, han reunido un equipo multidisciplinario de clase mundial que se sitúa a la vanguardia de la IA generativa y la automatización física.

El panorama competitivo y las perspectivas futuras

En Creati.ai, vemos la masiva Serie A de Rhoda AI como un catalizador definitorio en la carrera armamentista robótica más amplia. El mercado de la robótica industrial inteligente se está expandiendo rápidamente, con grandes conglomerados tecnológicos y startups especializadas compitiendo por el dominio. Sin embargo, la distintiva estrategia de Rhoda AI "primero el video" (video-first) construye una barrera competitiva única. Mientras los competidores construyen centros de teleoperación cada vez más grandes para cosechar datos robóticos patentados, Rhoda AI está utilizando de manera efectiva la totalidad de internet como su campo de entrenamiento.
Al desacoplar la adquisición de conocimiento físico de las limitaciones físicas del hardware robótico, Rhoda AI ha acelerado drásticamente la línea de tiempo para la autonomía robótica escalable. Los 450 millones de dólares en capital fresco aseguran que la empresa posea los recursos de computación y el talento de ingeniería necesarios para perfeccionar FutureVision y desplegarlo en las cadenas de suministro globales.
La transición de máquinas programables a agentes físicos genuinamente inteligentes ya no es un concepto teórico distante. Con su marco de trabajo Direct Video Action, su inmenso respaldo financiero y un enfoque en la utilidad industrial del mundo real, Rhoda AI está escribiendo activamente el próximo capítulo de la revolución de la inteligencia artificial, uno en el que los robots finalmente salen del laboratorio y entran en las complejidades del mundo real.