Rhoda AI, 인터넷 동영상을 활용해 로봇을 훈련하기 위해 17억 달러 평가에서 4.5억 달러 조달

Rhoda AI, 물리적 지능 재정의를 위해 스텔스 단계 종료

로봇 산업은 오랫동안 근본적인 한계와 씨름해 왔습니다. 통제된 실험실 환경에서는 완벽하게 작동하는 기계들이 예측 불가능한 산업 현장의 현실에 노출되면 흔들리는 경우가 많았습니다. 팔로알토에 본사를 둔 Rhoda AI는 이러한 과제를 해결하기 위해 18개월간의 스텔스 단계를 공식적으로 종료하고, 4억 5,000만 달러 규모의 기념비적인 시리즈 A 투자 유치를 발표했습니다. 이 대규모 자본 투입은 회사의 포스트머니 기업 가치를 17억 달러로 끌어올렸으며, 이는 로봇 지능에 대한 패러다임을 전환하는 이들의 접근 방식에 대한 시장의 엄청난 신뢰를 시사합니다.

Creati.ai의 관점에서 이번 발전은 물리적 AI (Physical AI) 진화의 중대한 전환점을 나타냅니다. Rhoda AI는 로봇에게 움직이는 법을 가르치기 위해 대규모 인간 작업자 부대에 의존하는 대신, 공개된 인터넷 비디오의 방대하고 미개척된 저장소를 활용하고 있습니다. 수억 개의 비디오 클립으로 파운데이션 모델 (Foundation models)을 훈련함으로써, 이 회사는 디지털 인공지능과 물리적 실제 세계 상호 작용 사이의 간극을 메우고 있으며, 업계가 수십 년 동안 추구해 온 일반화 능력을 제공하는 것을 목표로 하고 있습니다.

재무 현황: 기업 가치 및 전략적 투자자

시리즈 A 라운드에서 4억 5,000만 달러를 확보하는 것은 자본이 풍부한 AI 분야에서도 드문 일이며, 이는 Rhoda AI가 구축한 강력한 기술적 기반을 강조합니다. 이번 라운드는 지속 가능한 엔터프라이즈 기술에 대한 장기 전략적 투자로 잘 알려진 Premji Invest가 주도했습니다. 유입된 자본은 산업 현장 배치 확대, 고객 파일럿 프로그램 가속화, 그리고 생성형 AI (Generative AI), 컴퓨터 비전, 로봇 공학 분야의 다학제적 전문가 팀을 공격적으로 확장하는 데 투입될 예정입니다.

주주 명부에는 딥테크 및 벤처 캐피털 분야에서 가장 영향력 있는 기관들이 포함되어 있습니다. 이러한 다양한 지원은 Rhoda AI에 타의 추종을 불허하는 재무적 여력을 제공할 뿐만 아니라, 글로벌 제조 및 공급망 네트워크로 진입할 수 있는 전략적 경로를 제공합니다.

Rhoda AI의 전략적 후원자

투자자 카테고리	기관 또는 개인	전략적 가치
리드 투자자	Premji Invest	장기적인 자본 약정 및 전략적 스케일링 전문성
글로벌 기관 및 국부 펀드	Temasek	해외 시장 접근 및 대규모 기관 배치 채널
티어 1 벤처 캐피털	Khosla Ventures Mayfield Matter Venture Partners	딥테크 생태계 연결 및 운영 초기 단계 가이드
개인 기술 리더	John Doerr	실리콘밸리의 전설적인 운영 및 전략 멘토링
기후 및 프런티어 테크	Capricorn Investment Group Prelude Ventures	변혁적이고 하드웨어 집약적인 산업 혁신에 집중

Premji Invest의 매니징 파트너인 Sandesh Patnam은 지능적이고 조작 가능한 로봇을 대규모로 성공적으로 배치하는 첫 번째 기업이 강력한 "데이터 플라이휠"을 작동시키게 될 것이라고 강조했습니다. 이러한 복리 효과는 현재 전통적인 로봇 시스템을 방해하는 실제 세계의 수많은 엣지 케이스 (Edge cases)를 포착하는 데 결정적인 역할을 할 것입니다.

원격 조작 병목 현상 극복

Rhoda AI의 기술적 도약의 중요성을 이해하려면 로봇 파운데이션 모델의 현재 상태를 살펴볼 필요가 있습니다. 현재 유행하는 방법론은 시각-언어-행동 (Vision-Language-Action, VLA) 모델에 크게 의존하고 있습니다. 이러한 시스템은 인상적인 능력을 보여주었지만, 주요 학습 메커니즘은 인간이 로봇의 움직임을 원격으로 제어하여 훈련 데이터를 생성하는 원격 조작 (Teleoperation)입니다.

이러한 원격 조작 우선 접근 방식은 확장성에 심각한 한계가 있습니다. 원격 조작 데이터로만 훈련된 로봇은 수동으로 구동된 특정 환경의 물리 및 공간 역학만 이해합니다. 카메라 각도가 바뀌거나 조명이 변하거나 이전에 본 적 없는 물체가 도입되면 모델은 실패할 가능성이 매우 높습니다. 로봇은 좁은 훈련 분포 밖에서 물리적 세계가 어떻게 작동하는지에 대한 일반화된 이해가 부족하기 때문입니다.

Rhoda AI는 인터넷 규모의 비디오를 물리적 진실의 궁극적인 원천으로 취급함으로써 이러한 병목 현상을 체계적으로 해체합니다.

다이렉트 비디오 액션 (Direct Video Action, DVA)의 메커니즘

Rhoda AI의 획기적인 기술의 핵심은 독점적인 다이렉트 비디오 액션 (Direct Video Action, DVA) 아키텍처입니다. 이 비디오 우선 전략은 수천 시간의 수동 원격 조작의 필요성을 완전히 우회합니다. 훈련 파이프라인은 인간이 세상에 대해 배우는 방식을 모방하여 관찰 후 특정 운동 연습이라는 두 가지 뚜렷한 단계로 나뉩니다.

첫째, DVA 모델은 수억 개의 공개 인터넷 비디오를 사용하여 대규모 사전 훈련을 거칩니다. 이 단계에서는 강력한 "월드 모델" 또는 모션, 물리, 역학 및 물체 상호 작용에 대한 강력한 사전 지식을 구축합니다. 도구를 조작하는 사람의 손부터 물체가 떨어지고 구르고 충돌하는 모습까지 수많은 시나리오를 관찰함으로써 AI는 물리 법칙에 대한 타고난 이해를 발달시킵니다. 수백만 개의 방향에서 물체를 보았기 때문에 원격 조작이 본질적으로 결여하고 있는 일반화 능력을 갖추게 됩니다.

이러한 광범위한 사전 훈련에 이어 모델은 매우 효율적인 사후 훈련 단계를 거칩니다. Rhoda AI는 최소한의 로봇 특정 텔레메트리 데이터를 활용하여(종종 10~20시간의 원격 조작만 필요함) 방대한 시각적 이해를 물리적 로봇 팔이나 휴머노이드 신체의 특정 운동학적 제약 조건에 매핑합니다.

로봇 공학의 아키텍처 비교

특징	전통적인 VLA 모델	Rhoda AI DVA 아키텍처
주요 훈련 데이터	실험실에서의 광범위한 인간 원격 조작	인터넷 규모의 공개 비디오
사후 훈련 요구 사항	특정 작업당 수백에서 수천 시간	10~20시간의 타겟팅된 로봇 텔레메트리
제어 메커니즘	종종 개방 루프 또는 저주파 피드백	폐쇄 루프, 고주파 동적 업데이트
메모리 및 컨텍스트	단기적, 제한된 프레임 이력 처리	롱 컨텍스트 시각적 메모리 (수백 프레임)
환경 적응성	경직됨, 본 적 없는 레이아웃에서 자주 어려움을 겪음	높은 적응성, 물리에 민감한 일반화

FutureVision: 폐쇄 루프 제어 및 롱 컨텍스트 메모리

DVA 아키텍처의 상업적 구현체는 Rhoda AI가 새롭게 공개한 로봇 지능 플랫폼인 FutureVision입니다. 하드웨어에 구애받지 않도록 설계된 FutureVision은 다양한 기존 로봇 시스템과 통합될 수 있어, 제조 및 물류 운영자가 기존 하드웨어를 폐기하지 않고도 자동화 능력을 업그레이드할 수 있도록 해줍니다.

FutureVision의 결정적인 특징은 폐쇄 루프 (Closed-loop) 비디오 예측 제어입니다. 연속적인 피드백 없이 이동 계획을 생성하고 실행하는 전통적인 개방 루프 접근 방식과 달리, FutureVision은 매우 동적입니다. 시스템은 환경을 지속적으로 관찰하고, 미래의 물리적 상태를 비디오 프레임으로 예측하며, 해당 예측을 기계적 행동으로 변환하여 실행하고 세상을 다시 관찰합니다. 이 사이클은 수백 밀리초마다 반복되어 실시간으로 정확하고 물리에 민감한 제어를 가능하게 합니다. 그리퍼에서 물체가 미끄러지거나 컨베이어 벨트 위의 박스가 움직이면 시스템은 즉시 궤적을 수정합니다.

또한 FutureVision은 롱 컨텍스트 시각적 메모리 (Long-Context Visual Memory)를 통해 시각적 모호성이라는 중요한 문제를 해결합니다. 표준 VLA 모델은 일반적으로 몇 개의 최근 시각적 프레임만 처리합니다. Rhoda의 아키텍처는 기본적으로 수백 프레임의 이력을 처리합니다. 이러한 능력을 증명하기 위해 Rhoda AI는 컵 아래에 숨겨진 물체가 섞이는 것을 로봇이 성공적으로 추적하는 로봇 "야바위 (Shell Game)" 챌린지를 시연했습니다. 지속적인 시각적 메모리를 유지함으로써 로봇은 대상 영속성을 보유하게 되는데, 이는 물체가 시야에서 잠시 사라졌을 때 얼어붙는 것을 방지하는 정교한 인지적 이정표입니다.

산업 배치: 실험실에서 공장 현장으로

물리적 AI 기업의 궁극적인 시험대는 구조화되지 않고 혼란스러운 상업 환경에서의 성능입니다. Rhoda AI는 기술을 배치하기 위해 원시적인 조건이 갖춰지기를 기다리지 않습니다. 이 회사는 이미 세계 최대 자동차 공장 중 한 곳에서 자율적으로 작동하는 하드웨어를 시연했습니다.

자동차 제조를 넘어 물류는 여전히 주요 타겟입니다. Rhoda AI는 물류 산업에서 어렵기로 악명이 높은 반품 처리와 같은 복잡한 워크플로를 해결하고 있습니다. 반품 처리는 비슷해 보이는 패키지가 분류 파이프라인에서 완전히 다른 상태를 나타낼 수 있기 때문에 시각적 모호성이 높습니다. FutureVision은 롱 컨텍스트 시각적 메모리를 활용하여 로봇이 공간 인식과 워크플로 컨텍스트를 유지할 수 있게 함으로써 인간의 개입 필요성을 획기적으로 줄여줍니다.

이 로봇들이 공장과 창고에서 작동함에 따라, 엣지 케이스 데이터를 Rhoda AI로 지속적으로 스트리밍합니다. 이는 모두가 탐내는 데이터 플라이휠을 시작합니다. 로봇이 실제 세계에서 더 많이 작동할수록 파운데이션 모델은 더 강력해지며, 물리적 인공 일반 지능 (Physical Artificial General Intelligence, Physical AGI)으로 향하는 경로를 가속화합니다.

물리적 AGI 비전을 주도하는 리더십

Rhoda AI의 급격한 부상은 매우 복잡하고 자본 집약적인 딥테크 벤처를 확장한 실적이 있는 리더십 팀에 기반을 두고 있습니다. CEO이자 공동 창립자인 Jagdeep Singh은 귀중한 운영 경험을 제공합니다. 선구적인 전고체 배터리 제조업체인 QuantumScape를 설립하고 이끌었던 연쇄 창업가로서, Singh은 혁신적인 하드웨어와 소프트웨어의 교차점을 양산 단계로 끌어올리는 데 따르는 과제를 깊이 이해하고 있습니다.

Singh의 운영 전문성을 보완하는 사람은 스탠퍼드 대학교 출신의 저명한 컴퓨터 비전 연구자인 최고 과학 책임자 (CSO) Eric Ryan Chan입니다. 자기회귀 비디오 예측 및 파운데이션 모델에 대한 Chan의 깊은 기술적 통찰력은 다이렉트 비디오 액션 아키텍처 뒤에 있는 학술적 및 실무적 엔진 역할을 합니다. 이들은 함께 생성형 AI와 물리적 자동화의 최첨단에 있는 세계 수준의 다학제적 팀을 구성했습니다.

경쟁 환경 및 향후 전망

Creati.ai에서 보기에 Rhoda AI의 대규모 시리즈 A는 광범위한 로봇 공학 군비 경쟁의 결정적인 촉매제입니다. 지능형 산업용 로봇 시장은 주요 기술 대기업과 특화된 스타트업들이 주도권을 잡기 위해 경쟁하면서 빠르게 확장되고 있습니다. 하지만 Rhoda AI의 독특한 "비디오 우선" 전략은 독보적인 경쟁 우위를 확보합니다. 경쟁사들이 독점적인 로봇 데이터를 수집하기 위해 점점 더 큰 원격 조작 센터를 구축하는 동안, Rhoda AI는 인터넷 전체를 훈련장으로 효과적으로 활용하고 있습니다.

물리적 지식의 습득을 로봇 하드웨어의 물리적 한계로부터 분리함으로써, Rhoda AI는 확장 가능한 로봇 자율성의 타임라인을 극적으로 앞당겼습니다. 4억 5,000만 달러의 신규 자본은 회사가 FutureVision을 개선하고 이를 글로벌 공급망에 배치하는 데 필요한 컴퓨팅 리소스와 엔지니어링 인재를 확보할 수 있도록 보장합니다.

프로그래밍 가능한 기계에서 진정으로 지능적인 물리적 에이전트로의 전환은 더 이상 먼 이론적 개념이 아닙니다. 다이렉트 비디오 액션 프레임워크, 막대한 재정적 지원, 그리고 실제 산업적 유용성에 대한 집중을 통해 Rhoda AI는 인공지능 혁명의 다음 장을 적극적으로 써 내려가고 있습니다. 바로 로봇이 마침내 실험실에서 벗어나 복잡한 현실 세계로 발을 내딛는 장입니다.