Rhoda AI привлекает 450 миллионов долларов при оценке в 1,7 миллиарда для обучения роботов с помощью интернет‑видео

Rhoda AI выходит из скрытого режима (stealth), чтобы переопределить физический интеллект (Physical Intelligence)

Робототехническая отрасль долгое время боролась с фундаментальным ограничением: машины, которые безупречно работают в контролируемых лабораторных условиях, часто терпят неудачу при столкновении с непредсказуемыми реалиями промышленных сред. Компания Rhoda AI, базирующаяся в Пало-Альто, официально вышла из своей 18-месячной фазы скрытого режима, чтобы решить именно эту проблему, объявив о монументальном раунде финансирования серии А (Series A) в размере 450 миллионов долларов. Это массированное вливание капитала катапультирует компанию к оценке после привлечения инвестиций (post-money valuation) в 1,7 миллиарда долларов, что сигнализирует об огромном доверии рынка к ее подходу к роботизированному интеллекту, меняющему парадигму.

С точки зрения Creati.ai, это событие представляет собой переломный момент в эволюции физического ИИ (physical AI). Вместо того чтобы полагаться на огромные парки операторов-людей для обучения роботов движениям, Rhoda AI использует обширный, неиспользованный репозиторий общедоступных интернет-видео. Обучая базовые модели на сотнях миллионов видеоклипов, компания преодолевает разрыв между цифровым искусственным интеллектом и физическим взаимодействием в реальном мире, стремясь обеспечить возможности обобщения, которые отрасль искала десятилетиями.

Финансовый ландшафт: Оценки и стратегические инвесторы

Привлечение 450 миллионов долларов в раунде серии А является редкостью даже в богатом наличностью секторе ИИ, что подчеркивает грозный технический фундамент, который построила Rhoda AI. Раунд возглавила компания Premji Invest, известная своими долгосрочными стратегическими инвестициями в устойчивые корпоративные технологии. Приток капитала будет направлен на расширение промышленного внедрения, ускорение пилотных программ для клиентов и агрессивный рост междисциплинарной команды экспертов Rhoda AI в области генеративного ИИ (Generative AI), компьютерного зрения и робототехники.

Таблица капитализации включает консорциум наиболее влиятельных структур в области высоких технологий (deep-tech) и венчурного капитала. Такая разнообразная поддержка обеспечивает Rhoda AI не только беспрецедентные финансовые возможности, но и стратегические выходы на глобальные производственные сети и цепочки поставок.

Стратегические спонсоры Rhoda AI

Категория инвестора	Организация или лицо	Стратегическая ценность
Ведущий инвестор	Premji Invest	Долгосрочные капитальные обязательства и опыт стратегического масштабирования
Глобальные институциональные и суверенные фонды	Temasek	Доступ к международным рынкам и масштабным каналам институционального развертывания
Венчурный капитал первого уровня	Khosla Ventures Mayfield Matter Venture Partners	Связи с экосистемой глубоких технологий и оперативное руководство на ранних стадиях
Индивидуальные технологические лидеры	John Doerr	Легендарное операционное и стратегическое наставничество в Кремниевой долине
Климатические и передовые технологии	Capricorn Investment Group Prelude Ventures	Фокус на трансформационных, капиталоемких промышленных инновациях

Sandesh Patnam, управляющий партнер Premji Invest, подчеркнул, что первая компания, которая успешно развернет интеллектуальных, способных к манипуляциям роботов в масштабе, запустит мощный «маховик данных» (data flywheel). Это совокупное преимущество будет иметь решающее значение для охвата длинного хвоста пограничных случаев (edge cases) реального мира, которые в настоящее время заводят в тупик традиционные роботизированные системы.

Преодоление узкого места телеуправления

Чтобы понять значимость технологического скачка Rhoda AI, необходимо изучить текущее состояние базовых моделей роботов. Преобладающая методология в значительной степени опирается на модели Видение-Язык-Действие (Vision-Language-Action, VLA). Хотя эти системы продемонстрировали впечатляющие возможности, их основным механизмом обучения является телеуправление (teleoperation) — процесс, в котором люди удаленно управляют движениями робота для генерации обучающих данных.

Этот подход, ориентированный в первую очередь на телеуправление, имеет серьезные ограничения по масштабируемости. Робот, обученный исключительно на данных телеуправления, понимает только физику и пространственную динамику конкретных сред, в которых им управляли вручную. Если угол обзора камеры сместится, изменится освещение или появится ранее не виденный объект, модель становится крайне уязвимой к сбоям. Роботу не хватает обобщенного понимания того, как функционирует физический мир за пределами его узкого обучающего распределения.

Rhoda AI систематически устраняет это узкое место, рассматривая видео интернет-масштаба как конечный источник физической истины.

Механика прямого видеодействия (Direct Video Action, DVA)

В основе прорыва Rhoda AI лежит ее запатентованная архитектура прямого видеодействия (Direct Video Action, DVA). Эта стратегия, ориентированная на видео, полностью обходит необходимость в тысячах часов ручного телеуправления. Конвейер обучения разделен на две отдельные фазы, которые отражают то, как люди узнают о мире: наблюдение, за которым следует конкретная моторная практика.

Во-первых, модель DVA проходит масштабное предварительное обучение с использованием сотен миллионов общедоступных интернет-видео. На этом этапе создается надежная «модель мира» или сильное априорное представление о движении, физике, динамике и взаимодействии объектов. Наблюдая за бесчисленными сценариями — от человеческих рук, манипулирующих инструментами, до падающих, катящихся и сталкивающихся объектов — ИИ развивает врожденное понимание физических законов. Он видел объекты с миллионов ракурсов, что дает ему способность к обобщению, которой телеуправлению изначально не хватает.

После этого обширного предварительного обучения модель проходит высокоэффективную фазу дообучения. Rhoda AI использует минимальное количество специфических для робота телеметрических данных — часто требуется всего от 10 до 20 часов телеуправления — чтобы сопоставить свое обширное визуальное понимание с конкретными кинематическими ограничениями физического манипулятора робота или гуманоидного тела.

Архитектурное сравнение в робототехнике

Функция	Традиционные модели VLA	Архитектура Rhoda AI DVA
Основные данные для обучения	Обширное телеуправление людьми в лабораториях	Общедоступные видео интернет-масштаба
Требования к дообучению	От сотен до тысяч часов на конкретную задачу	От 10 до 20 часов целевой телеметрии робота
Механизм управления	Часто разомкнутый цикл или низкочастотная обратная связь	Замкнутый цикл, высокочастотные динамические обновления
Память и контекст	Краткосрочная, обработка ограниченной истории кадров	Визуальная память с длинным контекстом (сотни кадров)
Экологическая адаптивность	Жесткая, часто возникают трудности с невидимыми макетами	Высокоадаптивное обобщение с учетом физики

FutureVision: управление в замкнутом цикле и память с длинным контекстом

Коммерческим воплощением архитектуры DVA является FutureVision, недавно представленная Rhoda AI платформа интеллектуального управления роботами. Разработанная как аппаратно-независимая, FutureVision может интегрироваться с широким спектром существующих роботизированных систем, позволяя операторам производства и логистики модернизировать свои возможности автоматизации, не отказываясь от унаследованного оборудования.

Определяющей характеристикой FutureVision является ее предиктивное видеоуправление с замкнутым циклом (closed-loop). В отличие от традиционных подходов с разомкнутым циклом (open-loop), которые генерируют план движения и выполняют его без непрерывной обратной связи, FutureVision является чрезвычайно динамичной. Система непрерывно наблюдает за окружающей средой, предсказывает будущие физические состояния в виде видеокадров, преобразует эти прогнозы в механические действия, выполняет их и снова наблюдает за миром. Этот цикл повторяется каждые несколько сотен миллисекунд, обеспечивая точное управление с учетом физики в режиме реального времени. Если объект выскальзывает из захвата или коробка сдвигается на конвейерной ленте, система мгновенно корректирует свою траекторию.

Кроме того, FutureVision решает критическую проблему визуальной двусмысленности с помощью визуальной памяти с длинным контекстом (Long-Context Visual Memory). Стандартные модели VLA обычно обрабатывают лишь несколько последних визуальных кадров. Архитектура Rhoda нативно обрабатывает сотни кадров истории. Чтобы доказать эту возможность, Rhoda AI продемонстрировала роботизированный вызов «Игра в наперстки», где робот успешно отслеживал скрытый объект, перемещающийся под стаканами. Поддерживая непрерывную визуальную память, робот сохраняет постоянство объекта (object permanence) — сложную когнитивную веху, которая предотвращает его замирание, когда объект временно исчезает из поля зрения.

Промышленное развертывание: Из лаборатории в заводской цех

Окончательным тестом для любой компании, занимающейся физическим ИИ, является ее производительность в неструктурированных, хаотичных коммерческих средах. Rhoda AI не ждет идеальных условий для развертывания своей технологии. Компания уже продемонстрировала работу своего оборудования в автономном режиме на одном из крупнейших в мире автомобильных заводов.

Помимо автомобильного производства, логистика остается основной целью. Rhoda AI берется за сложные рабочие процессы, такие как обработка возвратов — заведомо трудная задача в логистической отрасли. Обработка возвратов сопряжена с высокой визуальной двусмысленностью, так как похожие на вид посылки могут представлять совершенно разные состояния в конвейере сортировки. Используя свою визуальную память с длинным контекстом, FutureVision позволяет роботам сохранять пространственную осведомленность и контекст рабочего процесса, резко сокращая необходимость вмешательства человека.

По мере того как эти роботы работают на заводах и складах, они непрерывно передают данные о пограничных случаях обратно в Rhoda AI. Это запускает столь желанный маховик данных: чем больше роботы работают в реальном мире, тем надежнее становится базовая модель, ускоряя путь к физическому общему искусственному интеллекту (physical AGI).

Лидерство, движущее видение физического AGI

Стремительный взлет Rhoda AI опирается на команду руководителей с проверенным опытом масштабирования высокосложных, капиталоемких глубокотехнологичных предприятий. Генеральный директор и соучредитель Jagdeep Singh привносит бесценный операционный опыт. Как серийный предприниматель, который ранее основал и возглавлял QuantumScape, новаторского производителя твердотельных аккумуляторов, Singh глубоко понимает проблемы вывода пересечений трансформационного оборудования и программного обеспечения на массовое производство.

Операционный опыт Singh дополняет главный научный сотрудник Eric Ryan Chan, выдающийся исследователь в области компьютерного зрения из Стэнфордского университета. Глубокие технические идеи Chan в области авторегрессионного предсказания видео и базовых моделей служат академическим и практическим двигателем архитектуры Direct Video Action. Вместе они собрали междисциплинарную команду мирового уровня, находящуюся на переднем крае генеративного ИИ и физической автоматизации.

Конкурентная среда и перспективы на будущее

В Creati.ai мы рассматриваем масштабную серию А компании Rhoda AI как определяющий катализатор в более широкой гонке вооружений в робототехнике. Рынок интеллектуальной промышленной робототехники быстро расширяется, и крупные технологические конгломераты и специализированные стартапы борются за доминирование. Однако отличительная стратегия Rhoda AI «сначала видео» создает уникальный конкурентный барьер. В то время как конкуренты строят все более крупные центры телеуправления для сбора проприетарных роботизированных данных, Rhoda AI эффективно использует весь интернет в качестве своей тренировочной площадки.

Отделив приобретение физических знаний от физических ограничений роботизированного оборудования, Rhoda AI значительно ускорила сроки масштабируемой автономности роботов. 450 миллионов долларов свежего капитала гарантируют, что компания обладает вычислительными ресурсами и инженерными талантами, необходимыми для совершенствования FutureVision и ее развертывания в глобальных цепочках поставок.

Переход от программируемых машин к подлинно интеллектуальным физическим агентам больше не является далекой теоретической концепцией. С помощью своего фреймворка Direct Video Action, огромной финансовой поддержки и ориентации на реальную промышленную полезность, Rhoda AI активно пишет следующую главу революции искусственного интеллекта — ту, где роботы наконец выходят из лаборатории в сложности реального мира.