AI News

A New Era for AI Infrastructure: Inferact Secures $150 Million to Commercialize vLLM

В поворотный момент для инфраструктуры искусственного интеллекта Inferact, стартап, основанный создателями широко используемого открытого движка инференса vLLM, официально вышел из режима тайной разработки с масштабным раундом Seed на $150 миллионов. Раунд, который оценивает молодую компанию в впечатляющие $800 миллионов, был сопровожден венчурными гигантами Andreessen Horowitz (a16z) и Lightspeed Venture Partners.

Это финансирование является одним из крупнейших seed-раундов в истории Силиконовой долины и сигнализирует о решительном смещении внимания инвесторов с обучения моделей на их развертывание. По мере того как генеративный ИИ (Generative AI) внедряется из экспериментальных исследовательских лабораторий в масштабное производство, отрасль сталкивается с новым узким местом: чрезвычайно высокими затратами и задержками при инференсе. Inferact стремится решить эту проблему, создавая «универсальный уровень инференса» для предприятий, используя повсеместность vLLM для стандартизации способов развертывания моделей ИИ по всему миру.

К сопредседателям a16z и Lightspeed в этом переподписанном раунде присоединились Sequoia Capital, Altimeter Capital, Redpoint Ventures и ZhenFund, сформировав коалицию инвесторов, подчеркивающую стратегическую важность уровня инференса.

The vLLM Phenomenon: From Berkeley Lab to Industry Standard

Чтобы оценить масштабы этого финансирования, нужно понять технологию, лежащую в основе Inferact. vLLM (Versatile Large Language Model) начался как исследовательский проект в UC Berkeley, разработанный командой, в которую входили Simon Mo, Woosuk Kwon, Kaichao You и Roger Wang. Их цель заключалась в решении критической неэффективности в управлении памятью при генерации текста моделями больших языков (Large Language Models, LLMs).

Прорыв состоял в алгоритме PagedAttention, вдохновлённом переключением страниц виртуальной памяти в операционных системах. Традиционные механизмы внимания испытывают трудности с фрагментацией памяти, что приводит к потере ресурсов GPU — смертный грех в эпоху, когда GPU H100 одновременно дефицитны и дороги. PagedAttention позволяет vLLM управлять ключами и значениями внимания в непрерывных фрагментах памяти, что резко увеличивает пропускную способность.

С момента открытия исходного кода vLLM достиг вирусного уровня принятия, сравнимого с ранними днями Kubernetes или Docker:

  • По оценкам, 400 000+ GPU одновременно запускают vLLM по всему миру.
  • Более 2 000 участников внесли вклад в проект на GitHub.
  • Принятие крупными технологическими игроками, включая Meta, Google и Character.ai.

Теперь перед Inferact стоит задача кураторства этого открытого феномена, одновременно создавая коммерческую платформу, на которую предприятия смогут полагаться для критически важных приложений.

Funding at a Glance

Ниже приведена таблица с ключевыми деталями исторического seed-раунда Inferact.

Metric Details Context
Round Size $150 Million One of the largest seed rounds in AI history
Valuation $800 Million Reflects high demand for inference optimization
Lead Investors Andreessen Horowitz (a16z), Lightspeed Leading top-tier deep tech firms
Key Participants Sequoia, Altimeter, Redpoint, ZhenFund Broad ecosystem support
Core Technology vLLM, PagedAttention High-throughput inference engine
Leadership Simon Mo, Woosuk Kwon, et al. Original creators of vLLM

---|---|---|

The Shift from Training to Serving

Время запуска Inferact совпадает с фундаментальным переходом в экономике ИИ. В последние два года капитальные расходы преимущественно шли на обучение — создание массивных кластеров для разработки фундаментальных моделей вроде GPT-4, Claude и Llama 3. Однако по мере внедрения этих моделей в продукты профиль затрат смещается в сторону инференса.

Аналитики отрасли окрестили это «Эпохой пропускной способности» (Throughput Era), где основным показателем успеха становится уже не только качество модели, а «токенов в секунду на доллар». Запуск модели вроде Llama-3-70B в масштабе для миллионов пользователей требует огромных вычислительных ресурсов. Неефективные программные стеки могут привести к всплескам задержки и взрывному росту облачных счетов, что фактически убивает экономику единицы приложения ИИ.

Партнёры Andreessen Horowitz отметили в своей инвестиционной тезисе, что «программное обеспечение становится важнее аппаратного обеспечения». Простая покупка дополнительных NVIDIA H100 уже не является жизнеспособной стратегией, если базовый программный стек использует их лишь на 30% эффективности. Ценностное предложение Inferact — разблокировать оставшиеся 70% вычислительного потенциала за счёт продвинутой оптимизации ПО, фактически выступая мультипликатором для аппаратных инвестиций.

Commercializing Open Source: The "Red Hat" Strategy

Inferact следует проторённому пути успешных коммерческих компаний с открытым исходным кодом (COSS), таких как Databricks (Spark), Confluent (Kafka) и HashiCorp (Terraform). Компания сталкивается с классической двойственной задачей: поддерживать процветающее бесплатное сообщество и одновременно создавать проприетарную ценность для платящих клиентов.

По словам CEO Simon Mo, коммерческая стратегия Inferact фокусируется на надежности и масштабируемости корпоративного уровня. В то время как открытый движок vLLM обеспечивает базовую вычислительную мощность, предприятия требуют:

  • Управляемая инфраструктура: автоматическое масштабирование, оркестрация многомашинных развертываний и восстановление после сбоев.
  • Безопасность и комплаенс: соответствие SOC2, частные облачные развертывания и безопасная обработка моделей.
  • Оптимизированные ядра: проприетарные оптимизации для конкретных конфигураций аппаратного обеспечения сверх общей поддержки в открытом коде.
  • Гарантии SLA: гарантированная пропускная способность и задержка для критических приложений.

Эта модель «Open Core» (Open Core) позволяет Inferact поддерживать vLLM как отраслевой стандарт, «Linux для инференса» (Linux of Inference) — работающий на чипах NVIDIA, AMD и Intel — и в то же время извлекать ценность из крупных организаций, которые не могут позволить себе простои или неконтролируемую сложность.

Technical Deep Dive: Why PagedAttention Matters

Секретный ингредиент доминирования vLLM и, следовательно, оценивания Inferact — это PagedAttention. В стандартном обслуживании LLM кеш ключ-значение (KV cache), который хранит память модели о текущем диалоге, растёт динамически. Традиционные системы вынуждены предварительно выделять смежные блоки памяти для обработки этого роста, что приводит к серьёзной фрагментации. Это похоже на бронирование 100-местного автобуса для каждого пассажира на случай, если он приведёт 99 друзей.

PagedAttention решает эту проблему, разбивая кеш KV на меньшие блоки, которые можно хранить в несмежных областях памяти. Движок vLLM поддерживает «таблицу страниц» для отслеживания этих блоков, подобно тому, как операционная система управляет ОЗУ.

Ключевые технические преимущества:

  • Нулевая трата: потеря памяти из-за фрагментации сокращается почти до нуля (<4%).
  • Более крупные батчи: благодаря более эффективному использованию памяти движок может объединять больше запросов в один батч.
  • Рост пропускной способности: в бенчмарках vLLM постоянно показывает 2x–4x более высокую пропускную способность, чем стандартные HuggingFace Transformers, без ухудшения задержки.

Для компании, которая тратит $10 миллионов в год на вычисления для инференса, внедрение vLLM теоретически может сократить этот счёт до $2.5–5 миллионов просто за счёт лучшего использования ПО. Именно такая прямая окупаемость делает Inferact столь привлекательным предложением для инвесторов и клиентов.

Strategic Implications for the AI Ecosystem

Появление Inferact с $150 миллионами в резерве вызывает волну изменений в экосистеме ИИ.

  1. Давление на облачных провайдеров: крупные облачные провайдеры (AWS, Azure, Google Cloud) и поставщики API моделей (Anyscale, Together AI, Fireworks) часто строят собственные стеки инференса. Inferact предлагает нейтральную по поставщикам альтернативу, которая позволяет компаниям владеть своим стеком инференса в любом облаке.
  2. Стандартизация: фрагментация движков инференса (TensorRT-LLM, TGI, vLLM) была головной болью для разработчиков. Капитализация Inferact предполагает, что vLLM позиционируется как де-факто стандартный API, упрощая опыт разработчиков.
  3. «Налог на ПО»: по мере того как аппаратное обеспечение становится товаром, захват ценности смещается в слой программного обеспечения, который им управляет. Inferact делает ставку на то, что «операционная система» для LLM будет столь же ценна, как и чипы, на которых они работают.

Looking Ahead

Имея $150 миллионов нового капитала, Inferact планирует агрессивно расширять свою инженерную команду, в частности привлекая специалистов по ядрам (kernel hackers) и экспертов по распределённым системам. Компания также намерена углубить поддержку новых аппаратных архитектур, обеспечивая vLLM статус самого универсального движка на рынке, который в настоящее время доминирует NVIDIA.

По мере взросления индустрии ИИ «скучный» уровень инфраструктуры — обслуживание, масштабирование и оптимизация — становится самым доходным. Inferact продаёт не просто софт; они продают кирки для следующей фазы «золотой лихорадки» ИИ: развертывание.

Для предприятий, испытывающих трудности с переводом своих пилотных проектов по генеративному ИИ в продакшн из‑за затрат или задержек, Inferact предлагает спасательный круг. Для сообщества с открытым исходным кодом это финансирование обещает устойчивое развитие vLLM, обеспечивая его надёжность и передовость. Гонка за контроль над уровнем инференса официально началась, и Inferact занял раннее и уверенное лидерство.

Рекомендуемые
AdsCreator.com
Мгновенно создавайте отполированные рекламные креативы в фирменном стиле из любого URL сайта для Meta, Google и Stories.
VoxDeck
Создатель презентаций с ИИ, ведущий визуальную революцию
Refly.ai
Refly.AI даёт нетехническим создателям возможность автоматизировать рабочие процессы с помощью естественного языка и визуального полотна.
BGRemover
Легко удаляйте фоны изображений онлайн с помощью SharkFoto BGRemover.
Skywork.ai
Skywork AI - это инновационный инструмент для повышения производительности с использованием ИИ.
Qoder
Qoder — это помощник по кодированию с искусственным интеллектом, автоматизирующий планирование, кодирование и тестирование программных проектов.
Flowith
это агентное рабочее пространство на основе холста, которое предлагает бесплатно 🍌Nano Banana Pro и другие эффективные м
FixArt AI
FixArt AI предлагает бесплатные, безограниченные AI-инструменты для генерации изображений и видео без регистрации.
FineVoice
Преобразуйте текст в эмоции — Клонируйте, создавайте и настраивайте выразительные AI-голоса за считанные секунды.
Elser AI
Универсальная веб‑студия, превращающая текст и изображения в аниме‑арт, персонажей, голоса и короткометражные фильмы.
Pippit
Поднимите создание контента с помощью мощных инструментов искусственного интеллекта Pippit!
SharkFoto
SharkFoto — это универсальная платформа с поддержкой ИИ для эффективного создания и редактирования видео, изображений и музыки.
Funy AI
Оживите свои фантазии! Создавайте ИИ-видео с поцелуями и бикини из изображений или текста. Попробуйте смену одежды. Бесп
KiloClaw
Хостинг OpenClaw-агента: развертывание в один клик, более 500 моделей, защищённая инфраструктура и автоматизированное управление агентами для команд и разработчиков.
Diagrimo
Diagrimo мгновенно преобразует текст в настраиваемые диаграммы и визуализации, созданные искусственным интеллектом.
SuperMaker AI Video Generator
Создавайте потрясающие видео, музыку и изображения без усилий с SuperMaker.
AI Clothes Changer by SharkFoto
AI Clothes Changer от SharkFoto позволяет мгновенно виртуально примерять наряды с реалистичной посадкой, текстурой и освещением.
Yollo AI
Общайтесь и творите с ИИ-партнером. Превращение фото в видео, генератор ИИ-изображений.
AnimeShorts
Создавайте потрясающие аниме-ролики без усилий с помощью передовых технологий ИИ.
Image to Video AI without Login
Бесплатный AI-инструмент «из изображения в видео», мгновенно превращающий фотографии в плавные, высококачественные анимационные видео без водяных знаков.
InstantChapters
Создавайте захватывающие главы книг мгновенно с Instant Chapters.
Anijam AI
Anijam — это нативная для ИИ анимационная платформа, которая превращает идеи в отточенные истории с помощью агентного создания видео.
Claude API
Claude API for Everyone
wan 2.7-image
Управляемый генератор изображений на базе ИИ для точных лиц, палитр, текста и визуальной непрерывности.
NerdyTips
Платформа прогнозов на футбол на базе ИИ, предоставляющая основанные на данных советы по матчам в лигах по всему миру.
WhatsApp AI Sales
WABot — это AI-«копилот» продаж для WhatsApp, который предоставляет скрипты в реальном времени, переводы и определение намерений.
happy horse AI
Open-source AI-генератор видео, создающий синхронизированные видео и аудио из текста или изображений.
HappyHorseAIStudio
Браузерный генератор видео на базе ИИ для текста, изображений, референсов и видеомонтажа.
AI Video API: Seedance 2.0 Here
Унифицированный AI API для видео, предлагающий топовые модели генерации через один ключ по более низкой цене.
insmelo AI Music Generator
Генератор музыки на базе ИИ, который превращает подсказки, тексты или загруженные файлы в отточенные, не требующие выплат авторских отчислений песни примерно за минуту.
BeatMV
Веб-ориентированная платформа ИИ, которая превращает песни в кинематографические музыкальные видеоклипы и создаёт музыку с помощью ИИ.
UNI-1 AI
UNI-1 — это унифицированная модель генерации изображений, сочетающая визуальное рассуждение с высококачественным синтезом изображений.
Kirkify
Kirkify AI мгновенно создает вирусные мемы с заменой лиц и фирменной неон-«глитч» эстетикой для создателей мемов.
Wan 2.7
Профессиональная модель AI для видео с точным управлением движением и согласованностью между видами.
Text to Music
Преобразуйте текст или слова в полноценные песни студийного качества с вокалом, сгенерированным ИИ, инструментами и многодорожечным экспортом.
Iara Chat
Iara Chat: Ассистент по производительности и коммуникации на основе ИИ.
kinovi - Seedance 2.0 - Real Man AI Video
Бесплатный AI-генератор видео с реалистичными людьми на выходе, без водяных знаков и с полными правами для коммерческого использования.
Tome AI PPT
Генератор презентаций на базе ИИ, который создает, улучшает и экспортирует профессиональные слайды за считанные минуты.
Video Sora 2
Sora 2 AI превращает текст или изображения в короткие социальные и eCommerce-видео с физически корректным движением за считанные минуты.
Lyria3 AI
Генератор музыки на базе ИИ, который мгновенно создает высококачественные полностью продюсированные песни по текстовым подсказкам, стихам и стилям.
Atoms
Платформа с поддержкой ИИ, которая с помощью мультиагентной автоматизации за считанные минуты создает полнофункциональные приложения и сайты без необходимости кодирования.
Paper Banana
Инструмент на базе ИИ для мгновенного преобразования академического текста в готовые к публикации методологические схемы и точные статистические графики.
AI Pet Video Generator
Создавайте вирусные, легко распространяемые видео о питомцах из фотографий с помощью шаблонов на базе ИИ и мгновенного экспорта в HD для социальных платформ.
Ampere.SH
Бесплатный управляемый хостинг OpenClaw. Разверните AI‑агентов за 60 секунд с кредитами Claude на $500.
Palix AI
Универсальная AI‑платформа для создателей, позволяющая генерировать изображения, видео и музыку с использованием единой системы кредитов.
Hitem3D
Hitem3D преобразует одно изображение в высокоразрешённые, готовые к производству 3D-модели с помощью ИИ.
GenPPT.AI
Генератор PPT на базе ИИ, который за считанные минуты создаёт, улучшает и экспортирует профессиональные презентации PowerPoint с заметками докладчика и диаграммами.
HookTide
Платформа роста в LinkedIn на базе ИИ, которая изучает ваш голос, чтобы создавать контент, взаимодействовать и анализировать эффективность.
Create WhatsApp Link
Бесплатный генератор ссылок и QR для WhatsApp с аналитикой, брендированными ссылками, маршрутизацией и функциями многопользовательского чата.
Seedance 20 Video
Seedance 2 — это мультимодальный генератор видео с ИИ, обеспечивающий согласованных персонажей, многокадровое повествование и нативный звук в 2K.
Gobii
Gobii позволяет командам создавать автономных цифровых работников 24/7 для автоматизации веб-исследований и рутинных задач.
Free AI Video Maker & Generator
Бесплатный AI создатель и генератор видео – безлимитный, без регистрации
Veemo - AI Video Generator
Veemo AI — это универсальная платформа, которая быстро создаёт видеоролики и изображения высокого качества на основе текста или изображений.
AI FIRST
Разговорный ИИ‑ассистент, автоматизирующий исследовательские задачи, работу в браузере, веб‑скрейпинг и управление файлами с помощью естественного языка.
GLM Image
GLM Image сочетает гибридные авторегрессионные и диффузионные модели для генерации высококачественных AI-изображений с выдающейся отрисовкой текста.
ainanobanana2
Nano Banana 2 генерирует изображения 4K профессионального качества за 4–6 секунд с точной отрисовкой текста и согласованностью объектов.
WhatsApp Warmup Tool
Инструмент прогрева WhatsApp на базе ИИ автоматизирует массовую рассылку и предотвращает блокировку аккаунтов.
TextToHuman
Бесплатный AI-очеловечиватель, который мгновенно переписывает AI-текст в естественный, похожий на человеческий стиль. Регистрация не требуется.
Manga Translator AI
AI Manga Translator мгновенно переводит изображения манги на несколько языков онлайн.
Remy - Newsletter Summarizer
Remy автоматизирует управление новостными рассылками, резюмируя письма в удобные для восприятия сводки.

Inferact, коммерциализирующая vLLM, привлекла $150 млн для ускорения инференса ИИ

Стартап Inferact, коммерциализирующий популярный open-source движок инференса vLLM, привлек раунд посевного финансирования в размере $150 млн под руководством Andreessen Horowitz и Lightspeed, чтобы ускорить развёртывание AI-приложений.