AI News

A New Era for AI Infrastructure: Inferact Secures $150 Million to Commercialize vLLM

En un momento definitorio para el panorama de la infraestructura de inteligencia artificial, Inferact, la startup fundada por los creadores del ampliamente adoptado motor de inferencia de código abierto vLLM (open-source), ha salido oficialmente del sigilo con una gigantesca ronda semilla de $150 millones (Seed round). La ronda, que valora a la naciente compañía en unos impresionantes $800 millones, fue co-liderada por los titanes de capital riesgo Andreessen Horowitz (a16z) y Lightspeed Venture Partners.

Esta financiación representa una de las mayores rondas semilla en la historia de Silicon Valley, señalando un cambio decisivo en el enfoque de los inversores desde el entrenamiento de modelos hacia el servicio de modelos. A medida que la IA generativa (IA generativa (Generative AI)) pasa de los laboratorios de investigación experimentales a la producción a gran escala, la industria se enfrenta a un nuevo cuello de botella: el coste y la latencia exorbitantes de la inferencia. Inferact pretende resolver esto construyendo la "capa universal de inferencia" para la empresa, aprovechando la ubicuidad de vLLM para estandarizar cómo se despliegan los modelos de IA en todo el mundo.

Uniéndose a a16z y Lightspeed en esta sobresuscrita ronda están Sequoia Capital, Altimeter Capital, Redpoint Ventures, y ZhenFund, creando una coalición de patrocinadores que subraya la importancia estratégica de la capa de inferencia.

The vLLM Phenomenon: From Berkeley Lab to Industry Standard

Para entender la magnitud de esta financiación, hay que mirar la tecnología que sustenta a Inferact. vLLM (Versatile Large Language Model) comenzó como un proyecto de investigación en UC Berkeley, desarrollado por un equipo que incluye a Simon Mo, Woosuk Kwon, Kaichao You, y Roger Wang. Su objetivo era abordar una ineficiencia crítica en cómo los Modelos de Lenguaje a Gran Escala (Large Language Models, LLMs) gestionan la memoria durante la generación de texto.

El avance llegó en forma de PagedAttention, un algoritmo inspirado en el paginado de memoria virtual en los sistemas operativos. Los mecanismos de atención tradicionales luchan con la fragmentación de la memoria, lo que conduce a recursos de GPU desperdiciados—un pecado capital en una era donde las GPUs H100 son tanto escasas como caras. PagedAttention permite que vLLM gestione las claves y valores de atención en bloques de memoria no contiguos, aumentando drásticamente el rendimiento.

Desde su liberación como código abierto, vLLM ha alcanzado métricas de adopción viral que rivalizan con los primeros días de Kubernetes o Docker:

  • Se estima que más de 400,000 GPUs están ejecutando vLLM de forma concurrente en todo el mundo.
  • Más de 2,000 contribuyentes han participado en el proyecto en GitHub.
  • Adopción por parte de grandes actores tecnológicos, incluyendo Meta, Google, y Character.ai.

Ahora Inferact tiene la tarea de custodiar este fenómeno de código abierto mientras construye una plataforma comercial en la que las empresas puedan confiar para aplicaciones críticas.

Funding at a Glance

La siguiente tabla describe los detalles clave de la histórica ronda semilla de Inferact.

Metric Details Context
Round Size $150 Million One of the largest seed rounds in AI history
Valuation $800 Million Reflects high demand for inference optimization
Lead Investors Andreessen Horowitz (a16z), Lightspeed Leading top-tier deep tech firms
Key Participants Sequoia, Altimeter, Redpoint, ZhenFund Broad ecosystem support
Core Technology vLLM, PagedAttention High-throughput inference engine
Leadership Simon Mo, Woosuk Kwon, et al. Original creators of vLLM

---|---|---|

The Shift from Training to Serving

El lanzamiento de Inferact coincide con una transición fundamental en la economía de la IA. Durante los últimos dos años, el gasto de capital ha estado dominado por el entrenamiento—construir clústeres masivos para crear modelos fundacionales como GPT-4, Claude y Llama 3. Sin embargo, a medida que estos modelos se despliegan en productos, el perfil de costes se desplaza fuertemente hacia la inferencia.

Los analistas de la industria han denominado esto la "Era del Rendimiento" (Throughput Era), donde la métrica principal de éxito ya no es solo la calidad del modelo, sino tokens por segundo por dólar. Ejecutar un modelo como Llama-3-70B a escala para millones de usuarios requiere una potencia de cómputo inmensa. Las pilas de software ineficientes pueden provocar picos de latencia y facturas de nube desorbitadas, matando efectivamente la economía unitaria de las aplicaciones de IA.

Los socios de Andreessen Horowitz señalaron en su tesis de inversión que "el software se está volviendo más crítico que el hardware." Simplemente comprar más NVIDIA H100 ya no es una estrategia viable si la pila de software subyacente las utiliza solo al 30% de eficiencia. La propuesta de valor de Inferact es desbloquear el 70% restante del potencial de cómputo mediante optimizaciones avanzadas de software, actuando efectivamente como un multiplicador de fuerza para las inversiones en hardware.

Commercializing Open Source: The "Red Hat" Strategy

Inferact sigue un camino ya transitado por compañías exitosas de código abierto comercial (COSS) como Databricks (Spark), Confluent (Kafka) y HashiCorp (Terraform). La compañía enfrenta el clásico desafío dual: apoyar una comunidad libre y próspera mientras construye valor propietario para clientes que pagan.

Según el CEO Simon Mo, la estrategia comercial de Inferact se centra en la fiabilidad y escalabilidad de nivel empresarial. Mientras que el motor vLLM de código abierto proporciona la potencia bruta, las empresas requieren:

  • Infraestructura Gestionada: escalado automatizado, orquestación multinodo y recuperación ante fallos.
  • Seguridad y Cumplimiento: cumplimiento SOC2, despliegues en nube privada y manejo seguro de modelos.
  • Kernels Optimizados: optimizaciones propietarias para configuraciones de hardware específicas más allá del soporte general de código abierto.
  • Garantías SLA: rendimiento y latencia asegurados para aplicaciones críticas.

Este modelo "Open Core" (modelo "Open Core" (Open Core)) permite a Inferact mantener a vLLM como el estándar de la industria, el "Linux de la inferencia" (Linux of Inference), compatible con chips de NVIDIA, AMD e Intel por igual, mientras captura valor de grandes organizaciones que no pueden permitirse tiempos de inactividad o la complejidad no gestionada.

Technical Deep Dive: Why PagedAttention Matters

La salsa secreta detrás del dominio de vLLM, y por extensión de la valoración de Inferact, es PagedAttention. En el servicio estándar de LLM, la caché Key-Value (KV) —que almacena la memoria del modelo sobre la conversación hasta el momento— crece dinámicamente. Los sistemas tradicionales deben preasignar bloques de memoria contiguos para manejar este crecimiento, lo que conduce a una fragmentación severa. Es como reservar un autobús de 100 plazas para cada pasajero por si acaso trae 99 amigos.

PagedAttention lo resuelve dividiendo la caché KV en bloques más pequeños que pueden almacenarse en espacios de memoria no contiguos. El motor vLLM mantiene una "tabla de páginas" para rastrear estos bloques, tal como un sistema operativo gestiona la RAM.

Beneficios Técnicos Clave:

  • Desperdicio Cero: El desperdicio de memoria debido a la fragmentación se reduce a casi cero (<4%).
  • Tamaños de Lote Mayores: Debido a un uso más eficiente de la memoria, el motor puede agrupar más solicitudes.
  • Ganancias de Rendimiento: En benchmarks, vLLM ofrece consistentemente 2x a 4x mayor throughput que los Transformers estándar de HuggingFace, sin comprometer la latencia.

Para una empresa que gasta $10 millones anuales en cómputo de inferencia, implementar vLLM puede reducir teóricamente esa factura a $2.5-$5 millones simplemente mediante una mejor utilización del software. Este ROI directo es lo que hace a Inferact una propuesta tan atractiva para inversores y clientes por igual.

Strategic Implications for the AI Ecosystem

La llegada de Inferact con un fondo de guerra de $150 millones envía ondas por el ecosistema de IA.

  1. Presión sobre los proveedores de nube: Los principales proveedores de nube (AWS, Azure, Google Cloud) y los proveedores de APIs de modelos (Anyscale, Together AI, Fireworks) a menudo construyen sus propias pilas de inferencia. Inferact ofrece una alternativa neutra al proveedor que permite a las empresas poseer su pila de inferencia en cualquier nube.
  2. Estandarización: La fragmentación de motores de inferencia (TensorRT-LLM, TGI, vLLM) ha sido un dolor de cabeza para los desarrolladores. La capitalización de Inferact sugiere que vLLM está posicionado para convertirse en la API de facto, simplificando la experiencia del desarrollador.
  3. El "Impuesto del Software": A medida que el hardware se vuelve una mercancía, la captura de valor se desplaza a la capa de software que lo orquesta. Inferact apuesta a que el "sistema operativo" para LLMs será tan valioso como los chips sobre los que se ejecuta.

Looking Ahead

Con $150 millones en capital fresco, Inferact planea expandir agresivamente su equipo de ingeniería, apuntando específicamente a hackers de kernel y expertos en sistemas distribuidos. La compañía también pretende profundizar su soporte para arquitecturas de hardware emergentes, asegurando que vLLM siga siendo el motor más versátil en un mercado actualmente dominado por NVIDIA.

A medida que la industria de la IA madura, la capa "aburrida" de infraestructura—servir, escalar y optimizar—se está volviendo la más lucrativa. Inferact no solo vende software; vende las herramientas para la próxima fase de la fiebre del oro de la IA: el despliegue.

Para las empresas que luchan por llevar sus pilotos de IA generativa (IA generativa (Generative AI)) a producción debido a costes o problemas de latencia, Inferact ofrece una tabla de salvación. Para la comunidad de código abierto, la financiación promete un desarrollo sostenido de vLLM, asegurando que siga siendo robusto y de vanguardia. La carrera por poseer la capa de inferencia ha comenzado oficialmente, y Inferact ha tomado una ventaja temprana y contundente.

Destacados
AdsCreator.com
Genera al instante creatividades publicitarias pulidas y coherentes con la marca desde cualquier URL para Meta, Google y Stories.
VoxDeck
Creador de presentaciones con IA que lidera la revolución visual
Refly.ai
Refly.AI permite a creadores no técnicos automatizar flujos de trabajo usando lenguaje natural y un lienzo visual.
BGRemover
Elimina fácilmente los fondos de imágenes en línea con SharkFoto BGRemover.
Skywork.ai
Skywork AI es una herramienta innovadora para aumentar la productividad utilizando IA.
Qoder
Qoder es un asistente de codificación impulsado por IA que automatiza la planificación, la codificación y las pruebas para proyectos de software.
Flowith
Flowith es un espacio de trabajo agéntico basado en lienzo que ofrece gratis 🍌Nano Banana Pro y otros modelos efectivos.
FixArt AI
FixArt AI ofrece herramientas de IA gratuitas y sin restricciones para la generación de imágenes y videos sin necesidad de registrarse.
FineVoice
Convierte el texto en emoción — Clona, diseña y crea voces de IA expresivas en segundos.
Elser AI
Estudio web todo‑en‑uno que convierte texto e imágenes en arte estilo anime, personajes, voces y cortometrajes.
Pippit
¡Eleva tu creación de contenido con las poderosas herramientas de IA de Pippit!
SharkFoto
SharkFoto es una plataforma todo-en-uno impulsada por IA para crear y editar videos, imágenes y música de manera eficiente.
Funy AI
¡Anima tus fantasías! Crea vídeos de besos y bikinis con IA a partir de imágenes o texto. Prueba el cambiador de ropa IA
KiloClaw
Agente OpenClaw alojado: despliegue con un clic, más de 500 modelos, infraestructura segura y gestión automatizada de agentes para equipos y desarrolladores.
Diagrimo
Diagrimo transforma el texto en diagramas y visuales generados por IA personalizables al instante.
SuperMaker AI Video Generator
Crea videos, música e imágenes impresionantes sin esfuerzo con SuperMaker.
AI Clothes Changer by SharkFoto
AI Clothes Changer de SharkFoto te permite probar virtualmente atuendos al instante con ajuste, textura e iluminación realistas.
Yollo AI
Chatea y crea junto a tu compañero IA. De imagen a video y generación de imágenes IA.
AnimeShorts
Crea cortos de anime impresionantes sin esfuerzo con tecnología de IA de vanguardia.
Image to Video AI without Login
Herramienta gratuita de IA de Imagen a Video que transforma fotos al instante en videos animados fluidos y de alta calidad sin marcas de agua.
InstantChapters
Genera capítulos de libros cautivadores al instante con Instant Chapters.
Claude API
Claude API for Everyone
Anijam AI
Anijam es una plataforma de animación nativa de IA que convierte ideas en historias pulidas mediante creación de video agentiva.
wan 2.7-image
Un generador de imágenes con IA controlable para rostros precisos, paletas, texto y continuidad visual.
happy horse AI
Generador de video de IA de código abierto que crea video y audio sincronizados a partir de texto o imágenes.
AI Video API: Seedance 2.0 Here
API de video con IA unificada que ofrece modelos de última generación a través de una sola clave y a menor costo.
NerdyTips
Una plataforma de predicciones de fútbol impulsada por IA que ofrece consejos de partidos basados en datos en ligas de todo el mundo.
WhatsApp AI Sales
WABot es un copiloto de ventas con IA para WhatsApp que ofrece scripts en tiempo real, traducciones y detección de intención.
HappyHorseAIStudio
Generador de videos con IA basado en navegador para texto, imágenes, referencias y edición de video.
insmelo AI Music Generator
Generador de música impulsado por IA que convierte prompts, letras o cargas en canciones pulidas y libres de regalías en aproximadamente un minuto.
BeatMV
Plataforma de IA basada en la web que convierte canciones en videoclips cinematográficos y crea música con IA.
UNI-1 AI
UNI-1 es un modelo unificado de generación de imágenes que combina razonamiento visual con síntesis de imágenes de alta fidelidad.
Kirkify
Kirkify AI crea al instante memes virales de intercambio de rostros con una estética neon-glitch distintiva para creadores de memes.
Wan 2.7
Modelo de video AI de grado profesional con control preciso del movimiento y consistencia multi‑vista.
Text to Music
Convierte texto o letras en canciones completas de calidad de estudio con voces generadas por IA, instrumentos y exportaciones multipista.
Iara Chat
Iara Chat: Un asistente de productividad y comunicación impulsado por IA.
kinovi - Seedance 2.0 - Real Man AI Video
Generador de vídeo IA gratuito con salida humana realista, sin marca de agua y con derechos completos de uso comercial.
Tome AI PPT
Generador de presentaciones impulsado por IA que crea, embellece y exporta presentaciones profesionales en minutos.
Video Sora 2
Sora 2 AI convierte texto o imágenes en videos cortos para redes sociales y eCommerce con movimiento físicamente preciso en minutos.
Lyria3 AI
Generador de música con IA que crea canciones totalmente producidas y de alta fidelidad a partir de indicaciones de texto, letras y estilos al instante.
Atoms
Plataforma impulsada por IA que crea aplicaciones y sitios web full‑stack en minutos utilizando automatización multiagente, sin necesidad de programar.
Paper Banana
Herramienta impulsada por IA para convertir texto académico en diagramas metodológicos listos para publicación y gráficos estadísticos precisos al instante.
AI Pet Video Generator
Crea videos virales y para compartir de mascotas a partir de fotos usando plantillas impulsadas por IA y exportaciones HD instantáneas para plataformas sociales.
Ampere.SH
Alojamiento OpenClaw gestionado gratuito. Despliega agentes IA en 60 segundos con $500 en créditos Claude.
Palix AI
Plataforma de IA todo‑en‑uno para creadores que genera imágenes, videos y música con créditos unificados.
Hitem3D
Hitem3D convierte una sola imagen en modelos 3D de alta resolución y listos para producción mediante IA.
GenPPT.AI
Generador de PPT impulsado por IA que crea, embellece y exporta presentaciones profesionales de PowerPoint con notas del presentador y gráficos en minutos.
HookTide
Plataforma de crecimiento en LinkedIn impulsada por IA que aprende tu voz para crear contenido, interactuar y analizar el rendimiento.
Create WhatsApp Link
Generador gratuito de enlaces y códigos QR para WhatsApp con analíticas, enlaces con marca, enrutamiento y funciones de chat multiagente.
Seedance 20 Video
Seedance 2 es un generador de video IA multimodal que ofrece personajes consistentes, narrativa en múltiples tomas y audio nativo en 2K.
Gobii
Gobii permite a los equipos crear trabajadores digitales autónomos 24/7 para automatizar la investigación web y tareas rutinarias.
Free AI Video Maker & Generator
Creador y Generador de Videos IA Gratis – Ilimitado, Sin Registro
Veemo - AI Video Generator
Veemo AI es una plataforma todo en uno que genera rápidamente videos e imágenes de alta calidad a partir de texto o imágenes.
AI FIRST
Asistente conversacional de IA que automatiza investigación, tareas del navegador, scraping web y gestión de archivos mediante lenguaje natural.
GLM Image
GLM Image combina modelos híbridos autorregresivos y de difusión para generar imágenes AI de alta fidelidad con una representación de texto excepcional.
ainanobanana2
Nano Banana 2 genera imágenes 4K de calidad profesional en 4–6 segundos con renderizado de texto preciso y consistencia de sujetos.
WhatsApp Warmup Tool
Herramienta de calentamiento de WhatsApp impulsada por IA que automatiza el envío masivo de mensajes mientras previene bloqueos de cuentas.
TextToHuman
Humanizador de IA gratuito que reescribe instantáneamente textos generados por IA en redacción natural y similar a la humana. No requiere registro.
Manga Translator AI
AI Manga Translator traduce instantáneamente imágenes de manga a múltiples idiomas en línea.
Remy - Newsletter Summarizer
Remy automatiza la gestión de newsletters resumiendo emails en insights fáciles de digerir.

Inferact, que comercializa vLLM, recauda 150 millones de dólares para impulsar la inferencia de IA

Inferact, la startup que comercializa el popular motor de inferencia de código abierto vLLM, ha conseguido una ronda seed de 150 millones de dólares liderada por Andreessen Horowitz y Lightspeed para acelerar el despliegue de aplicaciones de IA.