AI News

Une nouvelle ère pour l'infrastructure IA : Inferact sécurise 150 millions de dollars pour commercialiser vLLM

Dans un moment déterminant pour le paysage de l'infrastructure d'intelligence artificielle, Inferact, la startup fondée par les créateurs du moteur d'inférence open-source largement adopté vLLM (moteur d'inférence, inference engine), est officiellement sortie de la discrétion avec un immense tour d'amorçage de 150 millions de dollars. Ce tour, qui valorise la jeune entreprise à un impressionnant 800 millions de dollars, a été co-dirigé par les titans du capital-risque Andreessen Horowitz (a16z) et Lightspeed Venture Partners.

Ce financement représente l'un des plus importants tours d'amorçage de l'histoire de la Silicon Valley, signalant un changement décisif de l'attention des investisseurs, passant de l'entraînement de modèles au déploiement et à l'inférence des modèles. Alors que l'IA générative (Generative AI) passe des laboratoires de recherche expérimentale à la production à grande échelle, l'industrie est confrontée à un nouveau goulot d'étranglement : le coût exorbitant et la latence de l'inférence. Inferact vise à résoudre cela en construisant la « couche d'inférence universelle » pour l'entreprise, tirant parti de l'universalité de vLLM pour standardiser la manière dont les modèles d'IA sont déployés à travers le monde.

Aux côtés de a16z et Lightspeed dans ce tour sursouscrit se trouvent Sequoia Capital, Altimeter Capital, Redpoint Ventures et ZhenFund, créant une coalition de soutiens qui souligne l'importance stratégique de la couche d'inférence.

Le phénomène vLLM : du laboratoire de Berkeley au standard industriel

Pour comprendre l'ampleur de ce financement, il faut examiner la technologie qui soutient Inferact. vLLM (Versatile Large Language Model) a commencé comme un projet de recherche à UC Berkeley, développé par une équipe incluant Simon Mo, Woosuk Kwon, Kaichao You et Roger Wang. Leur objectif était de résoudre une inefficacité critique dans la manière dont les grands modèles de langage (LLM) gèrent la mémoire lors de la génération de texte.

La percée est venue sous la forme de PagedAttention, un algorithme inspiré par la pagination de la mémoire virtuelle dans les systèmes d'exploitation. Les mécanismes d'attention traditionnels peinent avec la fragmentation de la mémoire, entraînant du gaspillage de ressources GPU — un péché capital à une époque où les GPU H100 sont à la fois rares et coûteux. PagedAttention permet à vLLM de gérer les clés et valeurs d'attention dans des blocs mémoire non contigus, augmentant radicalement le débit.

Depuis sa sortie open-source, vLLM a atteint des métriques d'adoption virale qui rivalisent avec les premiers jours de Kubernetes ou Docker :

  • 400 000+ GPU sont estimés exécuter vLLM simultanément dans le monde.
  • Plus de 2 000 contributeurs ont participé au projet sur GitHub.
  • Adoption par des acteurs tech majeurs dont Meta, Google, et Character.ai.

Inferact a maintenant la mission de gérer ce phénomène open-source tout en construisant une plateforme commerciale sur laquelle les entreprises peuvent compter pour des applications critiques.

Financement en un coup d'œil

Le tableau suivant décrit les éléments clés du tour d'amorçage historique d'Inferact.

Metric Details Context
Round Size $150 Million One of the largest seed rounds in AI history
Valuation $800 Million Reflects high demand for inference optimization
Lead Investors Andreessen Horowitz (a16z), Lightspeed Leading top-tier deep tech firms
Key Participants Sequoia, Altimeter, Redpoint, ZhenFund Broad ecosystem support
Core Technology vLLM, PagedAttention High-throughput inference engine
Leadership Simon Mo, Woosuk Kwon, et al. Original creators of vLLM

---|---|---|

Le passage de l'entraînement au serving

Le lancement d'Inferact coïncide avec une transition fondamentale dans l'économie de l'IA. Depuis deux ans, les dépenses en capital ont été dominées par l'entraînement — la construction de clusters massifs pour créer des modèles de base comme GPT-4, Claude et Llama 3. Cependant, à mesure que ces modèles sont déployés dans des produits, le profil des coûts se déplace fortement vers l'inférence (inference).

Les analystes de l'industrie ont baptisé cela « l'ère du débit » ("Throughput Era"), où la métrique principale de succès n'est plus seulement la qualité du modèle, mais les tokens par seconde et par dollar. Exécuter un modèle comme Llama-3-70B à grande échelle pour des millions d'utilisateurs nécessite une puissance de calcul immense. Des piles logicielles inefficaces peuvent provoquer des pics de latence et des factures cloud astronomiques, tuant effectivement l'économie unitaire des applications d'IA.

Les partenaires d'Andreessen Horowitz ont noté dans leur thèse d'investissement que « le logiciel devient plus critique que le matériel. » Acheter simplement plus de NVIDIA H100 n'est plus une stratégie viable si la pile logicielle sous-jacente les utilise à seulement 30 % d'efficacité. La proposition de valeur d'Inferact est de débloquer les 70 % restants du potentiel de calcul via des optimisations logicielles avancées, agissant ainsi comme un multiplicateur de force pour les investissements matériels.

Commercialiser l'open source : la stratégie « Red Hat »

Inferact suit une voie bien connue des entreprises commerciales open-source (COSS) à succès comme Databricks (Spark), Confluent (Kafka) et HashiCorp (Terraform). L'entreprise fait face au classique double défi : soutenir une communauté libre et florissante tout en bâtissant une valeur propriétaire pour les clients payants.

Selon le CEO Simon Mo, la stratégie commerciale d'Inferact se concentre sur la fiabilité et l'évolutivité de niveau entreprise. Alors que le moteur open-source vLLM fournit la puissance brute, les entreprises exigent :

  • Infrastructure gérée : mise à l'échelle automatisée, orchestration multi-nœuds et récupération en cas de panne.
  • Sécurité et conformité : conformité SOC2, déploiements en cloud privé et gestion sécurisée des modèles.
  • Kernels optimisés : optimisations propriétaires pour des configurations matérielles spécifiques au-delà du support open-source général.
  • Garantie SLA : débit et latence assurés pour les applications critiques.

Ce modèle "Open Core" (Open Core) permet à Inferact de maintenir vLLM comme le « Linux de l'inférence » (Linux of Inference) — fonctionnant sur les puces NVIDIA, AMD et Intel — tout en capturant la valeur auprès des grandes organisations qui ne peuvent pas se permettre des temps d'arrêt ou une complexité non gérée.

Plongée technique : pourquoi PagedAttention est important

La sauce secrète derrière la domination de vLLM, et par extension la valorisation d'Inferact, est PagedAttention. Dans le serving standard des LLM, le cache Key-Value (KV) — qui stocke la mémoire de la conversation jusqu'à présent — croît dynamiquement. Les systèmes traditionnels doivent pré-allouer des blocs mémoire contigus pour gérer cette croissance, entraînant une fragmentation sévère. C'est comparable à réserver un bus de 100 sièges pour chaque passager au cas où il amènerait 99 amis.

PagedAttention résout cela en divisant le cache KV en blocs plus petits qui peuvent être stockés dans des espaces mémoire non contigus. Le moteur vLLM maintient une « table des pages » pour suivre ces blocs, tout comme un système d'exploitation gère la RAM.

Principaux avantages techniques :

  • Aucune perte : le gaspillage de mémoire dû à la fragmentation est réduit à presque zéro (<4%).
  • Tailles de batch supérieures : parce que la mémoire est utilisée plus efficacement, le moteur peut regrouper davantage de requêtes.
  • Gains de débit : dans les benchmarks, vLLM offre systématiquement un débit 2x à 4x supérieur à celui des HuggingFace Transformers standard, sans compromettre la latence.

Pour une entreprise dépensant 10 millions de dollars par an en calcul pour l'inférence, implémenter vLLM peut théoriquement réduire cette facture à 2,5–5 millions de dollars simplement grâce à une meilleure utilisation logicielle. Ce ROI direct est ce qui rend Inferact si attractif pour les investisseurs et les clients.

Implications stratégiques pour l'écosystème IA

L'arrivée d'Inferact avec une cagnotte de 150 millions de dollars envoie des ondes dans l'écosystème IA.

  1. Pression sur les fournisseurs cloud : Les grands fournisseurs cloud (AWS, Azure, Google Cloud) et les fournisseurs d'API de modèles (Anyscale, Together AI, Fireworks) construisent souvent leurs propres piles d'inférence. Inferact offre une alternative neutre vis-à-vis des fournisseurs qui permet aux entreprises de posséder leur pile d'inférence sur n'importe quel cloud.
  2. Standardisation : La fragmentation des moteurs d'inférence (TensorRT-LLM, TGI, vLLM) a été un casse-tête pour les développeurs. La capitalisation d'Inferact suggère que vLLM est positionné pour devenir l'API de facto, simplifiant l'expérience développeur.
  3. La « taxe logicielle » : À mesure que le matériel se banalise, la capture de valeur se déplace vers la couche logicielle qui l'orchestration. Inferact parie que le « système d'exploitation » pour les LLM vaudra autant que les puces sur lesquelles ils tournent.

Perspectives

Avec 150 millions de dollars de capital frais, Inferact prévoit d'étendre agressivement son équipe d'ingénierie, ciblant spécifiquement des kernel hackers et des experts en systèmes distribués. L'entreprise vise également à approfondir son support pour les architectures matérielles émergentes, garantissant que vLLM reste le moteur le plus polyvalent sur un marché actuellement dominé par NVIDIA.

À mesure que l'industrie de l'IA mûrit, la couche d'infrastructure « ennuyeuse » — servir, mettre à l'échelle et optimiser — devient la plus lucrative. Inferact ne vend pas seulement un logiciel ; ils vendent les pioches pour la prochaine phase de la ruée vers l'or de l'IA : le déploiement.

Pour les entreprises peinant à faire passer leurs pilotes GenAI en production en raison des coûts ou de la latence, Inferact offre une bouée de sauvetage. Pour la communauté open-source, le financement promet un développement soutenu de vLLM, garantissant qu'il reste robuste et à la pointe. La course pour posséder la couche d'inférence a officiellement commencé, et Inferact a pris une avance précoce et dominante.

Vedettes
AdsCreator.com
Générez instantanément des créations publicitaires soignées et conformes à la marque à partir de n’importe quelle URL pour Meta, Google et Stories.
VoxDeck
Créateur de présentations IA menant la révolution visuelle
Refly.ai
Refly.AI permet aux créateurs non techniques d'automatiser des workflows en utilisant le langage naturel et une toile visuelle.
BGRemover
Supprimez facilement les arrière-plans d'images en ligne avec SharkFoto BGRemover.
Skywork.ai
Skywork AI est un outil innovant pour améliorer la productivité grâce à l'IA.
Qoder
Qoder est un assistant de codage propulsé par l'IA qui automatise la planification, le codage et les tests des projets logiciels.
Flowith
Flowith est un espace de travail agentique basé sur un canevas qui offre gratuitement 🍌Nano Banana Pro et d'autres modèl
FixArt AI
FixArt AI propose des outils d'IA gratuits et sans restriction pour la génération d'images et de vidéos, sans inscription.
FineVoice
Transformez le texte en émotion — Clonez, concevez et créez des voix IA expressives en quelques secondes.
Elser AI
Studio web tout‑en‑un qui transforme textes et images en art anime, personnages, voix et courts‑métrages.
Pippit
Élevez votre création de contenu avec les puissants outils d'IA de Pippit !
SharkFoto
SharkFoto est une plateforme tout-en-un alimentée par l'IA pour créer et éditer efficacement des vidéos, images et musiques.
Funy AI
Animez vos fantasmes ! Créez des vidéos IA de baisers ou bikinis à partir d'images/textes. Essayez le changeur de vêteme
KiloClaw
Agent OpenClaw hébergé : déploiement en un clic, plus de 500 modèles, infrastructure sécurisée et gestion automatisée des agents pour les équipes et les développeurs.
Diagrimo
Diagrimo transforme instantanément le texte en diagrammes et visuels personnalisables générés par IA.
SuperMaker AI Video Generator
Créez des vidéos, de la musique et des images époustouflantes sans effort avec SuperMaker.
AI Clothes Changer by SharkFoto
AI Clothes Changer de SharkFoto vous permet d'essayer virtuellement des tenues instantanément, avec un ajustement, une texture et un éclairage réalistes.
Yollo AI
Discutez et créez avec votre compagnon IA. Image vers vidéo, génération d'images IA.
AnimeShorts
Créez facilement des courts-métrages d'anime époustouflants grâce à des technologies d'IA de pointe.
Image to Video AI without Login
Outil IA gratuit Image vers Vidéo qui transforme instantanément les photos en vidéos animées fluides et de haute qualité sans filigrane.
InstantChapters
Générez instantanément des chapitres de livre captivants avec Instant Chapters.
Anijam AI
Anijam est une plateforme d’animation native à l’IA qui transforme les idées en histoires abouties grâce à la création vidéo agentique.
Claude API
Claude API for Everyone
wan 2.7-image
Un générateur d’images IA contrôlable pour des visages précis, des palettes, du texte et une continuité visuelle.
NerdyTips
Une plateforme de pronostics football alimentée par l’IA, fournissant des conseils de match basés sur les données pour les championnats du monde entier.
WhatsApp AI Sales
WABot est un copilote de vente IA pour WhatsApp qui fournit des scripts en temps réel, des traductions et la détection d'intention.
happy horse AI
Générateur vidéo IA open source qui crée des vidéos et de l'audio synchronisés à partir de texte ou d'images.
HappyHorseAIStudio
Générateur de vidéos IA basé sur le navigateur pour le texte, les images, les références et le montage vidéo.
AI Video API: Seedance 2.0 Here
API vidéo IA unifiée offrant des modèles de génération de pointe via une seule clé, à moindre coût.
insmelo AI Music Generator
Générateur de musique piloté par IA qui transforme des prompts, paroles ou fichiers uploadés en chansons polies et sans redevances en environ une minute.
BeatMV
Plateforme d'IA basée sur le web qui transforme des chansons en clips musicaux cinématographiques et crée de la musique avec l'IA.
UNI-1 AI
UNI-1 est un modèle unifié de génération d'images combinant raisonnement visuel et synthèse d'images haute fidélité.
Kirkify
Kirkify AI crée instantanément des mèmes viraux de changement de visage avec une esthétique néon-glitch signature pour les créateurs de mèmes.
Wan 2.7
Modèle vidéo IA de qualité professionnelle avec contrôle précis des mouvements et cohérence multi-vues.
Text to Music
Transformez du texte ou des paroles en chansons complètes de qualité studio avec des voix générées par IA, des instruments et des exports multi‑pistes.
Iara Chat
Iara Chat : Un assistant de productivité et de communication alimenté par l'IA.
kinovi - Seedance 2.0 - Real Man AI Video
Générateur vidéo IA gratuit avec rendu humain réaliste, sans filigrane et droits d'utilisation commerciale complets.
Tome AI PPT
Créateur de présentations alimenté par l'IA qui génère, embellit et exporte des diaporamas professionnels en quelques minutes.
Video Sora 2
Sora 2 AI transforme du texte ou des images en vidéos courtes, physiquement exactes, pour les réseaux sociaux et le e‑commerce en quelques minutes.
Lyria3 AI
Générateur de musique IA qui crée instantanément des chansons entièrement produites et haute fidélité à partir de prompts textuels, de paroles et de styles.
Atoms
Plateforme pilotée par l'IA qui construit des applications et sites full‑stack en quelques minutes grâce à l'automatisation multi‑agents, sans codage requis.
Paper Banana
Outil propulsé par l'IA pour convertir instantanément du texte académique en diagrammes méthodologiques prêts pour publication et graphiques statistiques précis.
AI Pet Video Generator
Créez des vidéos d'animaux virales et faciles à partager à partir de photos en utilisant des modèles pilotés par l'IA et des exportations HD instantanées pour les plateformes sociales.
Ampere.SH
Hébergement OpenClaw géré et gratuit. Déployez des agents IA en 60 secondes avec 500 $ de crédits Claude.
Palix AI
Plateforme IA tout‑en‑un pour les créateurs, permettant de générer images, vidéos et musiques avec des crédits unifiés.
Hitem3D
Hitem3D convertit une image unique en modèles 3D haute résolution, prêts pour la production, grâce à l'IA.
GenPPT.AI
Générateur de PPT piloté par l'IA qui crée, embellit et exporte des présentations PowerPoint professionnelles avec notes du présentateur et graphiques en quelques minutes.
HookTide
Plateforme de croissance LinkedIn propulsée par l'IA qui apprend votre voix pour créer du contenu, engager et analyser les performances.
Create WhatsApp Link
Générateur gratuit de liens et QR WhatsApp avec analytics, liens de marque, routage et fonctionnalités de chat multi‑agents.
Seedance 20 Video
Seedance 2 est un générateur vidéo IA multimodal offrant des personnages cohérents, une narration multi-plans et de l'audio natif en 2K.
Gobii
Gobii permet aux équipes de créer des travailleurs numériques autonomes 24/7 pour automatiser la recherche web et les tâches routinières.
Free AI Video Maker & Generator
Créateur et générateur de vidéos IA gratuit – illimité, sans inscription
Veemo - AI Video Generator
Veemo AI est une plateforme tout-en-un qui génère rapidement des vidéos et des images de haute qualité à partir de texte ou d'images.
AI FIRST
Assistant IA conversationnel automatisant la recherche, les tâches navigateur, le web scraping et la gestion de fichiers via le langage naturel.
GLM Image
GLM Image combine des modèles hybrides autorégressifs et de diffusion pour générer des images IA haute fidélité avec un rendu de texte exceptionnel.
ainanobanana2
Nano Banana 2 génère des images 4K de qualité professionnelle en 4–6 secondes avec un rendu précis du texte et une cohérence des sujets.
WhatsApp Warmup Tool
Outil de préchauffage WhatsApp propulsé par l'IA qui automatise l'envoi en masse tout en empêchant les blocages de comptes.
TextToHuman
Humaniseur IA gratuit qui réécrit instantanément les textes générés par IA en écriture naturelle et semblable à celle d'un humain. Aucune inscription requise.
Manga Translator AI
AI Manga Translator traduit instantanément des images de manga en plusieurs langues en ligne.
Remy - Newsletter Summarizer
Remy automatise la gestion des newsletters en résumant les e-mails en informations digestes.

Inferact, commercialisant vLLM, lève 150 millions de dollars pour booster l'inférence IA

Inferact, la startup qui commercialise le moteur d'inférence open-source populaire vLLM, a levé un tour de financement seed de 150 millions de dollars mené par Andreessen Horowitz et Lightspeed afin d'accélérer le déploiement d'applications d'IA.