AI News

Eine neue Ära für KI-Infrastruktur: Inferact sichert sich $150 Million zur Kommerzialisierung von vLLM

In einem wegweisenden Moment für die Landschaft der Infrastruktur für künstliche Intelligenz ist Inferact, das von den Entwicklern der weit verbreiteten Open-Source-Inferenz-Engine vLLM gegründete Startup, offiziell aus der Verschleierung getreten und hat eine massive $150 Millionen Seed-Finanzierungsrunde (Seed round) bekanntgegeben. Die Runde, die das junge Unternehmen mit beeindruckenden $800 Millionen bewertet, wurde von den Venture-Capital-Titanen Andreessen Horowitz (a16z) und Lightspeed Venture Partners gemeinsam angeführt.

Diese Finanzierung stellt eine der größten Seed-Runden in der Geschichte des Silicon Valley dar und signalisiert eine entschiedene Verschiebung des Investorenfokus von Modelltraining hin zum Modellbetrieb (Inference). Während sich Generative KI (Generative AI) von experimentellen Forschungslaboren in groß angelegte Produktionsumgebungen bewegt, steht die Branche vor einem neuen Engpass: den exorbitanten Kosten und Latenzen bei der Inferenz. Inferact will dieses Problem lösen, indem es die "universelle Inferenzschicht" für Unternehmen baut und die Verbreitung von vLLM nutzt, um zu standardisieren, wie KI-Modelle weltweit bereitgestellt werden.

Neben a16z und Lightspeed sind in dieser überzeichneten Runde Sequoia Capital, Altimeter Capital, Redpoint Ventures und ZhenFund beteiligt, womit eine Unterstützerkoalition entsteht, die die strategische Bedeutung der Inferenzschicht unterstreicht.

Das vLLM-Phänomen: Vom Berkeley-Labor zum Industriestandard

Um das Ausmaß dieser Finanzierung zu verstehen, muss man sich die Technologie anschauen, die Inferact zugrunde liegt. vLLM (Versatile Large Language Model) begann als Forschungsprojekt an der UC Berkeley und wurde von einem Team entwickelt, zu dem Simon Mo, Woosuk Kwon, Kaichao You und Roger Wang gehören. Ihr Ziel war es, eine kritische Ineffizienz zu beheben, wie große Sprachmodelle (LLMs) den Speicher während der Textgenerierung verwalten.

Der Durchbruch kam in Form von PagedAttention, einem Algorithmus, der von der Paging-Funktion virtuellen Speichers in Betriebssystemen inspiriert ist. Herkömmliche Attention-Mechanismen haben Probleme mit Speicherfragmentierung, was zu verschwendeten GPU-Ressourcen führt — ein Kardinalfehler in einer Zeit, in der H100-GPUs sowohl knapp als auch teuer sind. PagedAttention ermöglicht es vLLM, Attention-Keys und -Values in nicht zusammenhängenden Speicherblöcken zu verwalten und so den Durchsatz drastisch zu erhöhen.

Seit der Veröffentlichung als Open Source (Open Source) hat vLLM virale Akzeptanzwerte erreicht, die mit den frühen Tagen von Kubernetes oder Docker vergleichbar sind:

  • Schätzungsweise 400.000+ GPUs laufen weltweit gleichzeitig mit vLLM.
  • Über 2.000 Beitragende haben sich im GitHub-Projekt engagiert.
  • Übernahme durch große Tech-Akteure wie Meta, Google und Character.ai.

Inferact steht nun vor der Aufgabe, diese Open-Source-Bewegung zu betreuen und zugleich eine kommerzielle Plattform aufzubauen, auf die Unternehmen für geschäftskritische Anwendungen vertrauen können.

Finanzierung im Überblick

Die folgende Tabelle zeigt die wichtigsten Details von Inferacts historischer Seed-Runde.

Metric Details Context
Round Size $150 Million One of the largest seed rounds in AI history
Valuation $800 Million Reflects high demand for inference optimization
Lead Investors Andreessen Horowitz (a16z), Lightspeed Leading top-tier deep tech firms
Key Participants Sequoia, Altimeter, Redpoint, ZhenFund Broad ecosystem support
Core Technology vLLM, PagedAttention High-throughput inference engine
Leadership Simon Mo, Woosuk Kwon, et al. Original creators of vLLM

---|---|---|

Der Wandel vom Training zum Serving

Der Zeitpunkt von Inferacts Markteintritt fällt mit einem grundlegenden Übergang in der KI-Wirtschaft zusammen. In den letzten zwei Jahren wurden Kapitalausgaben von der Trainingsphase dominiert — dem Aufbau massiver Cluster zur Erstellung von Foundation Models wie GPT-4, Claude und Llama 3. Sobald diese Modelle jedoch in Produkte integriert werden, verschiebt sich das Kostenprofil stark in Richtung Inferenz.

Branchenanalysten haben dies als die „Durchsatz-Ära“ (Throughput Era) bezeichnet, in der die primäre Erfolgsmetrik nicht mehr nur die Modellqualität ist, sondern Tokens pro Sekunde pro Dollar (tokens per second per dollar). Den Betrieb eines Modells wie Llama-3-70B in großem Maßstab für Millionen von Nutzern erfordert enorme Rechenleistung. Ineffiziente Software-Stacks können zu Latenzspitzen und explodierenden Cloud-Kosten führen und damit die Unit Economics von KI-Anwendungen effektiv zerstören.

Partner von Andreessen Horowitz bemerkten in ihrer Investment-These, dass „Software wichtiger wird als Hardware.“ Einfach mehr NVIDIA H100s zu kaufen, ist keine tragfähige Strategie mehr, wenn der zugrunde liegende Software-Stack diese nur mit 30% Effizienz nutzt. Inferacts Wertversprechen besteht darin, die verbleibenden 70% Rechenpotenzial durch fortschrittliche Software-Optimierungen freizusetzen und so als Kraftmultiplikator für Hardware-Investitionen zu wirken.

Open Source kommerzialisieren: Die „Red Hat“-Strategie

Inferact folgt einem bewährten Pfad erfolgreicher kommerzieller Open-Source-Unternehmen (COSS) wie Databricks (Spark), Confluent (Kafka) und HashiCorp (Terraform). Das Unternehmen steht vor der klassischen Doppelaufgabe: einerseits eine florierende freie Community zu unterstützen, andererseits proprietären Mehrwert für zahlende Kunden zu schaffen.

Laut CEO Simon Mo konzentriert sich Inferacts kommerzielle Strategie auf Unternehmensqualität in Zuverlässigkeit und Skalierbarkeit. Während die Open-Source vLLM-Engine die rohe Antriebsleistung liefert, benötigen Unternehmen:

  • Managed Infrastructure: Automatisches Skalieren, Multi-Node-Orchestrierung und Fehlerwiederherstellung.
  • Security & Compliance: SOC2-Compliance, private Cloud-Deployments und sichere Modellverarbeitung.
  • Optimized Kernels: Proprietäre Optimierungen für spezifische Hardwarekonfigurationen über die allgemeine Open-Source-Unterstützung hinaus.
  • SLA Guarantees: Garantierter Durchsatz und Latenz für kritische Anwendungen.

Dieses Open-Core-Modell (Open Core) erlaubt es Inferact, vLLM als den Industriestandard — das "Linux der Inferenz" — zu erhalten, das gleichermaßen auf NVIDIA-, AMD- und Intel-Chips läuft, während gleichzeitig Wert von großen Organisationen abgeschöpft wird, die sich Ausfallzeiten oder unbeaufsichtigte Komplexität nicht leisten können.

Technischer Deep Dive: Warum PagedAttention wichtig ist

Das Geheimnis hinter vLLMs Dominanz und damit hinter Inferacts Bewertung ist PagedAttention. Beim standardmäßigen LLM-Serving wächst der Key-Value-Cache (KV-Cache), der das bisherige Gesprächsgedächtnis des Modells speichert, dynamisch. Traditionelle Systeme müssen zusammenhängende Speicherbereiche vorab reservieren, um dieses Wachstum zu bewältigen, was zu starker Fragmentierung führt. Es ist vergleichbar damit, einen 100-Sitzer-Bus für jeden Fahrgast zu reservieren, nur für den Fall, dass er 99 Freunde mitbringt.

PagedAttention löst dieses Problem, indem es den KV-Cache in kleinere Blöcke aufteilt, die in nicht zusammenhängenden Speicherbereichen abgelegt werden können. Die vLLM-Engine führt eine "Seitentabelle" (page table), um diese Blöcke zu verfolgen, ähnlich wie ein Betriebssystem den RAM verwaltet.

Technische Hauptvorteile:

  • Zero Waste: Speicherabfall durch Fragmentierung wird auf nahezu null reduziert (<4%).
  • Höhere Batch-Größen: Da der Speicher effizienter genutzt wird, kann die Engine mehr Anfragen zusammenfassen.
  • Durchsatzgewinne: In Benchmarks liefert vLLM konsequent 2x bis 4x höheren Durchsatz als Standard-HuggingFace-Transformers, ohne die Latenz zu beeinträchtigen.

Für ein Unternehmen, das jährlich $10 Millionen für Inferenz-Compute ausgibt, kann die Implementierung von vLLM theoretisch diese Kosten durch bessere Software-Auslastung auf $2,5–$5 Millionen senken. Diese direkte Kapitalrendite macht Inferact sowohl für Investoren als auch für Kunden äußerst attraktiv.

Strategische Implikationen für das KI-Ökosystem

Das Erscheinen von Inferact mit einem Kapitalpolster von $150 Millionen sendet Wellen durch das KI-Ökosystem.

  1. Druck auf Cloud-Anbieter: Große Cloud-Anbieter (AWS, Azure, Google Cloud) und Anbieter von Model-APIs (Anyscale, Together AI, Fireworks) bauen oft eigene Inferenz-Stacks. Inferact bietet eine anbieterneutrale Alternative, die es Unternehmen erlaubt, ihren Inferenz-Stack in jeder Cloud zu betreiben.
  2. Standardisierung: Die Fragmentierung von Inferenz-Engines (TensorRT-LLM, TGI, vLLM) ist für Entwickler eine Belastung gewesen. Inferacts Kapitalausstattung legt nahe, dass vLLM positioniert ist, die de-facto-Standard-API zu werden und so das Entwickelerlebnis zu vereinfachen.
  3. Die "Software-Steuer": Während Hardware zur Commodity wird, verlagert sich die Werterfassung auf die Software-Schicht, die diese orchestriert. Inferact setzt darauf, dass das "Betriebssystem" für LLMs genauso viel wert sein wird wie die Chips, auf denen sie laufen.

Ausblick

Mit $150 Millionen frischem Kapital plant Inferact, sein Engineering-Team aggressiv auszubauen, mit besonderem Fokus auf Kernel-Hacker und Experten für verteilte Systeme. Das Unternehmen will außerdem seine Unterstützung für aufkommende Hardware-Architekturen vertiefen, um sicherzustellen, dass vLLM die vielseitigste Engine in einem Markt bleibt, der derzeit von NVIDIA dominiert wird.

Während die KI-Branche reift, wird die „langweilige“ Infrastrukturschicht — Bereitstellung, Skalierung und Optimierung — zunehmend die lukrativste. Inferact verkauft nicht nur Software; sie verkaufen die Spitzhacken für die nächste Phase des KI-Goldrausches: die Bereitstellung.

Für Unternehmen, die Schwierigkeiten haben, ihre GenAI-Piloten aufgrund von Kosten- oder Latenzproblemen in die Produktion zu überführen, bietet Inferact eine Rettungsleine. Für die Open-Source-Community verspricht die Finanzierung eine nachhaltige Weiterentwicklung von vLLM, die sicherstellt, dass es robust und auf dem neuesten Stand bleibt. Das Rennen um die Kontrolle der Inferenzschicht hat offiziell begonnen, und Inferact hat früh die Führung übernommen.

Ausgewählt
AdsCreator.com
Erstellen Sie sofort aus jeder Website‑URL polierte, markenkonforme Werbemotive für Meta, Google und Stories.
VoxDeck
KI-Präsentations-Tool, das die visuelle Revolution anführt
Refly.ai
Refly.AI ermöglicht nicht‑technischen Kreativen, Arbeitsabläufe mit natürlicher Sprache und einer visuellen Leinwand zu automatisieren.
BGRemover
Entfernen Sie ganz einfach Hintergründe von Bildern online mit SharkFoto BGRemover.
Flowith
Flowith ist ein Canvas-basierter agentischer Arbeitsbereich, der kostenloses 🍌Nano Banana Pro und andere effektive Model
Skywork.ai
Skywork AI ist ein innovatives Tool zur Steigerung der Produktivität mit KI.
FixArt AI
FixArt AI bietet kostenlose, uneingeschränkte KI-Tools zur Bild- und Videogenerierung ohne Anmeldung an.
Qoder
Qoder ist ein KI-gestützter Coding-Assistent, der Planung, Codierung und Tests für Softwareprojekte automatisiert.
FineVoice
Verwandle Text in Emotion — Klone, designe und erstelle ausdrucksstarke KI-Stimmen in Sekundenschnelle.
Elser AI
All‑in‑one Web‑Studio, das Text und Bilder in Anime‑Kunst, Charaktere, Stimmen und Kurzfilme verwandelt.
Pippit
Steigern Sie Ihre Inhaltserstellung mit den leistungsstarken KI-Tools von Pippit!
SharkFoto
SharkFoto ist eine leistungsstarke All-in-One KI-Plattform zur effizienten Erstellung und Bearbeitung von Videos, Bildern und Musik.
Funy AI
Erwecke deine Fantasien zum Leben! Erstelle KI-Bikini- & Kuss-Videos aus Bildern/Text. Teste den KI-Kleidungswechsler. K
KiloClaw
Gehosteter OpenClaw-Agent: Ein-Klick-Bereitstellung, über 500 Modelle, sichere Infrastruktur und automatisiertes Agenten-Management für Teams und Entwickler.
Diagrimo
Diagrimo verwandelt Text sofort in anpassbare, KI-generierte Diagramme und Visuals.
SuperMaker AI Video Generator
Erstellen Sie mühelos atemberaubende Videos, Musik und Bilder mit SuperMaker.
AI Clothes Changer by SharkFoto
AI Clothes Changer von SharkFoto ermöglicht es Ihnen, Outfits sofort virtuell anzuprobieren – mit realistischer Passform, Textur und Beleuchtung.
Yollo AI
Chatten & erstellen mit Ihrem KI-Begleiter. Bild-zu-Video & KI-Bildgenerator.
AnimeShorts
Erstellen Sie mühelos atemberaubende Anime-Kurzfilme mit modernster KI-Technologie.
Image to Video AI without Login
Kostenloses Image‑to‑Video‑KI‑Tool, das Fotos sofort in flüssige, hochwertige animierte Videos ohne Wasserzeichen verwandelt.
InstantChapters
Erstelle Kapitel für dein Youtube Video mit einem Klick. Keyword optimierte Timestamps verbessern SEO und Engagement.
Claude API
Claude API for Everyone
Anijam AI
Anijam ist eine KI-native Animationsplattform, die Ideen mithilfe agentischer Videoerstellung in ausgefeilte Geschichten verwandelt.
wan 2.7-image
Ein steuerbarer KI-Bildgenerator für präzise Gesichter, Farbpaletten, Text und visuelle Kontinuität.
AI Video API: Seedance 2.0 Here
Einheitliche KI-Video-API, die Top-Generationsmodelle über einen einzigen Schlüssel zu geringeren Kosten anbietet.
happy horse AI
Open-Source-KI-Videogenerator, der synchronisiertes Video und Audio aus Text oder Bildern erstellt.
NerdyTips
Eine KI-gestützte Fußball-Prognoseplattform, die datenbasierte Spieltipps für Ligen weltweit liefert.
WhatsApp AI Sales
WABot ist ein WhatsApp-AI-Vertriebs-Copilot, der Echtzeit-Skripte, Übersetzungen und Intent-Erkennung liefert.
HappyHorseAIStudio
Browserbasierter KI-Videogenerator für Texte, Bilder, Referenzen und Videobearbeitung.
insmelo AI Music Generator
KI-gestützter Musikgenerator, der Eingabeaufforderungen, Songtexte oder Uploads in etwa einer Minute in fertige, lizenzfreie Songs verwandelt.
BeatMV
Webbasierte KI-Plattform, die Lieder in cineastische Musikvideos verwandelt und mit KI Musik erstellt.
UNI-1 AI
UNI-1 ist ein einheitliches Bildgenerierungsmodell, das visuelle Schlussfolgerungen mit hochqualitativer Bildsynthese kombiniert.
Kirkify
Kirkify AI erstellt sofort virale Face-Swap-Memes mit charakteristischer Neon-Glitch-Ästhetik für Meme-Ersteller.
Wan 2.7
Professionelles KI-Videomodell mit präziser Bewegungssteuerung und Multi-View-Konsistenz.
Text to Music
Verwandeln Sie Text oder Songtexte in vollständige, studio‑taugliche Songs mit KI-generierten Gesangsstimmen, Instrumenten und Multi‑Track‑Exports.
Iara Chat
Iara Chat: Ein KI-gestützter Produktivitäts- und Kommunikationsassistent.
kinovi - Seedance 2.0 - Real Man AI Video
Kostenloser KI-Video-Generator mit realistisch wirkenden Menschen, ohne Wasserzeichen und mit vollständigen kommerziellen Nutzungsrechten.
Tome AI PPT
KI-gestützter Präsentations-Generator, der in Minuten professionelle Folien erstellt, verschönert und exportiert.
Video Sora 2
Sora 2 AI verwandelt Text oder Bilder in kurze, physikalisch korrekte Social- und eCommerce-Videos in wenigen Minuten.
Lyria3 AI
KI-Musikgenerator, der sofort hochwertige, vollständig produzierte Songs aus Textvorgaben, Liedtexten und Stilvorgaben erstellt.
Atoms
KI‑gesteuerte Plattform, die mit Multi‑Agenten‑Automatisierung in Minuten Full‑Stack‑Apps und Websites erstellt — kein Programmieren erforderlich.
Paper Banana
KI-gestütztes Tool, das akademischen Text sofort in veröffentlichungsreife methodische Diagramme und präzise statistische Plots umwandelt.
AI Pet Video Generator
Erstellen Sie virale, teilbare Haustier‑Videos aus Fotos mithilfe KI‑gestützter Vorlagen und sofortigem HD‑Export für soziale Plattformen.
Ampere.SH
Kostenloses verwaltetes OpenClaw‑Hosting. KI‑Agenten in 60 Sekunden mit $500 Claude‑Guthaben bereitstellen.
Palix AI
All‑in‑one AI‑Plattform für Creator, um mit einheitlichen Credits Bilder, Videos und Musik zu erzeugen.
Hitem3D
Hitem3D wandelt ein einzelnes Bild mithilfe von KI in hochauflösende, produktionsbereite 3D-Modelle um.
GenPPT.AI
KI‑gestützter PPT‑Ersteller, der in Minuten professionelle PowerPoint‑Präsentationen mit Sprecherhinweisen und Diagrammen erstellt, verschönert und exportiert.
HookTide
KI‑gestützte LinkedIn‑Wachstumsplattform, die deine Stimme lernt, um Inhalte zu erstellen, Interaktionen zu fördern und die Leistung zu analysieren.
Create WhatsApp Link
Kostenloser WhatsApp-Link- und QR‑Generator mit Analytics, gebrandeten Links, Routing und Multi‑Agent‑Chat‑Funktionen.
Seedance 20 Video
Seedance 2 ist ein multimodaler KI-Video-Generator, der konsistente Charaktere, mehrszenige Erzählungen und nativen Ton in 2K liefert.
Gobii
Gobii ermöglicht Teams, rund um die Uhr autonome digitale Arbeitskräfte zu erstellen, um Webrecherche und Routineaufgaben zu automatisieren.
Free AI Video Maker & Generator
Kostenloser KI-Videoersteller & Generator – Unbegrenzt, keine Anmeldung erforderlich
Veemo - AI Video Generator
Veemo AI ist eine All‑in‑One‑Plattform, die schnell hochwertige Videos und Bilder aus Text oder Bildern generiert.
AI FIRST
Konversationeller KI‑Assistent, der Forschung, Browseraufgaben, Web‑Scraping und Dateiverwaltung mittels natürlicher Sprache automatisiert.
GLM Image
GLM Image kombiniert hybride autoregressive und Diffusionsmodelle, um hochauflösende KI-Bilder mit außergewöhnlicher Textrendering-Qualität zu erzeugen.
ainanobanana2
Nano Banana 2 erzeugt in 4–6 Sekunden Pro‑Qualität 4K‑Bilder mit präziser Textrendering und Konsistenz der Motive.
WhatsApp Warmup Tool
Ein KI-gestütztes WhatsApp-Warmup-Tool automatisiert Massenversand und verhindert Kontosperrungen.
TextToHuman
Kostenloser AI-Humanizer, der AI-Text sofort in natürliches, menschlich wirkendes Schreiben umschreibt. Keine Anmeldung erforderlich.
Manga Translator AI
AI Manga Translator übersetzt Manga-Bilder sofort online in mehrere Sprachen.
Remy - Newsletter Summarizer
Remy automatisiert das Newsletter-Management, indem E-Mails in leicht verständliche Erkenntnisse zusammengefasst werden.

Inferact, das vLLM kommerzialisiert, sichert sich 150 Mio. USD zur Stärkung der KI-Inferenz

Das Startup Inferact, das die beliebte Open-Source-Inferenz-Engine vLLM kommerzialisiert, hat eine Seed-Finanzierungsrunde über 150 Mio. USD unter der Leitung von Andreessen Horowitz und Lightspeed abgeschlossen, um die Bereitstellung von KI-Anwendungen zu beschleunigen.