AI News

AI 基礎設施的新時代:Inferact 獲得 $150 Million 以商業化 vLLM

在人工智慧基礎設施領域的一個決定性時刻,Inferact——由廣泛採用的開源推理引擎 vLLM 的創建者所創立的初創公司——已正式從隱匿狀態公開,完成了規模龐大的 $150 million Seed round。此次融資將該新創公司估值推至令人印象深刻的 $800 million,由風險資本巨頭 Andreessen Horowitz (a16z)Lightspeed Venture Partners 共同領投。

這筆資金是矽谷史上最大型的種子輪之一,意味著投資人焦點正果斷地從模型訓練轉向模型服務。隨著生成式AI(Generative AI)從實驗性研究室走向大規模生產,產業正面臨新的瓶頸:推理的高昂成本與延遲。Inferact 的目標是透過構建企業級的「通用推理層」,利用 vLLM 的普及度來標準化全球 AI 模型的部署方式,以解決這一問題。

在這輪超額認購的融資中,除了 a16z 與 Lightspeed,還有 Sequoia CapitalAltimeter CapitalRedpoint VenturesZhenFund 的參與,組成了一個突顯推理層戰略重要性的投資聯盟。

The vLLM Phenomenon: From Berkeley Lab to Industry Standard

要理解這筆資金的重要性,必須回溯支撐 Inferact 的核心技術。vLLM(Versatile Large Language Model)起源於 UC Berkeley 的研究專案,由包括 Simon MoWoosuk KwonKaichao YouRoger Wang 在內的團隊開發。他們的目標是解決大型語言模型(LLMs)在文本生成過程中管理記憶體時的一個關鍵低效率問題。

突破來自於名為 PagedAttention 的演算法,靈感源自於作業系統中的虛擬記憶體分頁。傳統的 attention 機制在記憶體碎片化方面表現不佳,導致 GPU 資源浪費——在 H100 GPU 既稀缺又昂貴的時代,這是致命缺點。PagedAttention 允許 vLLM 在非連續的記憶體區塊中管理 attention 的 keys 與 values,從而大幅提高吞吐量。

自從開源釋出以來,vLLM 的採用率迅速擴張,其成長速度可與 Kubernetes 或 Docker 的早期時期相媲美:

  • 估計有 400,000+ GPUs 同時在全球運行 vLLM。
  • 超過 2,000 contributors 在 GitHub 上參與該專案。
  • 包括 Meta、Google、和 Character.ai 等主要科技廠商的採用。

Inferact 現在肩負起這個開源現象的管理責任,同時構建企業可倚賴的商業平台以支援關鍵任務應用。

Funding at a Glance

下表概述了 Inferact 歷史性種子輪的關鍵細節。

Metric Details Context
Round Size $150 Million One of the largest seed rounds in AI history
Valuation $800 Million Reflects high demand for inference optimization
Lead Investors Andreessen Horowitz (a16z), Lightspeed Leading top-tier deep tech firms
Key Participants Sequoia, Altimeter, Redpoint, ZhenFund Broad ecosystem support
Core Technology vLLM, PagedAttention High-throughput inference engine
Leadership Simon Mo, Woosuk Kwon, et al. Original creators of vLLM

---|---|---|

從訓練轉向服務的變革

Inferact 的推出時機正值 AI 經濟的一次根本性轉變。過去兩年,資本支出主要集中在「訓練」——建立龐大的叢集以創建像 GPT-4、Claude 與 Llama 3 這類基礎模型。然而,當這些模型被部署到產品中時,成本結構顯著地向「推理」傾斜。

產業分析師將此稱為吞吐量時代(Throughput Era),在這個時代,衡量成功的主要指標不再單純是模型品質,而是「每美元每秒處理的 tokens 數」。要在數百萬使用者規模下運行像 Llama-3-70B 這類模型,需要巨大的計算能力。低效率的軟體棧會導致延遲激增與雲端費用暴漲,實質上扼殺 AI 應用的單位經濟。

Andreessen Horowitz 的合夥人在其投資論述中指出:「軟體變得比硬體更關鍵。」如果底層軟體堆疊只以 30% 的效率使用 NVIDIA H100,那單純購買更多 H100 已不再是可行策略。Inferact 的價值主張是透過先進的軟體優化,解鎖剩餘 70% 的計算潛力,實質上成為硬體投資的倍增器。

商業化開源:「Open Core」策略

Inferact 採取了成功商業開源公司(COSS)常見的路徑,例如 Databricks(Spark)、Confluent(Kafka)與 HashiCorp(Terraform)。公司面臨經典的雙重挑戰:一方面支持蓬勃發展的免費社群,另一方面為付費客戶建立專有價值。

根據執行長 Simon Mo 的說法,Inferact 的商業策略聚焦於企業級的可靠性與可擴展性。雖然開源的 vLLM 引擎提供原始的運算動力,但企業需要:

  • Managed Infrastructure: 自動擴容、多節點協調與故障恢復。
  • Security & Compliance: SOC2 合規、私有雲部署與安全的模型處理流程。
  • Optimized Kernels: 針對特定硬體配置的專有優化,超越一般開源支援。
  • SLA Guarantees: 為關鍵應用提供保證的吞吐量與延遲指標。

這種開放核心(Open Core)模型允許 Inferact 將 vLLM 維持為業界標準的「推理領域的 Linux(Linux of Inference)」,能在 NVIDIA、AMD 與 Intel 等晶片上運行,同時從無法承受停機或未管理複雜性的龐大組織中捕捉價值。

技術深入解析:為何 PagedAttention 至關重要

支撐 vLLM 優勢、進而影響 Inferact 估值的關鍵技術,是 PagedAttention。在標準的 LLM 服務中,Key-Value(KV)快取——儲存模型迄今對話記憶的機制——會動態增長。傳統系統必須預先配置連續的記憶體區塊來處理這種增長,導致嚴重的碎片化。這類似於為每位乘客都預訂一輛 100 座位的巴士,以防他們帶來 99 個朋友。

PagedAttention 透過將 KV 快取拆分為較小的區塊並儲存在非連續的記憶體空間中來解決此問題。vLLM 引擎維護一張「分頁表」來追蹤這些區塊,正如作業系統管理 RAM 一樣。

主要技術優勢包括:

  • Zero Waste: 由於碎片化而造成的記憶體浪費降到接近零(<4%)。
  • 更高的批次大小: 因為記憶體使用更有效率,引擎能夠將更多請求批次合併處理。
  • 吞吐量提升: 在基準測試中,vLLM 持續提供比標準 HuggingFace Transformers 高 2x 到 4x 的吞吐量,同時不犧牲延遲。

對於一年在推理運算上花費 1,000 萬美元的公司,透過更好的軟體利用率,實施 vLLM 理論上可將費用降至 250 萬至 500 萬美元。這種直接的投資回報率正是使 Inferact 對投資人與客戶都具有吸引力的原因。

對 AI 生態系的戰略影響

Inferact 憑藉 1.5 億美元的資金到位,已在 AI 生態系掀起漣漪。

  1. 對雲端供應商的壓力:主要雲端供應商(AWS、Azure、Google Cloud)與模型 API 提供商(Anyscale、Together AI、Fireworks)常自行構建推理堆疊。Inferact 提供了一個廠商中立的替代方案,使公司能在任何雲端上自有其推理堆疊。
  2. 標準化:推理引擎的碎片化(TensorRT-LLM、TGI、vLLM)一直是開發者的頭痛問題。Inferact 的資本化顯示 vLLM 有望成為事實上的標準 API,簡化開發者體驗。
  3. 「軟體稅」:隨著硬體商品化,價值捕捉轉向協調硬體的軟體層。Inferact 押注於 LLM 的「作業系統」將與其運行之晶片一樣具有價值。

展望未來

有了 1.5 億美元的新資本,Inferact 計畫積極擴展其工程團隊,尤其鎖定核心內核(kernel)開發者與分散式系統專家。公司也打算深化對新興硬體架構的支援,確保 vLLM 在目前由 NVIDIA 主導的市場中仍然是最通用的引擎。

隨著 AI 產業走向成熟,那些「看似無聊」的基礎設施層——服務、擴展與優化——正成為最有利可圖的領域。Inferact 不只是賣軟體;他們賣的是下一波 AI 採金熱中的工具:部署(deployment)的鑽具。

對於因成本或延遲問題難以將生成式 AI(Generative AI)試點移至生產環境的企業,Inferact 提供了一條救生索。對於開源社群,這筆資金承諾了 vLLM 的持續開發,確保其保持穩健且走在技術前沿。爭奪推理層主導權的競賽已正式開打,而 Inferact 已取得早期且顯著的領先地位。

精選
AdsCreator.com
即時從任何網站 URL 生成精緻、符合品牌調性的廣告素材,適用於 Meta、Google 與 Stories。
VoxDeck
引領視覺革命的AI簡報製作工具
Refly.ai
Refly.AI 讓非技術創作者能使用自然語言與視覺畫布自動化工作流程。
BGRemover
輕鬆地在線移除圖像背景,使用SharkFoto BGRemover。
Skywork.ai
Skywork AI 是一款創新的工具,旨在利用 AI 提高生產力。
Qoder
Qoder 是一款由人工智能驅動的程式碼助理,自動化軟體專案的規劃、編碼和測試。
Flowith
Flowith 是一個基於畫布的代理型工作空間,提供免費的 🍌Nano Banana Pro 和其他高效模型...
FixArt AI
FixArt AI 提供免費、無限制的影像與影片生成 AI 工具,免註冊。
FineVoice
讓文字化為情感 — 在數秒內克隆、設計並創造富有情感的 AI 聲音。
Elser AI
一體化網頁創作工作室,將文字與影像轉換為動畫風格藝術、角色、聲音與短片。
Pippit
提升您的內容創造力,使用 Pippit 的強大 AI 工具!
SharkFoto
SharkFoto 是一個整合型的 AI 平台,用於高效率地創建與編輯影片、影像和音樂。
Funy AI
將你的幻想化為影片!從圖片或文字生成AI比基尼、親吻影片。體驗AI換衣功能。完全免費,無需註冊!
KiloClaw
託管的 OpenClaw 代理:一鍵部署,超過 500 款模型,安全的基礎設施,並為團隊和開發者提供自動化代理管理。
Diagrimo
Diagrimo 即時將文字轉換為可自訂的 AI 產生圖表和視覺圖像。
SuperMaker AI Video Generator
輕鬆打造驚艷的影片、音樂和圖像,使用SuperMaker。
AI Clothes Changer by SharkFoto
SharkFoto 的 AI Clothes Changer 可即時讓您虛擬試穿服裝,呈現逼真的合身度、材質與光影。
Yollo AI
與 AI 伴侶互動聊天。支援圖生片、AI 圖片生成功能。
AnimeShorts
輕鬆使用尖端的AI技術創作驚人的動漫短片。
Image to Video AI without Login
免費的影像轉影片 AI 工具,立即將照片轉成平滑且高品質的動畫影片,並且無浮水印。
InstantChapters
即時生成吸引人的書籍章節。
Anijam AI
Anijam 是一個 AI 原生動畫平台,透過代理式影片創作將點子轉化為精緻的故事。
Claude API
Claude API for Everyone
wan 2.7-image
一款可控的 AI 圖像生成器,可精準控制臉部、配色、文字與視覺連貫性。
NerdyTips
由 AI 驅動的足球預測平台,為全球聯賽提供以數據為基礎的比賽建議。
WhatsApp AI Sales
WABot 是一款 WhatsApp AI 銷售副駕駛,提供即時腳本、翻譯與意圖偵測。
happy horse AI
開源 AI 影片生成器,可從文字或圖片建立同步的影片與音訊。
HappyHorseAIStudio
適用於文字、圖片、參考素材和影片編輯的瀏覽器式 AI 影片生成器。
AI Video API: Seedance 2.0 Here
透過單一金鑰提供頂尖生成模型的統一 AI 影片 API,且成本更低。
insmelo AI Music Generator
以 AI 為驅動的音樂生成器,將提示、歌詞或上傳內容在約一分鐘內轉為精緻且免版稅的歌曲。
BeatMV
基於網頁的人工智慧平台,將歌曲轉換為電影感音樂影片並用 AI 創作音樂。
UNI-1 AI
UNI-1 是一個結合視覺推理與高保真影像合成的統一影像生成模型。
Kirkify
Kirkify AI 為迷因創作者即時生成帶有招牌霓虹故障美學的臉部置換爆紅迷因。
Wan 2.7
專業級 AI 影片模型,具精準動作控制與多視角一致性。
Text to Music
將文字或歌詞轉換為完整的錄音室級別歌曲,包含 AI 生成的人聲、樂器與多軌匯出。
Iara Chat
Iara Chat:一個由AI驅動的生產力和通信助手。
kinovi - Seedance 2.0 - Real Man AI Video
免費的 AI 影片產生器,輸出逼真人物畫面,無浮水印,並享有完整商業使用權。
Tome AI PPT
由 AI 驅動的簡報製作工具,可在數分鐘內生成、優化並匯出專業投影片。
Video Sora 2
Sora 2 AI 將文字或圖像在幾分鐘內轉換為短篇、物理準確的社交及電商影片。
Lyria3 AI
AI 音樂生成器,可即時從文字提示、歌詞與風格建立高保真、完整製作的歌曲。
Atoms
由 AI 驅動的平台,使用多智能體自動化在數分鐘內建立全端應用程式與網站,無需編碼。
Paper Banana
以 AI 為動力的工具,可即時將學術文字轉換為已達投稿品質的方法圖與精確的統計圖表。
AI Pet Video Generator
使用 AI 驅动的範本與即時 HD 匯出,從照片建立可病毒式傳播且便於分享的寵物影片,適用於社交平台。
Ampere.SH
免費託管的 OpenClaw 主機。使用 $500 的 Claude 點數,60 秒內部署 AI 代理。
Palix AI
為創作者提供的一體化 AI 平台,使用統一點數生成影像、影片和音樂。
Hitem3D
Hitem3D 使用 AI 將單張影像轉換為高解析度、可投入生產的 3D 模型。
GenPPT.AI
由 AI 驅動的簡報製作工具,能在數分鐘內建立、美化並匯出專業的 PowerPoint 簡報,包含講者備註與圖表。
HookTide
由 AI 驅動的 LinkedIn 成長平台,學習你的語氣以產生內容、互動並分析表現。
Create WhatsApp Link
免費的 WhatsApp 連結與 QR 產生器,具備分析、品牌連結、路由與多代理聊天功能。
Seedance 20 Video
Seedance 2 是一款多模態的 AI 影片生成器,提供角色一致性、多鏡頭敘事與 2K 原生音訊。
Gobii
Gobii 讓團隊建立全天候(24/7)自主的數位工作者,以自動化網路研究與例行工作。
Free AI Video Maker & Generator
免費 AI 視頻製作與生成器 – 無限次使用,無需註冊
Veemo - AI Video Generator
Veemo AI 是一個整合型平台,可從文字或圖片快速生成高品質的影片與影像。
AI FIRST
透過自然語言自動化研究、瀏覽器任務、網頁擷取與檔案管理的對話式 AI 助手。
GLM Image
GLM Image 結合自回歸與擴散混合模型,生成高保真 AI 圖像並具備卓越的文字渲染能力。
ainanobanana2
Nano Banana 2 在 4–6 秒內產生專業品質的 4K 影像,具備精準的文字呈現與主題一致性。
WhatsApp Warmup Tool
由 AI 驅動的 WhatsApp 預熱工具,可自動化大量發送訊息並防止帳號被封。
TextToHuman
免費的 AI 人性化工具,能即時將 AI 文字重寫為自然、類人的寫作風格。無需註冊。
Manga Translator AI
AI Manga Translator 即時在線將漫畫影像翻譯為多種語言。
Remy - Newsletter Summarizer
Remy通過將電子郵件摘要成易於理解的洞察,自動化新聞稿管理。

將 vLLM 商業化的 Inferact 籌得 1.5 億美元以推動 AI 推論

將流行的開源推論引擎 vLLM 商業化的創業公司 Inferact 已完成由 Andreessen Horowitz 與 Lightspeed 領投的 1.5 億美元種子輪融資,以加速 AI 應用的部署。