AI News

語音 AI 基礎設施獨角獸(Voice AI Infrastructure Unicorn):LiveKit 募得 1 億美元,估值達 10 億美元

LiveKit,這家為下一代即時人工智慧提供開源基礎設施的供應商,已正式躋身科技獨角獸行列。這家總部位於舊金山的公司於週四宣布,已在 C 輪融資中募得 1 億美元,使其估值達到 10 億美元。這筆重大資金注入凸顯了 LiveKit 在蓬勃發展的 AI 堆疊中所扮演的重要角色,特別是作為 OpenAI 的 ChatGPT Advanced Voice Mode 背後的主要引擎。

本輪由以支持跨世代科技變革著稱的 Index Ventures 領投,既有投資者 Altimeter Capital、Redpoint Ventures 與 Hanabi Capital 續投。此次融資距離公司 B 輪還不到一年,突顯了其在對能即時看、聽、說的多模態 AI 代理人需求爆發下的積極成長軌跡。

「我們預期 2026 年將是語音 AI 廣泛部署於全球數千個使用情境的一年,」LiveKit 共同創辦人兼執行長 Russ d’Sa 表示。這筆資金將用於擴展 LiveKit 的全球「Real-time Cloud」網路,並進一步開發其 Agents API,一個旨在簡化低延遲 AI 互動所需複雜協調的框架。

The OpenAI Partnership: Validating the Infrastructure

LiveKit 快速崛起的核心在於其與 OpenAI 的策略性夥伴關係。雖然生成式 AI(Generative AI)主要集中在基於文字的大型語言模型(LLMs)上,技術前沿已轉向多模態能力——特別是語音與視訊。LiveKit 的技術是 ChatGPT Voice Mode 的支柱,負責那些使得與 AI 對話感覺自然、人性化所需的細緻毫秒級資料傳輸。

在有 LiveKit 之前,開發者試圖建立即時語音機器人時,常被迫拼湊各種分散的服務:語音轉文字(STT)、LLM 推理與文字轉語音(TTS)各自不同的 API,並以標準的 HTTP 或 WebSocket 協定包裹。這種「拼補式」方法常導致 2–3 秒或更高的延遲——在對話中這等於漫長的停頓,會造成尷尬的間斷與打斷。

LiveKit 透過將視訊會議的標準協定 WebRTC 改造成一個為 AI 最佳化的資料傳輸層來解決此問題。藉由直接在使用者裝置與 AI 模型之間管理音訊串流,LiveKit 將延遲降低到 300 毫秒以下,這是人腦感知互動為「即時」所需的門檻。

Index Ventures 的投資者 Sahir Azam 在一份聲明中指出,LiveKit 正在建立「AI 堆疊中最重要的基礎設施層之一」,實質上成為連接 AI 模型與物理世界的神經系統。

Inside the Technology: The "Nervous System" for AI Agents

LiveKit 的平台不僅僅是一個視訊通話 SDK;它是一個構建「有狀態」AI 代理人的完整環境。與傳統無狀態(在 HTTP 請求間遺忘上下文)的聊天機器人不同,語音代理人必須維持持續連線,以處理中斷、背景噪音與輪替講話的邏輯。

公司的 Agents API 允許開發者以程式碼而非設定來構建這些複雜的工作流程。它協調不同模型供應者之間的資料流——例如用於轉錄的 Deepgram、用於智慧的 OpenAI 或 Anthropic、以及用於語音合成的 Cartesia 或 ElevenLabs——同時由 LiveKit 處理網路部分。

Key Technical Differentiators

  • Ultra-Low Latency: 為機器對機器與機器對人類音訊路由特別優化的全球邊緣網路。
  • Multimodal Native: 支援同時處理音訊、視訊與資料通道,使代理人能在說話的同時透過相機輸入「看見」。
  • End-to-End Orchestration: 處理「voice activity detection」(VAD)的複雜邏輯,確保當使用者打斷時 AI 能立即停止講話——這是自然對話的特徵。

Competitive Landscape: Specialized Infra vs. Legacy Telecom

LiveKit 的崛起打亂了長期由傳統通訊平台即服務(CPaaS)供應商如 Twilio 與以視訊為中心的 SDK 如 Agora 主導的市場。雖然這些既有業者在連接人與人方面表現出色,但它們並未為與人類溝通的 AI 模型所需的高吞吐、低延遲需求而設計。

下表說明了 LiveKit 相較於即時領域傳統競爭者的定位:

功能 LiveKit Agora Twilio
主要焦點 AI Agent Infrastructure Live Video/Audio Streaming Telephony & Messaging
架構 WebRTC for AI (Data + Media) Proprietary Real-Time Network SIP / PSTN / HTTP
開源核心 是(Apache 2.0) 否(Closed Source) 否(Closed Source)
AI 編排 原生 Agents Framework 合作夥伴整合 合作夥伴整合
延遲目標 <300ms(Conversational) <400ms(Broadcasting) Variable(Telephony standards)
開發者模式 Self-hostable or Cloud Cloud Only Cloud Only

LiveKit 的開源策略對其採用率扮演了關鍵角色。藉由允許工程師檢視程式碼並為測試自我部署整個堆疊,他們建立了一個超過 200,000 名使用者的開發者社群。這種「自下而上」的採用模式類似於其他基礎設施巨頭如 Vercel 或 MongoDB,使得專有解決方案難以突破其護城河。

Expanding Client Roster: From Startups to Enterprise

雖然 OpenAI 是最引人注目的客戶,LiveKit 的應用遠超出消費者聊天機器人。該技術目前已被多家企業大廠部署,包括:

  • Tesla: 使用 LiveKit 進行即時診斷與潛在車內語音助理功能。
  • Salesforce: 將即時語音能力整合到其 Service Cloud 與 Agentforce 平台。
  • xAI: 利用該基礎設施支援 Grok 的多模態能力。
  • Spotify: 嘗試語音驅動的導航與 AI DJ 功能。

「今天,大型企業正在評估並構建語音代理人以自動化工作流程、改善客戶體驗並開啟新的營收,」d’Sa 在伴隨此一融資公告的部落格文章中寫道。他強調,雖然許多使用案例仍處於概念驗證階段,但轉向生產環境的速度正在加快。金融服務業正利用語音生物識別進行身份驗證,醫療提供者則在讓代理人在病患與真人醫師對話前先行進行分流。

Future Roadmap: The Era of "Warm" Computing

有了 1 億美元的新資本,LiveKit 計劃擴充工程團隊並擴展其實體基礎設施佈局。產品路線圖中的一大部分專注於視覺能力。隨著像 GPT-4o 與 Gemini 1.5 Pro 這類模型變得越來越擅長處理視訊串流,LiveKit 目標成為將相機影像傳送給 LLMs 進行即時分析的標準管線。

想像一位現場維修技術員戴著智慧眼鏡,能與一個「看得到」故障機械的 AI 代理人交談,該代理人透過技術員的鏡頭辨識並在抬頭顯示器上標示出正確需更換的零件。這需要超越單純音訊的頻寬與同步能力,而 LiveKit 正在定位自己以掌握這條管線。

此外,公司也在投入邊緣運算。為了省去每一個可能的毫秒延遲,LiveKit 正將其媒體伺服器部署得更靠近終端使用者與模型推理中心,從而減少資料封包的「往返」時間。

Creati.ai Insight: Infrastructure is the New Gold

從 Creati.ai 的角度看,LiveKit 的 10 億美元估值表示生成式AI(Generative AI)市場正走向成熟。最初的炒作周期重點放在基礎模型本身(如 OpenAI、Anthropic、Google)。現在,焦點轉向「賦能層」——那些讓企業實際能在這些模型之上構建可靠產品的工具與基礎設施。

LiveKit 正確地識別出,AI 採用的瓶頸不再是智慧本身,而是「互動」。如果一個 AI 很聰明但回應需 3 秒,那它在客服場景中幾乎無法使用。透過解決延遲與協調的問題,LiveKit 所販售的不僅是軟體;他們在販售 AI 代理人生態系統的可行性。

隨著我們進入 2026 年,我們預期這一層將出現整合。能提供從使用者口語到模型「大腦」再回到人類的無縫端到端管線的公司,將獲得龐大價值。LiveKit 以其開源根基與與產業領導者 OpenAI 的深度整合,目前處於定義人機溝通未來十年方式的領先位置。

精選
AdsCreator.com
即時從任何網站 URL 生成精緻、符合品牌調性的廣告素材,適用於 Meta、Google 與 Stories。
VoxDeck
引領視覺革命的AI簡報製作工具
Refly.ai
Refly.AI 讓非技術創作者能使用自然語言與視覺畫布自動化工作流程。
BGRemover
輕鬆地在線移除圖像背景,使用SharkFoto BGRemover。
Skywork.ai
Skywork AI 是一款創新的工具,旨在利用 AI 提高生產力。
Qoder
Qoder 是一款由人工智能驅動的程式碼助理,自動化軟體專案的規劃、編碼和測試。
Flowith
Flowith 是一個基於畫布的代理型工作空間,提供免費的 🍌Nano Banana Pro 和其他高效模型...
FixArt AI
FixArt AI 提供免費、無限制的影像與影片生成 AI 工具,免註冊。
FineVoice
讓文字化為情感 — 在數秒內克隆、設計並創造富有情感的 AI 聲音。
Elser AI
一體化網頁創作工作室,將文字與影像轉換為動畫風格藝術、角色、聲音與短片。
Pippit
提升您的內容創造力,使用 Pippit 的強大 AI 工具!
SharkFoto
SharkFoto 是一個整合型的 AI 平台,用於高效率地創建與編輯影片、影像和音樂。
Funy AI
將你的幻想化為影片!從圖片或文字生成AI比基尼、親吻影片。體驗AI換衣功能。完全免費,無需註冊!
KiloClaw
託管的 OpenClaw 代理:一鍵部署,超過 500 款模型,安全的基礎設施,並為團隊和開發者提供自動化代理管理。
Diagrimo
Diagrimo 即時將文字轉換為可自訂的 AI 產生圖表和視覺圖像。
SuperMaker AI Video Generator
輕鬆打造驚艷的影片、音樂和圖像,使用SuperMaker。
AI Clothes Changer by SharkFoto
SharkFoto 的 AI Clothes Changer 可即時讓您虛擬試穿服裝,呈現逼真的合身度、材質與光影。
Yollo AI
與 AI 伴侶互動聊天。支援圖生片、AI 圖片生成功能。
AnimeShorts
輕鬆使用尖端的AI技術創作驚人的動漫短片。
Image to Video AI without Login
免費的影像轉影片 AI 工具,立即將照片轉成平滑且高品質的動畫影片,並且無浮水印。
InstantChapters
即時生成吸引人的書籍章節。
Claude API
Claude API for Everyone
Anijam AI
Anijam 是一個 AI 原生動畫平台,透過代理式影片創作將點子轉化為精緻的故事。
wan 2.7-image
一款可控的 AI 圖像生成器,可精準控制臉部、配色、文字與視覺連貫性。
happy horse AI
開源 AI 影片生成器,可從文字或圖片建立同步的影片與音訊。
AI Video API: Seedance 2.0 Here
透過單一金鑰提供頂尖生成模型的統一 AI 影片 API,且成本更低。
NerdyTips
由 AI 驅動的足球預測平台,為全球聯賽提供以數據為基礎的比賽建議。
WhatsApp AI Sales
WABot 是一款 WhatsApp AI 銷售副駕駛,提供即時腳本、翻譯與意圖偵測。
HappyHorseAIStudio
適用於文字、圖片、參考素材和影片編輯的瀏覽器式 AI 影片生成器。
insmelo AI Music Generator
以 AI 為驅動的音樂生成器,將提示、歌詞或上傳內容在約一分鐘內轉為精緻且免版稅的歌曲。
BeatMV
基於網頁的人工智慧平台,將歌曲轉換為電影感音樂影片並用 AI 創作音樂。
UNI-1 AI
UNI-1 是一個結合視覺推理與高保真影像合成的統一影像生成模型。
Kirkify
Kirkify AI 為迷因創作者即時生成帶有招牌霓虹故障美學的臉部置換爆紅迷因。
Wan 2.7
專業級 AI 影片模型,具精準動作控制與多視角一致性。
Text to Music
將文字或歌詞轉換為完整的錄音室級別歌曲,包含 AI 生成的人聲、樂器與多軌匯出。
Iara Chat
Iara Chat:一個由AI驅動的生產力和通信助手。
kinovi - Seedance 2.0 - Real Man AI Video
免費的 AI 影片產生器,輸出逼真人物畫面,無浮水印,並享有完整商業使用權。
Tome AI PPT
由 AI 驅動的簡報製作工具,可在數分鐘內生成、優化並匯出專業投影片。
Video Sora 2
Sora 2 AI 將文字或圖像在幾分鐘內轉換為短篇、物理準確的社交及電商影片。
Lyria3 AI
AI 音樂生成器,可即時從文字提示、歌詞與風格建立高保真、完整製作的歌曲。
Atoms
由 AI 驅動的平台,使用多智能體自動化在數分鐘內建立全端應用程式與網站,無需編碼。
Paper Banana
以 AI 為動力的工具,可即時將學術文字轉換為已達投稿品質的方法圖與精確的統計圖表。
AI Pet Video Generator
使用 AI 驅动的範本與即時 HD 匯出,從照片建立可病毒式傳播且便於分享的寵物影片,適用於社交平台。
Ampere.SH
免費託管的 OpenClaw 主機。使用 $500 的 Claude 點數,60 秒內部署 AI 代理。
Palix AI
為創作者提供的一體化 AI 平台,使用統一點數生成影像、影片和音樂。
Hitem3D
Hitem3D 使用 AI 將單張影像轉換為高解析度、可投入生產的 3D 模型。
GenPPT.AI
由 AI 驅動的簡報製作工具,能在數分鐘內建立、美化並匯出專業的 PowerPoint 簡報,包含講者備註與圖表。
HookTide
由 AI 驅動的 LinkedIn 成長平台,學習你的語氣以產生內容、互動並分析表現。
Create WhatsApp Link
免費的 WhatsApp 連結與 QR 產生器,具備分析、品牌連結、路由與多代理聊天功能。
Seedance 20 Video
Seedance 2 是一款多模態的 AI 影片生成器,提供角色一致性、多鏡頭敘事與 2K 原生音訊。
Gobii
Gobii 讓團隊建立全天候(24/7)自主的數位工作者,以自動化網路研究與例行工作。
Free AI Video Maker & Generator
免費 AI 視頻製作與生成器 – 無限次使用,無需註冊
Veemo - AI Video Generator
Veemo AI 是一個整合型平台,可從文字或圖片快速生成高品質的影片與影像。
AI FIRST
透過自然語言自動化研究、瀏覽器任務、網頁擷取與檔案管理的對話式 AI 助手。
GLM Image
GLM Image 結合自回歸與擴散混合模型,生成高保真 AI 圖像並具備卓越的文字渲染能力。
ainanobanana2
Nano Banana 2 在 4–6 秒內產生專業品質的 4K 影像,具備精準的文字呈現與主題一致性。
WhatsApp Warmup Tool
由 AI 驅動的 WhatsApp 預熱工具,可自動化大量發送訊息並防止帳號被封。
TextToHuman
免費的 AI 人性化工具,能即時將 AI 文字重寫為自然、類人的寫作風格。無需註冊。
Manga Translator AI
AI Manga Translator 即時在線將漫畫影像翻譯為多種語言。
Remy - Newsletter Summarizer
Remy通過將電子郵件摘要成易於理解的洞察,自動化新聞稿管理。

LiveKit 與 OpenAI 建立合作並獲得新一輪資金,估值達到 10 億美元

語音 AI 基礎設施提供商 LiveKit 獲得了 1 億美元的新資金,估值達到 10 億美元。該公司為 OpenAI 的 ChatGPT 語音功能提供支持,並正在擴展其即時語音和視訊解決方案。