Microsoft推出三個全新的內部AI模型,用於轉錄、語音與影像生成
Microsoft推出三個專有AI模型,分別針對轉錄、語音合成與影像生成,直接挑戰OpenAI和Google。
Microsoft推出三個專有AI模型,分別針對轉錄、語音合成與影像生成,直接挑戰OpenAI和Google。
Google 已發布 Gemini 3.1 Flash Live,這是迄今品質最高的即時音訊與語音模型,具有延遲降低、情感語氣辨識改進,以及對所有 AI 生成音訊強制加入 SynthID 水印的要求。Search Live 同步擴展至 200 多個國家。
ElevenLabs 與 IBM 宣布合作,將 ElevenLabs 的文字轉語音與語音轉文字技術整合到 IBM watsonx Orchestrate,使企業能夠部署支援 70 種語言、自然且多語言的語音 AI 代理人。
語音 AI 新創公司 ElevenLabs 在 Sequoia 領投的 D 輪中將估值推升三倍至 110 億美元,並在為上市做準備時,達到每年經常性收入(ARR)3.3 億美元。
語音 AI 領導者 ElevenLabs 獲得由 Sequoia Capital 領投的 $500M D 輪融資,估值達 $11B,並因企業採用達成 $330M 的 ARR。
語音 AI 新創 ElevenLabs 在企業採用激增下完成 5 億美元的 D 輪融資,估值達 110 億美元,市值在一年內增至三倍。
語音 AI 基礎設施提供商 LiveKit 獲得了 1 億美元的新資金,估值達到 10 億美元。該公司為 OpenAI 的 ChatGPT 語音功能提供支持,並正在擴展其即時語音和視訊解決方案。
Google DeepMind 已聘用專注於具情感智慧語音 AI 的新創公司 Hume AI 的執行長與主要工程師,旨在增強其 Gemini 模型的能力並推進語音互動的發展。