Microsoft, 필사, 음성, 이미지 생성을 위한 3개의 새로운 자체 개발 AI 모델 공개
Microsoft는 필사, 음성 합성, 이미지 생성을 목표로 하는 3개의 독자적인 AI 모델을 공개하며 OpenAI와 Google에 정면으로 도전한다.
Microsoft는 필사, 음성 합성, 이미지 생성을 목표로 하는 3개의 독자적인 AI 모델을 공개하며 OpenAI와 Google에 정면으로 도전한다.
구글이 Gemini 3.1 Flash Live를 출시했습니다. 이는 지금까지의 최고 품질 실시간 오디오 및 음성 모델로, 지연 시간 감소, 감정 음색 인식 개선, 그리고 AI 생성 오디오 전부에 대한 SynthID 워터마크 의무화를 특징으로 합니다. Search Live는 동시에 200개 이상의 국가로 확장됩니다.
ElevenLabs와 IBM은 ElevenLabs의 텍스트-투-스피치(Text-to-Speech) 및 스피치-투-텍스트(Speech-to-Text) 기술을 IBM watsonx Orchestrate에 통합하기 위한 협력을 발표했습니다. 이를 통해 기업은 70개 언어에 걸쳐 자연스럽고 다국어 지원 음성 AI 에이전트를 배포할 수 있게 됩니다.
음성 AI 스타트업 ElevenLabs는 세쿼이아가 주도한 시리즈 D로 밸류에이션을 3배로 올려 $11B에 도달했으며, IPO 준비 과정에서 ARR이 $330M에 이르렀다.
음성 AI 선도기업 ElevenLabs가 Sequoia Capital이 주도한 $500M 규모의 시리즈 D 자금을 확보해 $11B 평가를 기록했으며, 기업 도입으로 ARR이 $330M에 도달했습니다.
음성 AI 스타트업 ElevenLabs가 기업 채택 급증 속에 1년 만에 가치가 세 배로 뛴 가운데 110억 달러 기업가치로 5억 달러의 시리즈 D 자금을 확보했다.
음성 AI 인프라 제공업체 LiveKit이 1억 달러의 신규 자금을 확보하여 기업가치가 10억 달러에 도달했습니다. 이 회사는 OpenAI의 ChatGPT 음성 기능을 지원하며 실시간 음성 및 영상 솔루션을 확장하고 있습니다.
Google DeepMind는 감성 지능형 음성 AI를 전문으로 하는 스타트업 Hume AI의 CEO와 주요 엔지니어들을 영입하여 Gemini 모델의 기능을 강화하고 음성 기반 상호작용을 발전시키려 합니다.