AI News

Google Gemini 進化:Lyria 3 的到來與多模態音樂生成(Multimodal Music Generation)

2026 年 2 月 18 日 – 生成式媒體(Generative Media)的格局今日發生了劇變,Google 正式將其最先進的音訊模型 Lyria 3 直接整合到 Gemini 生態系統中。這一舉措彌合了視覺靈感與聽覺創作之間的鴻溝,用戶現在不僅可以使用文字提示詞,還可以使用圖像輸入來生成 30 秒的高保真(High-fidelity)音樂曲目。這次更新由 Google DeepMind 提供技術支持,將 Gemini 定位為不僅僅是一個聊天機器人,而是一個全面的創意工作室,挑戰了利基型 AI 音樂平台的統治地位。

在 Creati.ai,我們一直密切關注 Google 音訊研究的軌跡,從早期的 MusicLM 到最初發佈的 Lyria。引入 Lyria 3 代表了在語義理解和音訊保真度方面的重大飛躍,並透過全新的 Nano Banana 視覺模型引入了自動歌詞生成和整合封面藝術創作等功能。

Lyria 3 的力量:DeepMind 的全新音訊標準

此次更新的核心是 Lyria 3 模型。與其前身主要關注器樂連續性或短循環不同,Lyria 3 旨在理解複雜的音樂結構、流派融合和情感細微差別。DeepMind 在海量的授權和公共領域音訊數據集上對該模型進行了訓練,完善了其產生與人類歌手幾乎無異的人聲的能力。

Lyria 3 的與眾不同之處在於其應用於音訊波形的長上下文窗口(Long-context window)。雖然之前的模型通常難以維持長時間的連貫性——在幾秒鐘後就會失去節奏或旋律——但 Lyria 3 在生成的 30 秒片段中始終保持結構完整性。這使得即使在很短的時間內也能有明顯的主歌、副歌和橋段。

Lyria 3 的關鍵技術進步包括:

  • 增強的語義解釋: 該模型能更準確地掌握抽象概念(例如,「霓虹城市中失戀的聲音」)。
  • 人聲發音: 改進的音素生成技術使得多種語言的歌詞清晰易懂。
  • 樂器分離: 生成的音訊具有更好的音軌分離度,聽起來不像早期的 生成式音訊(generative audio) 嘗試那樣「混濁」。

從像素到旋律:多模態輸入

此次更新中引入的最具創新性的功能或許是使用圖像作為提示詞的能力。這種多模態(Multimodal)能力利用 Gemini 對視覺內容的原生理解,將像素轉化為聲波——這一過程通常被描述為「AI 聯覺(AI synesthesia)」。

用戶可以上傳一張雨夜街道的照片、一張賽博朋克插畫或一張復古肖像,Gemini 將分析視覺元素、情緒、調色板和背景,以創作匹配的音樂曲目。例如,上傳一張繁華咖啡館的照片可能會產生一段帶有背景雜談和柔和爵士鋼琴的低保真(Lo-fi)嘻哈曲目,而一張雷雨的照片則可能觸發一段激烈的管弦樂得分。

工作流整合

該整合在 Gemini 應用程式介面中是無縫的。用戶會看到一個全新的「音訊工作室(Audio Studio)」面板,在那裡他們可以拖放圖像或輸入描述性提示詞。

創意工作流:

  1. 輸入: 用戶上傳圖像或輸入提示詞(例如,「一段關於太空旅行的輕快 80 年代合成器流行樂」)。
  2. 處理: Gemini 使用 Gemini Vision(針對圖像)分析輸入,並將語義令牌傳遞給 Lyria 3。
  3. 生成: 系統生成四個不同的 30 秒變體。
  4. 精煉: 用戶可以選擇一個曲目並要求修改,例如「調慢速度」或「加入女聲」。

完整套裝:歌詞與 Nano Banana 封面藝術

Google 正在透過這次更新解決音樂發佈的全流程問題。除了音訊之外,Gemini 現在還提供自動歌詞生成功能。如果用戶提示需要帶有人聲的歌曲,Lyria 3 會生成旋律,而 Gemini 的語言模型則會編寫與請求主題匹配的連貫歌詞。文本生成(歌詞)與音訊生成(演唱)之間的這種同步是一項技術壯舉,減少了在競爭對手模型中經常聽到的「胡言亂語」式的人聲。

此外,Google 還推出了 Nano Banana,這是一個專門為專輯封面優化的輕量級圖像生成模型。當音樂曲目生成時,Nano Banana 會自動生成一張正方形的高解析度封面圖像,在主題上與音樂和歌詞保持一致。

功能比較:Gemini Music vs. 競爭對手

下表概述了 Google 的新產品與目前 AI 音樂生成(AI music generation) 市場標準的對比情況。

功能比較 Google Gemini (Lyria 3) 標準生成式 AI(GenAI)音樂工具
核心模型 Lyria 3 (DeepMind) 私有模型 / 基於 Stable Audio
輸入模態 文字與圖像(多模態) 僅文字轉音訊
人聲連貫性 高(整合歌詞生成) 不穩定(通常是胡言亂語)
視覺效果 自動生成封面藝術 (Nano Banana) 無 / 需要單獨工具
水印技術 SynthID(不可察覺) 僅元數據標籤

信任與安全:SynthID 的角色

隨著 AI 生成內容的激增,版權和真實性仍然是關鍵問題。Google 透過在 Lyria 3 生成的每一段曲目中嵌入 SynthID 水印(SynthID watermarking) 來解決這一問題。

SynthID 直接在音訊波形中嵌入不可察覺的數位水印。即使音訊被壓縮、加速或與其他聲音混合,此水印仍可被檢測到。這項技術至關重要,原因有二:

  1. 版權保護: 它允許權利持有人和平台識別 AI 生成的內容,確保人類藝術家與機器輸出有所區分。
  2. 防止錯誤資訊: 它透過在源頭將音訊標記為 AI 生成,防止創建「深偽(Deepfake)」音訊剪輯(例如公眾人物的虛假演講)。

Google 表示,雖然用戶擁有個人使用其創作內容的權利,但 SynthID 標籤確保了整個數位生態系統的透明度。

市場影響與創作的未來

在 Gemini 中發佈 Lyria 3 標誌著 Google 策略的轉變,旨在主導「專業消費者(Prosumer)」創作者經濟。透過將高端音樂生成與其現有的文本和代碼能力相結合,Google 正在將 Gemini 打造為內容創作者的一站式商店。YouTuber、播客製作人和社交媒體影響者現在擁有了在幾秒鐘內生成免版稅(Royalty-free)、自定義背景音樂和視覺效果的工具。

然而,這一進步也給音樂行業帶來了疑問。雖然 30 秒的限制目前將該工具限制在短音訊(Soundbites)、循環音效(Loops)和廣告配樂(Jingles)上,但 Lyria 3 的品質表明,全長歌曲生成已近在咫尺。

行業反應:

  • 獨立音樂人: 許多人將其視為構思和採樣的強大工具,允許對旋律進行快速原型設計。
  • 庫存音樂平台: 按需生成自定義曲目的能力對傳統的庫存音訊庫構成了直接威脅。
  • 監管機構: SynthID 的實施被視為主動的一步,很可能成為歐盟和美國市場的監管標準。

結論

將 Lyria 3 整合到 Google Gemini 中不僅僅是一次功能更新;它是對多模態創意的一次重新定義。透過將文本、圖像和音訊結合到單一的生成式工作流中,Google 降低了音樂表達的准入門檻。憑藉用於視覺效果的 Nano Banana 和用於安全的 SynthID,這家科技巨頭交付了一個精緻的、專業級的工具,為 2026 年 2 月樹立了新標竿。

隨著 Creati.ai 繼續測試 Lyria 3 的極限,有一件事是明確的:看、寫和聽之間的界限正變得越來越模糊,而 Gemini 目前是觀察這一融合未來的最清晰鏡頭。

精選
AdsCreator.com
即時從任何網站 URL 生成精緻、符合品牌調性的廣告素材,適用於 Meta、Google 與 Stories。
VoxDeck
引領視覺革命的AI簡報製作工具
Refly.ai
Refly.AI 讓非技術創作者能使用自然語言與視覺畫布自動化工作流程。
BGRemover
輕鬆地在線移除圖像背景,使用SharkFoto BGRemover。
FixArt AI
FixArt AI 提供免費、無限制的影像與影片生成 AI 工具,免註冊。
Skywork.ai
Skywork AI 是一款創新的工具,旨在利用 AI 提高生產力。
Qoder
Qoder 是一款由人工智能驅動的程式碼助理,自動化軟體專案的規劃、編碼和測試。
FineVoice
讓文字化為情感 — 在數秒內克隆、設計並創造富有情感的 AI 聲音。
Flowith
Flowith 是一個基於畫布的代理型工作空間,提供免費的 🍌Nano Banana Pro 和其他高效模型...
Elser AI
一體化網頁創作工作室,將文字與影像轉換為動畫風格藝術、角色、聲音與短片。
Pippit
提升您的內容創造力,使用 Pippit 的強大 AI 工具!
SharkFoto
SharkFoto 是一個整合型的 AI 平台,用於高效率地創建與編輯影片、影像和音樂。
Funy AI
將你的幻想化為影片!從圖片或文字生成AI比基尼、親吻影片。體驗AI換衣功能。完全免費,無需註冊!
KiloClaw
託管的 OpenClaw 代理:一鍵部署,超過 500 款模型,安全的基礎設施,並為團隊和開發者提供自動化代理管理。
Diagrimo
Diagrimo 即時將文字轉換為可自訂的 AI 產生圖表和視覺圖像。
SuperMaker AI Video Generator
輕鬆打造驚艷的影片、音樂和圖像,使用SuperMaker。
AI Clothes Changer by SharkFoto
SharkFoto 的 AI Clothes Changer 可即時讓您虛擬試穿服裝,呈現逼真的合身度、材質與光影。
Yollo AI
與 AI 伴侶互動聊天。支援圖生片、AI 圖片生成功能。
AnimeShorts
輕鬆使用尖端的AI技術創作驚人的動漫短片。
HappyHorseAIStudio
適用於文字、圖片、參考素材和影片編輯的瀏覽器式 AI 影片生成器。
Anijam AI
Anijam 是一個 AI 原生動畫平台,透過代理式影片創作將點子轉化為精緻的故事。
happy horse AI
開源 AI 影片生成器,可從文字或圖片建立同步的影片與音訊。
InstantChapters
即時生成吸引人的書籍章節。
wan 2.7-image
一款可控的 AI 圖像生成器,可精準控制臉部、配色、文字與視覺連貫性。
NerdyTips
由 AI 驅動的足球預測平台,為全球聯賽提供以數據為基礎的比賽建議。
Claude API
Claude API for Everyone
AI Video API: Seedance 2.0 Here
透過單一金鑰提供頂尖生成模型的統一 AI 影片 API,且成本更低。
WhatsApp AI Sales
WABot 是一款 WhatsApp AI 銷售副駕駛,提供即時腳本、翻譯與意圖偵測。
Image to Video AI without Login
免費的影像轉影片 AI 工具,立即將照片轉成平滑且高品質的動畫影片,並且無浮水印。
insmelo AI Music Generator
以 AI 為驅動的音樂生成器,將提示、歌詞或上傳內容在約一分鐘內轉為精緻且免版稅的歌曲。
BeatMV
基於網頁的人工智慧平台,將歌曲轉換為電影感音樂影片並用 AI 創作音樂。
Wan 2.7
專業級 AI 影片模型,具精準動作控制與多視角一致性。
UNI-1 AI
UNI-1 是一個結合視覺推理與高保真影像合成的統一影像生成模型。
Kirkify
Kirkify AI 為迷因創作者即時生成帶有招牌霓虹故障美學的臉部置換爆紅迷因。
Text to Music
將文字或歌詞轉換為完整的錄音室級別歌曲,包含 AI 生成的人聲、樂器與多軌匯出。
Iara Chat
Iara Chat:一個由AI驅動的生產力和通信助手。
kinovi - Seedance 2.0 - Real Man AI Video
免費的 AI 影片產生器,輸出逼真人物畫面,無浮水印,並享有完整商業使用權。
Video Sora 2
Sora 2 AI 將文字或圖像在幾分鐘內轉換為短篇、物理準確的社交及電商影片。
Lyria3 AI
AI 音樂生成器,可即時從文字提示、歌詞與風格建立高保真、完整製作的歌曲。
Tome AI PPT
由 AI 驅動的簡報製作工具,可在數分鐘內生成、優化並匯出專業投影片。
Atoms
由 AI 驅動的平台,使用多智能體自動化在數分鐘內建立全端應用程式與網站,無需編碼。
Paper Banana
以 AI 為動力的工具,可即時將學術文字轉換為已達投稿品質的方法圖與精確的統計圖表。
AI Pet Video Generator
使用 AI 驅动的範本與即時 HD 匯出,從照片建立可病毒式傳播且便於分享的寵物影片,適用於社交平台。
Ampere.SH
免費託管的 OpenClaw 主機。使用 $500 的 Claude 點數,60 秒內部署 AI 代理。
Palix AI
為創作者提供的一體化 AI 平台,使用統一點數生成影像、影片和音樂。
Hitem3D
Hitem3D 使用 AI 將單張影像轉換為高解析度、可投入生產的 3D 模型。
GenPPT.AI
由 AI 驅動的簡報製作工具,能在數分鐘內建立、美化並匯出專業的 PowerPoint 簡報,包含講者備註與圖表。
HookTide
由 AI 驅動的 LinkedIn 成長平台,學習你的語氣以產生內容、互動並分析表現。
Create WhatsApp Link
免費的 WhatsApp 連結與 QR 產生器,具備分析、品牌連結、路由與多代理聊天功能。
Seedance 20 Video
Seedance 2 是一款多模態的 AI 影片生成器,提供角色一致性、多鏡頭敘事與 2K 原生音訊。
Gobii
Gobii 讓團隊建立全天候(24/7)自主的數位工作者,以自動化網路研究與例行工作。
Free AI Video Maker & Generator
免費 AI 視頻製作與生成器 – 無限次使用,無需註冊
Veemo - AI Video Generator
Veemo AI 是一個整合型平台,可從文字或圖片快速生成高品質的影片與影像。
AI FIRST
透過自然語言自動化研究、瀏覽器任務、網頁擷取與檔案管理的對話式 AI 助手。
GLM Image
GLM Image 結合自回歸與擴散混合模型,生成高保真 AI 圖像並具備卓越的文字渲染能力。
ainanobanana2
Nano Banana 2 在 4–6 秒內產生專業品質的 4K 影像,具備精準的文字呈現與主題一致性。
WhatsApp Warmup Tool
由 AI 驅動的 WhatsApp 預熱工具,可自動化大量發送訊息並防止帳號被封。
TextToHuman
免費的 AI 人性化工具,能即時將 AI 文字重寫為自然、類人的寫作風格。無需註冊。
Manga Translator AI
AI Manga Translator 即時在線將漫畫影像翻譯為多種語言。
Remy - Newsletter Summarizer
Remy通過將電子郵件摘要成易於理解的洞察,自動化新聞稿管理。

Google Gemini 推出支援文字與影像提示的 Lyria 3 模型之 AI 音樂生成功能

Google 將 DeepMind 最先進的音樂生成模型 Lyria 3 整合到 Gemini 應用中,使用者可從文字描述或影像生成 30 秒的音樂曲目。此功能包括自動歌詞生成、Nano Banana 封面藝術與 SynthID 浮水印。