小米推出三款 MiMo V2 人工智慧模型，鎖定代理、機器人與語音合成

小米積極轉向生成式 AI：MiMo V2 系列正式亮相

全球人工智慧格局在 2026 年 3 月 19 日發生了轉變，小米集團（Xiaomi Corp.）正式發布了其新一代專有 AI 模型，統稱為 MiMo V2 系列。小米早已超越其傳統作為硬體優先的消費電子巨頭根源，將自己定位為基礎模型領域的強大競爭者。MiMo-V2-Pro、MiMo-V2-Omni 與 MiMo-V2-TTS 的發布，代表了其在 AI 代理（AI agents）、多模態感知及人機互動等高風險領域中有計畫且積極的進軍。

此前，業界對「Hunter Alpha」進行了數月的猜測，這是一個匿名模型，持續佔據 OpenRouter 每日使用排行榜榜首，並產生了超過 1 兆次的 Token 調用。隨著這次正式發布，面紗已被揭開，揭示了這款效能猛獸正是 Xiaomi 的旗艦款 MiMo-V2-Pro。透過提供在程式碼編寫與代理基準測試中足以與 Anthropic 的 Claude Opus 4.6 媲美的模型，小米正發出訊號，其「人車家」全生態系統不再僅僅是硬體承諾——它正成為一個智慧且由代理驅動的現實。

MiMo V2 架構技術分析

小米對於 MiMo V2 系列的策略是提供一個具備凝聚力的全棧平台，而非孤立的應用程式。透過發布三款截然不同但可互操作的模型，該公司正在解決現代 AI 部署的三大核心支柱：推理、感知與合成。

MiMo-V2-Pro：代理強大核心

旗艦級 MiMo-V2-Pro 被設計為生態系統的「大腦」。其基於混合專家架構（Mixture-of-Experts，MoE），擁有超過 1 兆個總參數。雖然規模龐大，但其效率極高，每次請求僅需 420 億個活躍參數。這種配置在保持高度推理能力的同時，顯著降低了延遲。

關鍵效能指標顯示，MiMo-V2-Pro 支援 100 萬個 Token 的上下文窗口，這是複雜程式碼編寫、瀏覽器導航和多步代理操作等長週期工作流的關鍵需求。在最近的測試中，該模型在邏輯密集型代理任務中展現了與 Claude Opus 4.6 相當的熟練程度，對於尋求以每百萬輸入 Token 1 美元的競爭力價格獲得高效能推理的開發者來說，這是一個可行的選擇。

MiMo-V2-Omni：連接感知與機器人

如果說 Pro 是大腦，那麼 MiMo-V2-Omni 就是感官系統。這款多模態模型原生設計為能「看、聽、行動」。它將圖像、視訊與音訊編碼器整合至一個共用的骨幹（backbone）中，從而實現卓越的跨模態理解。

此模型對小米的機器人與汽車部門至關重要。透過在行車記錄器畫面中提供即時危險檢測，並在用戶介面中實現自主導航，MiMo-V2-Omni 充當了具身智慧（embodied intelligence）的基礎模型。它支援結構化工具調用（tool calls）與函數執行，使其能從被動觀察轉向與物理世界的積極互動。

MiMo-V2-TTS：數位互動人性化

第三根支柱 MiMo-V2-TTS 專注於最終的介面層：語音。該模型使用超過 1 億小時的語音數據進行訓練，採用了具有專有音訊分詞器（audio tokenizer）的端到端架構。與依賴從選單中選擇預設「情感」的舊系統不同，MiMo-V2-TTS 允許用戶使用自然語言描述所需的語音輸出。無論是細語、大笑、嘆息還是歌唱，該模型都能重現自然的韻律與情感深度，旨在使人機互動感覺更流暢、更少機械感。

MiMo V2 模型對比概覽

下表總結了各模型的主要功能與技術亮點，展示了小米在 AI 技術棧上的全面佈局。

模型	主要功能	關鍵技術優勢
MiMo-V2-Pro	複雜推理與 AI 代理（AI Agents）	1 兆參數與 100 萬 Token 上下文
MiMo-V2-Omni	多模態感知與機器人	音訊/視訊/圖像共用骨幹
MiMo-V2-TTS	情感語音合成	專利音訊分詞器與 RL 訓練

對「人車家」全生態系統的戰略意義

小米的轉向不僅僅是為了研發而發布模型；它與公司的「人車家」策略深度綁定。將這些模型成功整合到智慧型手機、智慧家居設備與車輛中，才是真正的價值所在。

從對話式 AI 到代理自主性

更廣泛的業界正見證從簡單的「聊天機器人」到能夠代表用戶執行任務的自主代理的轉變。小米憑藉其全新的系統級代理「miclaw」走在這一轉變的前沿。透過將 MiMo-V2-Pro 直接嵌入其設備的作業系統中，小米使該代理能夠自主控制軟體、導航行動瀏覽器並管理物聯網（IoT）設備。

例如，與其由用戶手動搜尋資訊並設置提醒，系統可以自主地將傳入的旅行數據與天氣預報、通勤時間和日曆空檔進行交叉比對。這代表了從 2020 年代初期的反應式 AI 助手向 2026 年主動式、代理驅動系統的重大飛躍。

降低開發者門檻

MiMo V2 發布中最具顛覆性的方面之一是其經濟模式。透過將 API 存取價格定為每百萬輸入 Token 1 美元——約為西方領先競爭對手成本的六分之一到七分之一——小米實際上是在邀請大量獨立開發者在其基礎設施上進行構建。這與先前發布的 MiMo-V2-Flash 所見的開源加速相呼應，確保生態系統不僅透過小米的內部努力成長，也透過多元化的第三方應用程式社群發展。

挑戰與未來展望

儘管首秀令人印象深刻，小米仍面臨著與任何主要 AI 開發商相同的挑戰：持續擴展的需求以及自主代理的倫理複雜性。該公司已承諾在未來三年內投資 87 億美元以維持這一勢頭。

包括具有成本效益的高效能建模背景的研究人員在內的領導團隊，提出了一份快速迭代的路線圖。隨著小米繼續完善其長週期推理與決策能力，業界應預期 MiMo V2 系列將迅速進化。焦點可能會轉向提高「代理自主性（agent autonomy）」——模型在無需人類監督的情況下執行複雜任務的能力——這仍是 2026 年 AI 市場的「終極目標」。

當我們進一步展望 2026 年，問題不再是消費電子公司是否能與專門的 AI 研究實驗室競爭。MiMo V2 三劍客的發布確認了小米不僅在競爭，而且正在積極塑造用戶與數位及物理環境互動的未來。對於開發者與競爭對手而言，代理化、多模態且具表現力的 AI 生態系統時代已經到來。