
全球人工智慧格局在 2026 年 3 月 19 日發生了轉變,小米集團(Xiaomi Corp.)正式發布了其新一代專有 AI 模型,統稱為 MiMo V2 系列。小米早已超越其傳統作為硬體優先的消費電子巨頭根源,將自己定位為基礎模型領域的強大競爭者。MiMo-V2-Pro、MiMo-V2-Omni 與 MiMo-V2-TTS 的發布,代表了其在 AI 代理(AI agents)、多模態感知及人機互動等高風險領域中有計畫且積極的進軍。
此前,業界對「Hunter Alpha」進行了數月的猜測,這是一個匿名模型,持續佔據 OpenRouter 每日使用排行榜榜首,並產生了超過 1 兆次的 Token 調用。隨著這次正式發布,面紗已被揭開,揭示了這款效能猛獸正是 Xiaomi 的旗艦款 MiMo-V2-Pro。透過提供在程式碼編寫與代理基準測試中足以與 Anthropic 的 Claude Opus 4.6 媲美的模型,小米正發出訊號,其「人車家」全生態系統不再僅僅是硬體承諾——它正成為一個智慧且由代理驅動的現實。
小米對於 MiMo V2 系列的策略是提供一個具備凝聚力的全棧平台,而非孤立的應用程式。透過發布三款截然不同但可互操作的模型,該公司正在解決現代 AI 部署的三大核心支柱:推理、感知與合成。
旗艦級 MiMo-V2-Pro 被設計為生態系統的「大腦」。其基於混合專家架構(Mixture-of-Experts,MoE),擁有超過 1 兆個總參數。雖然規模龐大,但其效率極高,每次請求僅需 420 億個活躍參數。這種配置在保持高度推理能力的同時,顯著降低了延遲。
關鍵效能指標顯示,MiMo-V2-Pro 支援 100 萬個 Token 的上下文窗口,這是複雜程式碼編寫、瀏覽器導航和多步代理操作等長週期工作流的關鍵需求。在最近的測試中,該模型在邏輯密集型代理任務中展現了與 Claude Opus 4.6 相當的熟練程度,對於尋求以每百萬輸入 Token 1 美元的競爭力價格獲得高效能推理的開發者來說,這是一個可行的選擇。
如果說 Pro 是大腦,那麼 MiMo-V2-Omni 就是感官系統。這款多模態模型原生設計為能「看、聽、行動」。它將圖像、視訊與音訊編碼器整合至一個共用的骨幹(backbone)中,從而實現卓越的跨模態理解。
此模型對小米的機器人與汽車部門至關重要。透過在行車記錄器畫面中提供即時危險檢測,並在用戶介面中實現自主導航,MiMo-V2-Omni 充當了具身智慧(embodied intelligence)的基礎模型。它支援結構化工具調用(tool calls)與函數執行,使其能從被動觀察轉向與物理世界的積極互動。
第三根支柱 MiMo-V2-TTS 專注於最終的介面層:語音。該模型使用超過 1 億小時的語音數據進行訓練,採用了具有專有音訊分詞器(audio tokenizer)的端到端架構。與依賴從選單中選擇預設「情感」的舊系統不同,MiMo-V2-TTS 允許用戶使用自然語言描述所需的語音輸出。無論是細語、大笑、嘆息還是歌唱,該模型都能重現自然的韻律與情感深度,旨在使人機互動感覺更流暢、更少機械感。
下表總結了各模型的主要功能與技術亮點,展示了小米在 AI 技術棧上的全面佈局。
| 模型 | 主要功能 | 關鍵技術優勢 |
|---|---|---|
| MiMo-V2-Pro | 複雜推理與 AI 代理(AI Agents) | 1 兆參數與 100 萬 Token 上下文 |
| MiMo-V2-Omni | 多模態感知與機器人 | 音訊/視訊/圖像共用骨幹 |
| MiMo-V2-TTS | 情感語音合成 | 專利音訊分詞器與 RL 訓練 |
小米的轉向不僅僅是為了研發而發布模型;它與公司的「人車家」策略深度綁定。將這些模型成功整合到智慧型手機、智慧家居設備與車輛中,才是真正的價值所在。
更廣泛的業界正見證從簡單的「聊天機器人」到能夠代表用戶執行任務的自主代理的轉變。小米憑藉其全新的系統級代理「miclaw」走在這一轉變的前沿。透過將 MiMo-V2-Pro 直接嵌入其設備的作業系統中,小米使該代理能夠自主控制軟體、導航行動瀏覽器並管理物聯網(IoT)設備。
例如,與其由用戶手動搜尋資訊並設置提醒,系統可以自主地將傳入的旅行數據與天氣預報、通勤時間和日曆空檔進行交叉比對。這代表了從 2020 年代初期的反應式 AI 助手向 2026 年主動式、代理驅動系統的重大飛躍。
MiMo V2 發布中最具顛覆性的方面之一是其經濟模式。透過將 API 存取價格定為每百萬輸入 Token 1 美元——約為西方領先競爭對手成本的六分之一到七分之一——小米實際上是在邀請大量獨立開發者在其基礎設施上進行構建。這與先前發布的 MiMo-V2-Flash 所見的開源加速相呼應,確保生態系統不僅透過小米的內部努力成長,也透過多元化的第三方應用程式社群發展。
儘管首秀令人印象深刻,小米仍面臨著與任何主要 AI 開發商相同的挑戰:持續擴展的需求以及自主代理的倫理複雜性。該公司已承諾在未來三年內投資 87 億美元以維持這一勢頭。
包括具有成本效益的高效能建模背景的研究人員在內的領導團隊,提出了一份快速迭代的路線圖。隨著小米繼續完善其長週期推理與決策能力,業界應預期 MiMo V2 系列將迅速進化。焦點可能會轉向提高「代理自主性(agent autonomy)」——模型在無需人類監督的情況下執行複雜任務的能力——這仍是 2026 年 AI 市場的「終極目標」。
當我們進一步展望 2026 年,問題不再是消費電子公司是否能與專門的 AI 研究實驗室競爭。MiMo V2 三劍客的發布確認了小米不僅在競爭,而且正在積極塑造用戶與數位及物理環境互動的未來。對於開發者與競爭對手而言,代理化、多模態且具表現力的 AI 生態系統時代已經到來。