
Cohere 正式發佈了 Tiny Aya,這是一款擁有 33.5 億參數(3.35-billion parameter)的緊湊型開放權重 AI 模型,旨在為邊緣設備帶來高效能的多語言處理能力。這項於 2026 年 2 月 20 日發佈的消息,標誌著生成式 AI(Generative AI)領域的一個重大轉向——從追求「越大越好」的教條,轉向專業、高效且具備主權的 AI 解決方案。Tiny Aya 支持超過 70 種語言,包括代表性不足的非洲和印度方言,其定位不僅僅是一項技術成就,更是 Cohere 在今年晚些時候加速邁向備受期待的 IPO 時的戰略護城河。
此模型的發佈正值這家加拿大 AI 獨角獸公司的活躍期,該公司最近的年度經常性收入(ARR)已超過 2.4 億美元。通過鎖定裝置端隱私、低延遲推理和語言包容性的交匯點,Cohere 正在直接挑戰來自 OpenAI 和 Google 等競爭對手的大型雲端模型的統治地位。Tiny Aya 經過優化,可在 iPhone 17 Pro 等標準消費級硬體上本地運行,無需網際網路連接,有效地讓連網受限地區的使用者也能獲得先進的 AI 技術。
今日發佈的核心在於 Tiny Aya 架構極高的效率。儘管產業歷史上一直專注於兆級參數的巨獸,但 Cohere 卻在「小語言模型(Small Language Models, SLMs)」上加倍投入,以一小部分的運算成本提供企業級的效能。
Tiny Aya 擁有 33.5 億個參數,這一規模是經過精心選擇的,旨在平衡推理能力與可攜性。與以往需要大量 GPU 集群進行推理的前代模型不同,Tiny Aya 是為邊緣運算而生的。內部基準測試和早期開發者測試顯示,該模型在 iPhone 17 Pro 上的推理速度可達每秒 32 個標記(tokens per second),這是語音翻譯和互動式助手等即時應用的關鍵門檻。
該模型提供多個區域版本,包括 TinyAya-Fire 和 TinyAya-Earth,這些版本已針對特定的語言家族進行了微調。這種細粒度的方法使模型能夠在約魯巴語(Yoruba)、馬拉地語(Marathi)和豪薩語(Hausa)等常被西方中心 AI 忽視的語言中表現出色。
Tiny Aya 的架構利用了 8k 的上下文窗口(context window)。雖然這比伺服器端模型中常見的海量上下文窗口要小,但這是一個深思熟慮的工程權衡,旨在最大限度地提高 RAM 受限設備上的狀態保留和檢索速度。
關鍵技術能力:
SLM 市場已成為 2026 年爭奪 AI 霸權的新戰場。為了瞭解 Tiny Aya 的定位,有必要將其與直接競爭對手 Google 的 Gemma 3 和阿里巴巴的 Qwen 3 進行比較。
雖然從數據上看,Gemma 3 擁有更大的上下文窗口和更廣泛的語言支持,但使用 GlobalMGSM(多語言小學數學)數據集的獨立基準測試顯示,Tiny Aya 在低資源語言的推理任務中優於競爭對手。這支持了 Cohere 的主張:參數數量的重要性次於數據策劃(data curation)的品質。
表 1:2026 年小語言模型競爭格局
| 特性 | Cohere Tiny Aya | Google Gemma 3 (4B) | Qwen 3 (4B) |
|---|---|---|---|
| 參數數量 | 33.5 億 | 40 億 | 40 億 |
| 主要重點 | 邊緣效率與多語言主權 | 廣泛知識與長上下文 | 推理與編碼 |
| 上下文窗口 | 8k | 128k | 32k |
| 語言支持 | 70+(深耕印度/非洲語言) | 140+(一般覆蓋) | 多語言(強大的中/英能力) |
| 部署目標 | 裝置端(行動/邊緣) | 雲端/混合 | 雲端/邊緣 |
| 推理速度(行動端) | ~32 tokens/sec | ~24 tokens/sec | ~28 tokens/sec |
註:推理速度基於 A17 Pro 晶片架構的標準測試。
Tiny Aya 並非孤立存在。它是 Cohere 在過去 12 個月中有條不紊構建的更廣泛企業生態系統中的最新組件。支撐該生態系統的兩大支柱是 Rerank 4 與 Model Vault。
Rerank 4 於 2025 年底發佈,解決了檢索增強生成(Retrieval-Augmented Generation, RAG)中關鍵的「最後一哩路」問題。雖然生成式模型負責創作文本,但重排序器(rerankers)能確保輸入其中的數據是相關的。Rerank 4 引入了 32k 上下文窗口,比前代產品增加了四倍。
這一擴展的窗口允許模型在單次處理中處理大約 50 頁文本。對於法律和金融企業而言,這意味著 AI 代理現在可以攝取整份合約或季度報告,以在生成答案前驗證相關性。這種「交叉編碼器(Cross-Encoder)」架構通過將回應建立在經過驗證的數據基礎上,顯著減少了幻覺(hallucinations),這是企業採用的非必要條件。
與模型相輔相成的是 Model Vault,這是一個專為重視安全的企業設計的託管平台。Model Vault 允許公司在隔離的虛擬私有雲(VPCs)中部署 Cohere 的 Command 和 Rerank 模型。
這種架構有效地將 AI 帶到數據端,而不是將數據發送到 AI 端。對於醫療保健和國防等行業,這種「零信任(Zero-Trust)」部署模式是一個規則改變者。它確保了敏感的知識產權永遠不會跨越公共網路,完美契合了全球向 主權 AI(Sovereign AI) 發展的趨勢——即國家和企業尋求對其情報基礎設施的完全控制。
Tiny Aya 的發佈是 Cohere 邁向公開市場的深思熟慮的一步。隨著公司普遍預期將於 2026 年進行 IPO,其財務狀況正受到密切關注。最新數據令人鼓舞:Cohere 報告 2025 年的 ARR 為 2.4 億美元,代表了強勁的 50% 季度環比增長率。
這種收入增長得益於資本效率高的商業模式。與支出數十億美元訓練大型通用模型的 OpenAI 或 Anthropic 不同,Cohere 通過專注於專業的企業模型,將 毛利率維持在接近 70%。這一區別對於越來越警惕與「暴力破解」式 AI 擴張相關的巨大運營成本的潛在投資者來說至關重要。
戰略性企業舉措:
從 Creati.ai 的角度來看,Tiny Aya 的發佈標誌著 AI 市場的成熟。「一個模型統治一切」的時代正在消退。取而代之的是,我們正看到一個聯邦式生態系統的興起:海量的雲端模型處理沉重的推理,而像 Tiny Aya 這樣的專業 SLM 則處理邊緣任務、隱私敏感的推理以及即時翻譯。
Cohere 的戰略依賴於一個賭注:效率最終將擊敗暴力破解。通過在企業和消費者已擁有的硬體上實現高品質的 AI,他們正在顯著降低進入門檻。
然而,風險依然存在。「大型科技(Big Tech)」巨頭財力雄厚,可以負擔得起補貼推理成本,以擠壓較小的參與者。如果 Google 或 Meta 決定免費且無限制地提供同類邊緣模型,Cohere 的利潤可能會面臨壓力。
儘管如此,就目前而言,Tiny Aya 證明了專注工程的力量。它讓我們得以一窺未來:AI 不僅僅是一項雲端服務,而是一個靜默且安全地運行在您口袋裝置中的無處不在的工具。隨著我們在未來幾週觀察 HuggingFace 等平台上的開發者採用率,這位「微型」巨人的真正影響將變得清晰。
隨著我們進一步步入 2026 年,利益相關者應關注 Cohere 成功的三個關鍵指標:
Tiny Aya 雖然參數規模較小,但它對主權、隱私及可取得 AI 的未來影響卻是巨大的。