印度在重要峰會展示本土開發的人工智慧模型，追求 'DeepSeek Moment'

印度戰略轉向：在 AI Impact Summit 追尋「DeepSeek 時刻」

新德里 — 全球人工智慧格局正見證一場重大的地殼變動，而這一次，震央位在印度。在於新德里舉行的備受期待的 AI Impact Summit 2026 上，該國頂尖的技術創新者和政策制定者公佈了一系列本土 AI 模型，標誌著向「主權 AI（Sovereign AI）」邁出的決定性一步。這一協同推進被廣泛譽為印度對「DeepSeek 時刻」的追求——這參考了近期以高效能、高成本效益模型挑戰矽谷霸主地位的中創啟動公司。

此次峰會成為了多種多樣的多語言模型發布平台，這些模型針對印度的 22 種官方語言進行了優化，強調了從適應西方模型轉向從頭開始構建本土系統的戰略轉變。憑藉政府的支持和激增的創業生態系統，印度正將自己定位為不僅是 AI 的消費者，更是高效且具備文化語境智慧的強大創造者。

Sarvam AI 以高效架構領跑

這股浪潮的最前沿是 Sarvam AI，這家總部位於班加羅爾的初創公司隨著其最新大型語言模型（Large Language Models, LLMs）的發布，吸引了峰會的關注。該公司推出了兩個關鍵模型：一個專為邊緣效率設計的 300 億參數模型，以及一個專為複雜推理和企業任務設計的海量 1050 億參數模型。

Sarvam 的 105B 模型直接借鑒了定義「DeepSeek」現象的高效率，採用了**專家混合（Mixture-of-Experts, MoE）**架構。這種設計允許模型在執行任何特定任務時僅啟用一小部分參數，在保持高性能的同時顯著降低了推理成本。

「我們不僅是為印度而建；我們是從印度出發為世界而建，」Sarvam AI 的共同創辦人 Pratyush Kumar 在主題演講中表示。「我們的模型是在國內運算基礎設施上從頭開始訓練的，確保數據主權和文化細微差別被嵌入核心，而不是作為事後才添加的想法。」

據報導，該模型在多個印度語言基準測試中，尤其是在複雜推理和編碼任務方面，表現優於 Google 的 Gemini Flash 和 DeepSeek R1 等全球競爭對手。這一成就驗證了「節約創新（Frugal Innovation）」模式，證明了世界一流的 AI 並不嚴格需要美國科技巨頭那樣的萬億美元預算。

語言主權的統一推進

整個峰會的一個反覆出現的主題是克服語言障礙的緊迫需求。印度的語言多樣性——包含 22 種官方語言和數千種方言——長期以來一直是主要基於英語數據集訓練的西方 AI 模型的絆腳石。

BharatGen 是一個由印度理工學院孟買分校（IIT Bombay）領導、政府支持的財團，宣佈了一個重大里程碑：完成了涵蓋所有 22 種法定印度語言的文本 AI 模型。該計畫在 **IndiaAI 使命（IndiaAI Mission）**下獲得資助，旨在為非英語人口普及技術獲取。

「語言是文化的載體。如果 AI 不能說我們的語言，它就不能為我們的子民服務，」聯邦電子與資訊技術部部長評論道，並強調政府在 IndiaAI 使命中的 12 億美元投資。該使命正積極為初創公司補貼 GPU 運算成本，為優先考慮本地需求而非全球趨勢的創新創造了沃土。

多樣化生態系統：晶片、雲端與專業模型

在 Sarvam AI 專注於基礎模型的同時，其他關鍵參與者展示了跨硬體和應用層的進展，構建了一個全方位的生態系統。

Krutrim 的矽片野心

由 Ola 的 Bhavish Aggarwal 創立的 AI 企業 Krutrim 利用此次峰會更新了其雄心勃勃的硬體路線圖。除了其雲端服務外，Krutrim 證實其首款本土 AI 晶片 Bodhi 1 正按計劃於 2026 年發布。這些晶片專為處理前沿 LLM 的推理工作負載而設計，旨在減少印度對 Nvidia 昂貴進口硬體的依賴。

Krutrim 還宣佈了一項合作計劃，研發 Krutrim 3，這是一個 7000 億參數的模型，顯示了其在模型規模最高層級進行競爭的意圖。

Two Platforms 的 SUTRA

為多樣化的模型景觀增添色彩的是由著名創新者 Pranav Mistry 領導的 Two Platforms，展示了 SUTRA。與通用模型不同，SUTRA 是一款多語言生成式 AI（Generative AI）模型，採用雙轉換器架構（Dual-transformer architecture），將概念學習與語言處理分開。這種獨特的方法使其能夠有效地擴展到 50 多種語言，同時保持高度的成本效益，使其成為向其他非英語市場進行全球出口的理想候選者。

關鍵印度 AI 模型對比分析

峰會凸顯了印度領先 AI 倡議之間的不同戰略。下表總結了所發布主要模型的關鍵規格和戰略重點：

模型 / 倡議	開發者	關鍵特性	戰略重點
Sarvam-105B	Sarvam AI	105B 參數，MoE 架構，支援 22 種語言	高效企業推理與編碼；「DeepSeek」式成本優化
Krutrim 雲端/晶片	Ola (Krutrim)	定制矽片 (Bodhi 1)，計劃 700B 參數模型	從矽片到雲端的所有權；減少硬體依賴
BharatGen	IIT Bombay 財團	原生支援所有 22 種官方語言	公共部門應用、治理及地方方言教育
SUTRA	Two Platforms	雙轉換器架構，50+ 語言	全球多語言市場；將概念掌握與語言流暢度分離

「DeepSeek 時刻」：現實還是願景？

「DeepSeek moment」一詞幾乎在峰會的每一次走廊談話中都被提及。它不僅代表了一個技術基準；它還象徵著市場心理的轉變。正如中國的 DeepSeek 證明了效率可以打破資金充裕的美國實驗室的壟斷一樣，印度正押注其「主權 AI」方法也將為全球南方國家帶來同樣的影響。

然而，挑戰依然存在。雖然像 Sarvam 的 105B 這樣的模型成本效率令人期待，但訓練下一代「前沿」模型（10 兆以上參數）所需的龐大運算基礎設施仍在建設中。IndiaAI 使命採購的數千個 GPU 只是一個開始，但與 Meta 或 Microsoft 運行的集群相比仍顯遜色。

結論：全球競爭者崛起

India AI Impact Summit 2026 展現了印度從 AI 採用者晉升為 AI 建築師的轉折點。透過優先考慮多語言能力和高效能架構，印度公司正在開闢一個西方科技巨頭很大程度上忽略的獨特領域。

隨著這些模型從研究實驗室轉向銀行、農業和治理領域的現實部署，全世界都將拭目以待。如果印度能成功擴展這些高效、多語言的系統，它不僅會擁有自己的「DeepSeek 時刻」，還可能重寫 AI 在未來多樣化且成本敏感市場中的部署方式。