NVIDIA 推出 Nemotron 3 Super：用於代理推理的開放混合 Mamba-Transformer MoE

在 Creati.ai，我們持續關注人工智慧（Artificial Intelligence, AI）的演進，而 NVIDIA 的最新發佈標誌著自主系統的一個定義性時刻。2026 年 3 月 11 日，NVIDIA 正式推出了 Nemotron 3 Super，這是一個開放權重（Open-weights）、混合 Mamba-Transformer 專家混合（Mixture-of-Experts, MoE）模型，專為驅動複雜的代理推理（Agentic reasoning）任務而設計。為了減輕通常與多代理工作流相關的高昂運算成本和上下文限制，這個擁有 1200 億參數的強大模型——每個標記（Token）僅需 120 億個激活參數即可運行——有望重新定義企業級 AI 應用程式的構建與部署方式。

核心挑戰：解決上下文爆炸與思考稅

隨著企業級 AI 從簡單的聊天機器人界面轉向複雜的多代理協作，開發者面臨著兩個關鍵瓶頸。第一是業界專家所稱的「上下文爆炸（Context explosion）」。多代理工作流（Multi-agent workflows）產生的標記數量通常比標準對話式 AI 多出 15 倍。這是因為代理必須在每一步不斷交換完整的歷史記錄、中間推理步驟和工具輸出。在處理長時間任務時，這種海量的數據湧入往往會導致「目標偏離（Goal drift）」，即 AI 逐漸失去與其原始目標的一致性。

第二個瓶頸是「思考稅（Thinking tax）」。要求一個巨大的、稠密的語言模型去執行自主工作流中的每一個微小副任務，在計算上是過於昂貴的，且對於實際的現實應用來說速度慢得令人痛苦。透過利用高度優化的架構，Nemotron 3 Super 直接解決了這些限制。它提供的吞吐量是前一代 Nemotron Super 的五倍以上，使自主代理能夠在不耗盡運算預算的情況下持續大規模運行。

架構突破：混合 Mamba-Transformer MoE

Nemotron 3 Super 不僅僅是早期模型（如 Nemotron 3 Nano）的放大版；它引入了深刻的架構創新，重新定義了高容量推理引擎的效率與準確度範式。

Mamba-2 與 Transformer 注意力機制結合

該模型的骨幹網絡優雅地交織了兩種不同的層類型，以實現效能最大化。Mamba-2 層負責處理大部分序列處理工作。作為狀態空間模型（State Space Models, SSMs），它們提供相對於序列長度的線性時間複雜度。這種效率正是將巨大的 100 萬標記上下文窗口從理論概念轉化為高度實用工具的關鍵。交織在其中的是 Transformer 注意力層（Transformer attention layers），它們被策略性地放置在關鍵深度，以驅動複雜編碼、數學和多步邏輯任務所需的高級、細粒度推理。

潛在專家混合（Latent MoE）與多標記預測（MTP）

NVIDIA 進一步利用兩項尖端技術增強了這一混合基礎：

潛在專家混合（Latent Mixture-of-Experts, MoE）： 與標準 MoE 架構不同，潛在專家混合（Latent MoE）在標記到達專家層之前對其進行壓縮。這一架構飛躍允許模型以傳統上僅能支持一名專家的推理成本，激活四名專家專家。其結果是更細粒度的專業化、訓練期間更強的推理能力，以及大幅提高的每 FLOP 準確度。
多標記預測（Multi-Token Prediction, MTP）： 擺脫傳統的下一個標記生成模式，MTP 使模型能夠在單次前向傳遞中預測多個未來標記。這極大地降低了長序列的生成延遲，並啟用了內建的投機解碼（Speculative decoding），與目前領先的開源模型相比，提供了高度加速的標記生成速度。

嚴格訓練與基準測試主導地位

構建一個具備自主推理能力的模型不僅需要創新的架構；它還需要一個細緻且龐大的訓練流水線。NVIDIA 分三個連續階段訓練了 Nemotron 3 Super。首先，預訓練（Pretraining）使用 10 兆個精選標記建立了廣泛的世界知識，總計訓練了超過 25 兆個已見標記，此外還有專注於推理的 100 億個標記和 1500 萬個編碼問題。其次，監督式微調（Supervised fine-tuning, SFT）塑造了模型在各種代理任務類型中的行為。最後，多環境強化學習（Reinforcement learning, RL）針對可驗證的結果優化了這些行為，以保證高準確度的工具調用（Tool calling）和執行。

在獨立評估中，這種嚴格的訓練獲得了巨大的回報。在 Artificial Analysis 排行榜上，Nemotron 3 Super 在效率和開放性方面奪得榜首。在直接對比中，它表現出比 gpt-oss-120b 等同類模型更高的智慧，且每台 NVIDIA B200 GPU 的吞吐量高出多達 11%。與 Qwen3.5-122B 相比，Nemotron 3 Super 在長上下文任務中實現了不相上下或更優的準確度，同時提供了大幅提高的推理吞吐量。

技術規格概覽

為了更好地理解其能力的飛躍，我們編製了 Nemotron 3 Super 模型的核心規格。

功能	細節	優勢
架構	混合 Mamba-Transformer MoE	結合了高效的線性時間序列處理與先進的推理能力。針對多代理系統進行了優化。
參數數量	總計 120B 激活 12B	大幅降低推理成本和「思考稅」，同時保持巨量模型的智慧。
上下文窗口	100 萬個標記	在記憶體中保留完整的工作流狀態，防止在長時間自主任務中出現目標偏離。
關鍵創新	潛在 MoE 多標記預測 (MTP)	以相同的運算成本調用 4 倍以上的專家。透過內建的投機解碼加速生成。
精度	NVFP4 預訓練	確保在下一代 NVIDIA GPU 上實現高吞吐量和最佳硬體利用率。

前所未有的開放性與企業整合

在 Creati.ai，我們堅信開源可用性是 AI 快速創新的主要催化劑。NVIDIA 分享這一理念，以前所未有的透明度發佈了 Nemotron 3 Super。該模型具有完全開放的權重、食譜（Recipes），最值得注意的是，還有開放數據集。這些數據集經過激進的去重和質量過濾，以最大限度地提高信噪比，為開發者提供了構建代理 AI 的可重複構件。

廣泛的生態系統可用性

Nemotron 3 Super 的生態系統支援非常廣泛。該模型可在領先的推理平台上使用，並封裝為 NVIDIA NIM 微服務，這意味著它可以部署在從本地企業工作站到全球雲環境的任何地方。開發者可以透過 Hugging Face 直接訪問權重，使用 Unsloth 等平台對其進行微調，或透過 Together AI、Oracle Cloud Infrastructure (OCI) Generative AI、Perplexity、Lightning AI 和 DeepInfra 等託管服務部署模型。值得注意的是，其優化的腳印允許在 NVIDIA H200 或 H100 硬體上進行單 GPU 部署，大幅降低了小型工程團隊的進入門檻。

賦能下一代代理工作流

Nemotron 3 Super 的實際應用非常廣泛，特別是在需要深度技術問題解決和自主編排的行業中。

軟體工程與開發： 由 Nemotron 3 Super 驅動的編碼代理可以將整個企業代碼庫加載到其 100 萬標記的上下文窗口中。這允許進行端到端的代碼生成、無縫調試和全面的重構，而無需容易出錯的文件分段或碎片化的檢索增強生成（Retrieval-augmented generation, RAG）流水線。
網路安全分級： 在高風險的安全環境中，自主代理必須快速處理數千個日誌和系統狀態。模型的高準確度工具調用確保了這些代理可以可靠地導航龐大的功能庫，在即時分級威脅時防止執行錯誤。
金融與科學研究： 對於深度文獻檢索或分子理解，代理可以同時將數千頁的財務報告或科學論文加載到記憶體中。這消除了在碎片化對話中重新推理的需求，指數級地提高了研究效率，並實現了全面的多步推理。

Creati.ai 的最終裁定：開放 AI 的新時代

當我們展望企業級 AI 的未來時，顯而易見的是，單純擴大稠密模型的規模已不再是多代理系統的可行路徑。NVIDIA 的 Nemotron 3 Super 代表了向高效智慧的轉型。透過將 Mamba 的長上下文能力與 Transformer 的推理實力無縫融合，並透過潛在 MoE 和多標記預測對其進行全面優化，NVIDIA 為開源 AI 社群設定了新的基準。

對於旨在構建強大、可擴展且自主的 AI 代理的開發者、研究人員和企業組織來說，Nemotron 3 Super 不僅僅是一個增量升級——它是將驅動下一代代理推理（agentic reasoning）的基礎引擎。我們 Creati.ai 將繼續密切關注開源社群如何利用這些前所未有的工具來構建未來的自主工作流。