NVIDIA présente Nemotron 3 Super : MoE hybride ouvert Mamba-Transformer pour le raisonnement agentiel

Chez Creati.ai, nous surveillons constamment l'évolution de l'intelligence artificielle, et la dernière version de NVIDIA marque un moment décisif pour les systèmes autonomes. Le 11 mars 2026, NVIDIA a officiellement introduit Nemotron 3 Super, un modèle à poids ouverts (open-weights), hybride Mamba-Transformer Mélange d'Experts (Mixture-of-Experts - MoE) spécifiquement conçu pour alimenter des tâches de raisonnement agentique complexes. Conçu pour atténuer les coûts de calcul prohibitifs et les limitations de contexte généralement associés aux flux de travail multi-agents, ce colosse de 120 milliards de paramètres — fonctionnant avec seulement 12 milliards de paramètres actifs par jeton — promet de redéfinir la manière dont les applications d'IA d'entreprise sont construites et déployées.

Le défi central : résoudre l'explosion du contexte et la taxe sur la réflexion

À mesure que l'IA d'entreprise dépasse les simples interfaces de chatbot pour s'orienter vers des orchestrations multi-agents sophistiquées, les développeurs sont confrontés à deux goulots d'étranglement critiques. Le premier est ce que les experts de l'industrie appellent l'« explosion du contexte ». Les flux de travail multi-agents (Multi-agent workflows) génèrent fréquemment jusqu'à 15 fois plus de jetons (tokens) que l'IA conversationnelle standard. Cela se produit parce que les agents doivent constamment échanger des historiques complets, des étapes de raisonnement intermédiaires et des sorties d'outils à chaque tour. Sur des tâches prolongées, cet afflux massif de données conduit souvent à une « dérive de l'objectif », où l'IA perd progressivement l'alignement avec son objectif initial.

Le second goulot d'étranglement est la « taxe sur la réflexion ». Exiger d'un modèle de langage massif et dense qu'il exécute chaque petite sous-tâche dans un flux de travail autonome est d'un coût de calcul exorbitant et d'une lenteur pénible pour les applications réelles et pratiques. En s'appuyant sur une architecture hautement optimisée, Nemotron 3 Super répond directement à ces contraintes. Il offre un débit plus de cinq fois supérieur à celui de la version précédente de Nemotron Super, permettant aux agents autonomes de fonctionner en continu à grande échelle sans épuiser les budgets de calcul.

Percées architecturales : MoE hybride Mamba-Transformer

Nemotron 3 Super n'est pas simplement une version agrandie des modèles précédents comme le Nemotron 3 Nano ; il introduit des innovations architecturales profondes qui redéfinissent le paradigme efficacité-précision pour les moteurs de raisonnement à haute capacité.

Mamba-2 rencontre l'attention Transformer

L'épine dorsale du modèle entrelace élégamment deux types de couches distincts pour maximiser les performances. Les couches Mamba-2 (Mamba-2 layers) gèrent la majeure partie du traitement des séquences. En tant que modèles d'espace d'état (State Space Models - SSM), elles offrent une complexité en temps linéaire par rapport à la longueur de la séquence. Cette efficacité est précisément ce qui transforme une fenêtre de contexte massive de 1 million de jetons d'un concept théorique en un outil hautement pratique. Entrelacées avec celles-ci se trouvent des couches d'attention Transformer (Transformer attention layers), qui sont stratégiquement placées à des profondeurs clés pour piloter le raisonnement avancé et fin requis pour les tâches complexes de codage, de mathématiques et de logique multi-étapes.

MoE latent et prédiction multi-jetons (MTP)

NVIDIA a encore augmenté cette base hybride avec deux techniques de pointe :

Mélange latent d'experts (Latent Mixture-of-Experts - MoE) : Contrairement aux architectures MoE standard, MoE latent (Latent MoE) compresse les jetons avant qu'ils n'atteignent les couches d'experts. Ce saut architectural permet au modèle d'activer quatre spécialistes experts pour le coût d'inférence traditionnellement requis pour un seul. Le résultat est une spécialisation plus fine, un raisonnement plus solide pendant l'entraînement et une précision substantiellement plus élevée par FLOP.
Prédiction multi-jetons (Multi-Token Prediction - MTP) : S'éloignant de la génération classique du jeton suivant, la MTP permet au modèle de prédire plusieurs jetons futurs en une seule passe avant. Cela réduit considérablement la latence de génération pour les séquences longues et permet un décodage spéculatif intégré, offrant des vitesses de génération de jetons hautement accélérées par rapport aux modèles ouverts leaders actuels.

Entraînement rigoureux et dominance des benchmarks

Construire un modèle capable de raisonnement autonome nécessite plus qu'une simple architecture innovante ; cela exige un pipeline d'entraînement méticuleux et vaste. NVIDIA a entraîné Nemotron 3 Super en trois phases séquentielles. Premièrement, le pré-entraînement a établi de vastes connaissances mondiales à l'aide de 10 billions de jetons sélectionnés, entraînés sur un total de 25 billions de jetons vus, aux côtés de 10 milliards de jetons supplémentaires spécifiquement axés sur le raisonnement et 15 millions de problèmes de codage. Deuxièmement, le réglage fin supervisé (Supervised Fine-Tuning - SFT) a façonné le comportement du modèle à travers divers types de tâches agentiques. Enfin, l'apprentissage par renforcement multi-environnements (Multi-environment Reinforcement Learning - RL) a affiné ce comportement par rapport à des résultats vérifiables pour garantir des appels d'outils et une exécution de haute précision.

Dans les évaluations indépendantes, cet entraînement rigoureux a porté ses fruits de manière massive. Sur les classements d'Artificial Analysis, Nemotron 3 Super a décroché la première place pour l'efficacité et l'ouverture. Dans des comparaisons directes, il a démontré une intelligence plus élevée et un débit jusqu'à 11 % supérieur par GPU NVIDIA B200 que des modèles comparables comme gpt-oss-120b. Par rapport à Qwen3.5-122B, Nemotron 3 Super atteint une précision égale ou supérieure tout en offrant un débit d'inférence considérablement plus élevé pour les tâches à long contexte.

Aperçu des spécifications techniques

Pour mieux comprendre le bond en avant des capacités, nous avons compilé les spécifications de base du modèle Nemotron 3 Super.

Caractéristique	Détail	Avantage
Architecture	Hybride Mamba-Transformer MoE	Combine un traitement de séquence efficace en temps linéaire avec des capacités de raisonnement avancées. Optimisé pour les systèmes multi-agents.
Nombre de paramètres	120B au total 12B actifs	Réduit considérablement les coûts d'inférence et la « taxe sur la réflexion » tout en maintenant l'intelligence d'un modèle massif.
Fenêtre de contexte	1 million de jetons	Conserve l'état complet du flux de travail en mémoire, évitant la dérive de l'objectif dans les tâches autonomes prolongées.
Innovations clés	MoE latent Prédiction multi-jetons (MTP)	Appelle 4x plus d'experts pour le même coût de calcul. Accélère la génération via le décodage spéculatif intégré.
Précision	Pré-entraînement NVFP4	Assure un débit élevé et une utilisation optimale du matériel sur les GPU NVIDIA de nouvelle génération.

Ouverture sans précédent et intégration en entreprise

Chez Creati.ai, nous croyons fermement que la disponibilité en code source ouvert est le principal catalyseur d'une innovation rapide en IA. NVIDIA partage cette philosophie, en publiant Nemotron 3 Super avec un niveau de transparence sans précédent. Le modèle présente des poids, des recettes et, surtout, des jeux de données entièrement ouverts. Ces jeux de données ont été agressivement dédoublonnés et filtrés par qualité pour maximiser le rapport signal sur bruit, offrant aux développeurs des blocs de construction reproductibles pour l'IA agentique.

Large disponibilité de l'écosystème

Le support de l'écosystème pour Nemotron 3 Super est vaste. Le modèle est disponible sur les principales plateformes d'inférence et conditionné sous forme de microservice NVIDIA NIM, ce qui signifie qu'il peut être déployé n'importe où, des stations de travail d'entreprise locales aux environnements cloud mondiaux. Les développeurs peuvent accéder aux poids directement via Hugging Face, les affiner en utilisant des plateformes comme Unsloth, ou déployer le modèle via des services gérés tels que Together AI, Oracle Cloud Infrastructure (OCI) Generative AI, Perplexity, Lightning AI et DeepInfra. Notamment, son empreinte optimisée permet un déploiement sur un seul GPU sur le matériel NVIDIA H200 ou H100, abaissant considérablement la barrière à l'entrée pour les petites équipes d'ingénierie.

Donnant les moyens aux flux de travail agentiques de nouvelle génération

Les applications pratiques de Nemotron 3 Super sont vastes, particulièrement dans les industries nécessitant une résolution de problèmes techniques profonds et une orchestration autonome.

Génie logiciel et développement : Un agent de codage alimenté par Nemotron 3 Super peut charger l'intégralité d'une base de code d'entreprise dans sa fenêtre de contexte de 1 million de jetons. Cela permet une génération de code de bout en bout, un débogage transparent et un remaniement complet sans avoir besoin de segmentation de documents sujette aux erreurs ou de pipelines de génération augmentée par récupération (Retrieval-Augmented Generation - RAG) fragmentés.
Tri de la cybersécurité : Dans les environnements de sécurité à enjeux élevés, les agents autonomes doivent traiter rapidement des milliers de journaux et d'états système. L'appel d'outils de haute précision du modèle garantit que ces agents peuvent naviguer de manière fiable dans des bibliothèques de fonctions massives, évitant les erreurs d'exécution tout en triant les menaces en temps réel.
Recherche financière et scientifique : Pour les recherches documentaires approfondies ou la compréhension moléculaire, les agents peuvent charger simultanément des milliers de pages de rapports financiers ou d'articles scientifiques en mémoire. Cela élimine le besoin de raisonner à nouveau à travers des conversations fragmentées, améliorant de manière exponentielle l'efficacité de la recherche et permettant un raisonnement multi-étapes complet.

Le verdict final de Creati.ai : une nouvelle ère pour l'IA ouverte

Alors que nous regardons vers l'avenir de l'IA d'entreprise, il est clair que la simple mise à l'échelle des modèles denses n'est plus une voie viable pour les systèmes multi-agents. Le Nemotron 3 Super de NVIDIA représente un pivot magistral vers une intelligence efficace. En fusionnant de manière transparente les capacités de contexte long de Mamba avec les prouesses de raisonnement des Transformers, et en optimisant le tout grâce au MoE latent et à la prédiction multi-jetons, NVIDIA a établi une nouvelle référence pour la communauté de l'IA open-source.

Pour les développeurs, les chercheurs et les organisations d'entreprise visant à construire des agents d'IA robustes, évolutifs et autonomes, Nemotron 3 Super n'est pas seulement une mise à niveau incrémentielle — c'est le moteur fondamental qui alimentera la prochaine génération de raisonnement agentique (agentic reasoning). Chez Creati.ai, nous continuerons à surveiller de près comment la communauté open-source exploite ces outils sans précédent pour construire les flux de travail autonomes de demain.