
Chez Creati.ai, nous surveillons constamment l'évolution de l'intelligence artificielle, et la dernière version de NVIDIA marque un moment décisif pour les systèmes autonomes. Le 11 mars 2026, NVIDIA a officiellement introduit Nemotron 3 Super, un modèle à poids ouverts (open-weights), hybride Mamba-Transformer Mélange d'Experts (Mixture-of-Experts - MoE) spécifiquement conçu pour alimenter des tâches de raisonnement agentique complexes. Conçu pour atténuer les coûts de calcul prohibitifs et les limitations de contexte généralement associés aux flux de travail multi-agents, ce colosse de 120 milliards de paramètres — fonctionnant avec seulement 12 milliards de paramètres actifs par jeton — promet de redéfinir la manière dont les applications d'IA d'entreprise sont construites et déployées.
À mesure que l'IA d'entreprise dépasse les simples interfaces de chatbot pour s'orienter vers des orchestrations multi-agents sophistiquées, les développeurs sont confrontés à deux goulots d'étranglement critiques. Le premier est ce que les experts de l'industrie appellent l'« explosion du contexte ». Les flux de travail multi-agents (Multi-agent workflows) génèrent fréquemment jusqu'à 15 fois plus de jetons (tokens) que l'IA conversationnelle standard. Cela se produit parce que les agents doivent constamment échanger des historiques complets, des étapes de raisonnement intermédiaires et des sorties d'outils à chaque tour. Sur des tâches prolongées, cet afflux massif de données conduit souvent à une « dérive de l'objectif », où l'IA perd progressivement l'alignement avec son objectif initial.
Le second goulot d'étranglement est la « taxe sur la réflexion ». Exiger d'un modèle de langage massif et dense qu'il exécute chaque petite sous-tâche dans un flux de travail autonome est d'un coût de calcul exorbitant et d'une lenteur pénible pour les applications réelles et pratiques. En s'appuyant sur une architecture hautement optimisée, Nemotron 3 Super répond directement à ces contraintes. Il offre un débit plus de cinq fois supérieur à celui de la version précédente de Nemotron Super, permettant aux agents autonomes de fonctionner en continu à grande échelle sans épuiser les budgets de calcul.
Nemotron 3 Super n'est pas simplement une version agrandie des modèles précédents comme le Nemotron 3 Nano ; il introduit des innovations architecturales profondes qui redéfinissent le paradigme efficacité-précision pour les moteurs de raisonnement à haute capacité.
L'épine dorsale du modèle entrelace élégamment deux types de couches distincts pour maximiser les performances. Les couches Mamba-2 (Mamba-2 layers) gèrent la majeure partie du traitement des séquences. En tant que modèles d'espace d'état (State Space Models - SSM), elles offrent une complexité en temps linéaire par rapport à la longueur de la séquence. Cette efficacité est précisément ce qui transforme une fenêtre de contexte massive de 1 million de jetons d'un concept théorique en un outil hautement pratique. Entrelacées avec celles-ci se trouvent des couches d'attention Transformer (Transformer attention layers), qui sont stratégiquement placées à des profondeurs clés pour piloter le raisonnement avancé et fin requis pour les tâches complexes de codage, de mathématiques et de logique multi-étapes.
NVIDIA a encore augmenté cette base hybride avec deux techniques de pointe :
Construire un modèle capable de raisonnement autonome nécessite plus qu'une simple architecture innovante ; cela exige un pipeline d'entraînement méticuleux et vaste. NVIDIA a entraîné Nemotron 3 Super en trois phases séquentielles. Premièrement, le pré-entraînement a établi de vastes connaissances mondiales à l'aide de 10 billions de jetons sélectionnés, entraînés sur un total de 25 billions de jetons vus, aux côtés de 10 milliards de jetons supplémentaires spécifiquement axés sur le raisonnement et 15 millions de problèmes de codage. Deuxièmement, le réglage fin supervisé (Supervised Fine-Tuning - SFT) a façonné le comportement du modèle à travers divers types de tâches agentiques. Enfin, l'apprentissage par renforcement multi-environnements (Multi-environment Reinforcement Learning - RL) a affiné ce comportement par rapport à des résultats vérifiables pour garantir des appels d'outils et une exécution de haute précision.
Dans les évaluations indépendantes, cet entraînement rigoureux a porté ses fruits de manière massive. Sur les classements d'Artificial Analysis, Nemotron 3 Super a décroché la première place pour l'efficacité et l'ouverture. Dans des comparaisons directes, il a démontré une intelligence plus élevée et un débit jusqu'à 11 % supérieur par GPU NVIDIA B200 que des modèles comparables comme gpt-oss-120b. Par rapport à Qwen3.5-122B, Nemotron 3 Super atteint une précision égale ou supérieure tout en offrant un débit d'inférence considérablement plus élevé pour les tâches à long contexte.
Pour mieux comprendre le bond en avant des capacités, nous avons compilé les spécifications de base du modèle Nemotron 3 Super.
| Caractéristique | Détail | Avantage |
|---|---|---|
| Architecture | Hybride Mamba-Transformer MoE | Combine un traitement de séquence efficace en temps linéaire avec des capacités de raisonnement avancées. Optimisé pour les systèmes multi-agents. |
| Nombre de paramètres | 120B au total 12B actifs |
Réduit considérablement les coûts d'inférence et la « taxe sur la réflexion » tout en maintenant l'intelligence d'un modèle massif. |
| Fenêtre de contexte | 1 million de jetons | Conserve l'état complet du flux de travail en mémoire, évitant la dérive de l'objectif dans les tâches autonomes prolongées. |
| Innovations clés | MoE latent Prédiction multi-jetons (MTP) |
Appelle 4x plus d'experts pour le même coût de calcul. Accélère la génération via le décodage spéculatif intégré. |
| Précision | Pré-entraînement NVFP4 | Assure un débit élevé et une utilisation optimale du matériel sur les GPU NVIDIA de nouvelle génération. |
Chez Creati.ai, nous croyons fermement que la disponibilité en code source ouvert est le principal catalyseur d'une innovation rapide en IA. NVIDIA partage cette philosophie, en publiant Nemotron 3 Super avec un niveau de transparence sans précédent. Le modèle présente des poids, des recettes et, surtout, des jeux de données entièrement ouverts. Ces jeux de données ont été agressivement dédoublonnés et filtrés par qualité pour maximiser le rapport signal sur bruit, offrant aux développeurs des blocs de construction reproductibles pour l'IA agentique.
Le support de l'écosystème pour Nemotron 3 Super est vaste. Le modèle est disponible sur les principales plateformes d'inférence et conditionné sous forme de microservice NVIDIA NIM, ce qui signifie qu'il peut être déployé n'importe où, des stations de travail d'entreprise locales aux environnements cloud mondiaux. Les développeurs peuvent accéder aux poids directement via Hugging Face, les affiner en utilisant des plateformes comme Unsloth, ou déployer le modèle via des services gérés tels que Together AI, Oracle Cloud Infrastructure (OCI) Generative AI, Perplexity, Lightning AI et DeepInfra. Notamment, son empreinte optimisée permet un déploiement sur un seul GPU sur le matériel NVIDIA H200 ou H100, abaissant considérablement la barrière à l'entrée pour les petites équipes d'ingénierie.
Les applications pratiques de Nemotron 3 Super sont vastes, particulièrement dans les industries nécessitant une résolution de problèmes techniques profonds et une orchestration autonome.
Alors que nous regardons vers l'avenir de l'IA d'entreprise, il est clair que la simple mise à l'échelle des modèles denses n'est plus une voie viable pour les systèmes multi-agents. Le Nemotron 3 Super de NVIDIA représente un pivot magistral vers une intelligence efficace. En fusionnant de manière transparente les capacités de contexte long de Mamba avec les prouesses de raisonnement des Transformers, et en optimisant le tout grâce au MoE latent et à la prédiction multi-jetons, NVIDIA a établi une nouvelle référence pour la communauté de l'IA open-source.
Pour les développeurs, les chercheurs et les organisations d'entreprise visant à construire des agents d'IA robustes, évolutifs et autonomes, Nemotron 3 Super n'est pas seulement une mise à niveau incrémentielle — c'est le moteur fondamental qui alimentera la prochaine génération de raisonnement agentique (agentic reasoning). Chez Creati.ai, nous continuerons à surveiller de près comment la communauté open-source exploite ces outils sans précédent pour construire les flux de travail autonomes de demain.