NVIDIA stellt Nemotron 3 Super vor: Offenes hybrides Mamba-Transformer-MoE für agentisches Schlussfolgern

Bei Creati.ai beobachten wir ständig die Entwicklung der künstlichen Intelligenz (Artificial Intelligence, AI), und die neueste Veröffentlichung von NVIDIA markiert einen entscheidenden Moment für autonome Systeme. Am 11. März 2026 stellte NVIDIA offiziell Nemotron 3 Super vor, ein hybrides Mamba-Transformer Mixture-of-Experts (MoE) Modell mit offenen Gewichten (Open-Weights), das speziell für komplexe Aufgaben des agentenbasierten Schlussfolgerns (Agentic Reasoning) entwickelt wurde. Konzipiert, um die prohibitiven Rechenkosten und Kontextbeschränkungen zu mildern, die typischerweise mit Multi-Agenten-Workflows verbunden sind, verspricht dieses Kraftpaket mit 120 Milliarden Parametern – das mit nur 12 Milliarden aktiven Parametern pro Token arbeitet –, die Art und Weise zu definieren, wie KI-Anwendungen für Unternehmen entwickelt und bereitgestellt werden.

Die zentrale Herausforderung: Lösung der Kontextexplosion und der „Denksteuer“

Da sich KI in Unternehmen über einfache Chatbot-Schnittstellen hinaus zu anspruchsvollen Multi-Agenten-Orchestrierungen entwickelt, stehen Entwickler vor zwei kritischen Engpässen. Der erste ist das, was Branchenexperten als „Kontextexplosion“ (Context Explosion) bezeichnen. Multi-Agenten-Workflows generieren häufig bis zu 15-mal mehr Token als standardmäßige konversationelle KI. Dies geschieht, weil Agenten bei jedem Schritt ständig vollständige Historien, Zwischenschritte der Argumentation und Werkzeugausgaben austauschen müssen. Bei längeren Aufgaben führt dieser massive Datenzustrom oft zu einer „Zielabweichung“ (Goal Drift), bei der die KI allmählich die Ausrichtung auf ihr ursprüngliches Ziel verliert.

Der zweite Engpass ist die „Denksteuer“ (Thinking Tax). Ein massives, dichtes Sprachmodell zu verlangen, jede kleinere Teilaufgabe in einem autonomen Workflow auszuführen, ist rechnerisch exorbitant teuer und für praktische, reale Anwendungen schmerzhaft langsam. Durch die Nutzung einer hochoptimierten Architektur adressiert Nemotron 3 Super diese Einschränkungen direkt. Es liefert mehr als das Fünffache des Durchsatzes der vorherigen Nemotron-Super-Iteration und ermöglicht es autonomen Agenten, kontinuierlich und in großem Maßstab zu arbeiten, ohne die Rechenbudgets zu sprengen.

Architektonische Durchbrüche: Hybrides Mamba-Transformer MoE

Nemotron 3 Super ist nicht bloß eine skalierte Version früherer Modelle wie des Nemotron 3 Nano; es führt tiefgreifende architektonische Innovationen ein, die das Effizienz-Genauigkeits-Paradigma für Hochleistungs-Reasoning-Engines neu definieren.

Mamba-2 trifft auf Transformer-Attention

Das Grundgerüst des Modells verschachtelt elegant zwei verschiedene Schichttypen, um die Leistung zu maximieren. Mamba-2-Schichten bewältigen den Großteil der Sequenzverarbeitung. Als Zustandsraummodelle (State Space Models, SSMs) bieten sie eine lineare Zeitkomplexität im Verhältnis zur Sequenzlänge. Diese Effizienz ist genau das, was ein massives Kontextfenster von 1 Million Token von einem theoretischen Konzept in ein hochpraktisches Werkzeug verwandelt. Dazwischen geschaltet sind Transformer-Attention-Schichten, die strategisch in wichtigen Tiefen platziert sind, um das fortschrittliche, feinkörnige Schlussfolgern voranzutreiben, das für komplexe Codierungs-, Mathematik- und mehrstufige Logikaufgaben erforderlich ist.

Latentes MoE und Multi-Token-Vorhersage (MTP)

NVIDIA hat dieses hybride Fundament zusätzlich durch zwei Spitzentechnologien ergänzt:

Latentes Mixture-of-Experts (Latent MoE): Im Gegensatz zu standardmäßigen MoE-Architekturen komprimiert Latentes MoE (Latent MoE) Token, bevor sie die Expertenschichten erreichen. Dieser architektonische Sprung ermöglicht es dem Modell, vier Experten-Spezialisten für die Inferenzkosten zu aktivieren, die traditionell für nur einen erforderlich sind. Das Ergebnis ist eine feinkörnigere Spezialisierung, stärkeres Schlussfolgern während des Trainings und eine wesentlich höhere Genauigkeit pro FLOP.
Multi-Token-Vorhersage (Multi-Token Prediction, MTP): Abweichend von der herkömmlichen Generierung des nächsten Tokens befähigt MTP das Modell, mehrere zukünftige Token in einem einzigen Vorwärtspass vorherzusagen. Dies reduziert die Generierungslatenz für lange Sequenzen drastisch und ermöglicht ein integriertes spekulatives Dekodieren (Speculative Decoding), was im Vergleich zu aktuellen führenden offenen Modellen hochbeschleunigte Token-Generierungsgeschwindigkeiten liefert.

Strenges Training und Benchmark-Dominanz

Der Aufbau eines Modells, das zum autonomen Schlussfolgern fähig ist, erfordert mehr als nur eine innovative Architektur; es erfordert eine akribische und umfangreiche Trainings-Pipeline. NVIDIA trainierte Nemotron 3 Super in drei aufeinanderfolgenden Phasen. Erstens etablierte das Vortraining (Pretraining) ein breites Weltwissen unter Verwendung von 10 Billionen kuratierten Token, trainiert über insgesamt 25 Billionen gesehene Token, zusammen mit zusätzlichen 10 Milliarden Token, die sich speziell auf logisches Schließen konzentrierten, und 15 Millionen Codierungsproblemen. Zweitens formte das überwachte Feintuning (Supervised Fine-Tuning, SFT) das Verhalten des Modells über verschiedene agentenbasierte Aufgabentypen hinweg. Schließlich verfeinerte Multi-Umgebungs-Bestärkendes-Lernen (Reinforcement Learning, RL) dieses Verhalten anhand verifizierbarer Ergebnisse, um eine hochpräzise Werkzeugaufrufung und -ausführung zu garantieren.

In unabhängigen Evaluierungen hat sich dieses strenge Training massiv ausgezahlt. Auf den Bestenlisten von Artificial Analysis belegte Nemotron 3 Super den Spitzenplatz für Effizienz und Offenheit. In direkten Vergleichen zeigte es eine höhere Intelligenz und einen bis zu 11 % höheren Durchsatz pro NVIDIA B200 GPU als vergleichbare Modelle wie gpt-oss-120b. Im Vergleich zu Qwen3.5-122B erreicht Nemotron 3 Super eine gleichwertige oder überlegene Genauigkeit bei gleichzeitig drastisch höherem Inferenzdurchsatz für Aufgaben mit langem Kontext.

Technische Spezifikationen auf einen Blick

Um den Sprung in den Fähigkeiten besser zu verstehen, haben wir die Kernspezifikationen des Nemotron 3 Super Modells zusammengestellt.

Merkmal	Detail	Vorteil
Architektur	Hybrides Mamba-Transformer MoE	Kombiniert effiziente Sequenzverarbeitung in linearer Zeit mit fortgeschrittenen Reasoning-Fähigkeiten. Optimiert für Multi-Agenten-Systeme.
Parameteranzahl	120 Mrd. Gesamt 12 Mrd. Aktiv	Reduziert drastisch die Inferenzkosten und die „Denksteuer“, während die Intelligenz eines massiven Modells erhalten bleibt.
Kontextfenster	1 Million Token	Behält den vollständigen Workflow-Status im Speicher, was Zielabweichungen bei längeren autonomen Aufgaben verhindert.
Wichtige Innovationen	Latentes MoE Multi-Token-Vorhersage (MTP)	Ruft 4-mal mehr Experten für die gleichen Rechenkosten auf. Beschleunigt die Generierung durch integriertes spekulatives Dekodieren.
Präzision	NVFP4 Pre-training	Gewährleistet hohen Durchsatz und optimale Hardware-Auslastung auf NVIDIA-GPUs der nächsten Generation.

Priszedenzlose Offenheit und Unternehmensintegration

Wir bei Creati.ai sind fest davon überzeugt, dass die Open-Source-Verfügbarkeit der primäre Katalysator für schnelle KI-Innovationen ist. NVIDIA teilt diese Philosophie und veröffentlicht Nemotron 3 Super mit einem beispiellosen Maß an Transparenz. Das Modell bietet vollständig offene Gewichte, Rezepte und vor allem offene Datensätze. Diese Datensätze wurden aggressiv dedupliziert und qualitätsgefiltert, um das Signal-Rausch-Verhältnis zu maximieren und Entwicklern reproduzierbare Bausteine für agentenbasierte KI zu geben.

Breite Verfügbarkeit im Ökosystem

Die Unterstützung des Ökosystems für Nemotron 3 Super ist weitreichend. Das Modell ist über führende Inferenzplattformen verfügbar und als NVIDIA NIM Microservice verpackt, was bedeutet, dass es überall eingesetzt werden kann, von lokalen Unternehmens-Workstations bis hin zu globalen Cloud-Umgebungen. Entwickler können direkt über Hugging Face auf die Gewichte zugreifen, sie mit Plattformen wie Unsloth feintunen oder das Modell über verwaltete Dienste wie Together AI, Oracle Cloud Infrastructure (OCI) Generative AI, Perplexity, Lightning AI und DeepInfra bereitstellen. Bemerkenswert ist, dass sein optimierter Fußabdruck den Einsatz auf einer einzelnen GPU auf NVIDIA H200- oder H100-Hardware ermöglicht, was die Eintrittsbarriere für kleinere Engineering-Teams erheblich senkt.

Befähigung von Agenten-Workflows der nächsten Generation

Die praktischen Anwendungen von Nemotron 3 Super sind vielfältig, insbesondere in Branchen, die tiefgreifende technische Problemlösungen und autonome Orchestrierung erfordern.

Software-Engineering und Entwicklung: Ein von Nemotron 3 Super angetriebener Codierungs-Agent kann eine gesamte Unternehmens-Codebasis in sein 1-Million-Token-Kontextfenster laden. Dies ermöglicht eine End-to-End-Codegenerierung, nahtloses Debugging und umfassendes Refactoring, ohne dass eine fehleranfällige Dokumentensegmentierung oder fragmentierte Retrieval-Augmented Generation (RAG)-Pipelines erforderlich sind.
Cybersecurity-Triage: In sicherheitskritischen Umgebungen mit hohem Einsatz müssen autonome Agenten schnell Tausende von Protokollen und Systemzuständen verarbeiten. Die hochpräzise Werkzeugaufrufung des Modells stellt sicher, dass diese Agenten zuverlässig durch massive Funktionsbibliotheken navigieren können, wodurch Ausführungsfehler bei der Bedrohungstriage in Echtzeit vermieden werden.
Finanz- und wissenschaftliche Forschung: Für tiefe Literaturrecherchen oder molekulares Verständnis können Agenten Tausende von Seiten mit Finanzberichten oder wissenschaftlichen Arbeiten gleichzeitig in den Speicher laden. Dies eliminiert die Notwendigkeit, über fragmentierte Konversationen hinweg erneut Schlussfolgerungen zu ziehen, was die Forschungseffizienz exponentiell verbessert und umfassendes mehrstufiges Reasoning ermöglicht.

Das abschließende Urteil von Creati.ai: Eine neue Ära für Open AI

Wenn wir in die Zukunft der KI in Unternehmen blicken, ist klar, dass das einfache Hochskalieren dichter Modelle kein gangbarer Weg mehr für Multi-Agenten-Systeme ist. NVIDIAs Nemotron 3 Super stellt einen meisterhaften Schwenk hin zu effizienter Intelligenz dar. Durch die nahtlose Verschmelzung der Long-Context-Fähigkeiten von Mamba mit der Reasoning-Power von Transformern und die Optimierung durch Latentes MoE und Multi-Token-Vorhersage hat NVIDIA einen neuen Maßstab für die Open-Source-KI-Gemeinschaft gesetzt.

Für Entwickler, Forscher und Unternehmensorganisationen, die darauf abzielen, robuste, skalierbare und autonome KI-Agenten aufzubauen, ist Nemotron 3 Super nicht nur ein inkrementelles Upgrade – es ist der grundlegende Motor, der die nächste Generation des agentenbasierten Schlussfolgerns (Agentic Reasoning) antreiben wird. Wir bei Creati.ai werden weiterhin genau beobachten, wie die Open-Source-Community diese beispiellosen Werkzeuge nutzt, um die autonomen Workflows von morgen zu erstellen.