
Bei Creati.ai beobachten wir ständig die Entwicklung der künstlichen Intelligenz (Artificial Intelligence, AI), und die neueste Veröffentlichung von NVIDIA markiert einen entscheidenden Moment für autonome Systeme. Am 11. März 2026 stellte NVIDIA offiziell Nemotron 3 Super vor, ein hybrides Mamba-Transformer Mixture-of-Experts (MoE) Modell mit offenen Gewichten (Open-Weights), das speziell für komplexe Aufgaben des agentenbasierten Schlussfolgerns (Agentic Reasoning) entwickelt wurde. Konzipiert, um die prohibitiven Rechenkosten und Kontextbeschränkungen zu mildern, die typischerweise mit Multi-Agenten-Workflows verbunden sind, verspricht dieses Kraftpaket mit 120 Milliarden Parametern – das mit nur 12 Milliarden aktiven Parametern pro Token arbeitet –, die Art und Weise zu definieren, wie KI-Anwendungen für Unternehmen entwickelt und bereitgestellt werden.
Da sich KI in Unternehmen über einfache Chatbot-Schnittstellen hinaus zu anspruchsvollen Multi-Agenten-Orchestrierungen entwickelt, stehen Entwickler vor zwei kritischen Engpässen. Der erste ist das, was Branchenexperten als „Kontextexplosion“ (Context Explosion) bezeichnen. Multi-Agenten-Workflows generieren häufig bis zu 15-mal mehr Token als standardmäßige konversationelle KI. Dies geschieht, weil Agenten bei jedem Schritt ständig vollständige Historien, Zwischenschritte der Argumentation und Werkzeugausgaben austauschen müssen. Bei längeren Aufgaben führt dieser massive Datenzustrom oft zu einer „Zielabweichung“ (Goal Drift), bei der die KI allmählich die Ausrichtung auf ihr ursprüngliches Ziel verliert.
Der zweite Engpass ist die „Denksteuer“ (Thinking Tax). Ein massives, dichtes Sprachmodell zu verlangen, jede kleinere Teilaufgabe in einem autonomen Workflow auszuführen, ist rechnerisch exorbitant teuer und für praktische, reale Anwendungen schmerzhaft langsam. Durch die Nutzung einer hochoptimierten Architektur adressiert Nemotron 3 Super diese Einschränkungen direkt. Es liefert mehr als das Fünffache des Durchsatzes der vorherigen Nemotron-Super-Iteration und ermöglicht es autonomen Agenten, kontinuierlich und in großem Maßstab zu arbeiten, ohne die Rechenbudgets zu sprengen.
Nemotron 3 Super ist nicht bloß eine skalierte Version früherer Modelle wie des Nemotron 3 Nano; es führt tiefgreifende architektonische Innovationen ein, die das Effizienz-Genauigkeits-Paradigma für Hochleistungs-Reasoning-Engines neu definieren.
Das Grundgerüst des Modells verschachtelt elegant zwei verschiedene Schichttypen, um die Leistung zu maximieren. Mamba-2-Schichten bewältigen den Großteil der Sequenzverarbeitung. Als Zustandsraummodelle (State Space Models, SSMs) bieten sie eine lineare Zeitkomplexität im Verhältnis zur Sequenzlänge. Diese Effizienz ist genau das, was ein massives Kontextfenster von 1 Million Token von einem theoretischen Konzept in ein hochpraktisches Werkzeug verwandelt. Dazwischen geschaltet sind Transformer-Attention-Schichten, die strategisch in wichtigen Tiefen platziert sind, um das fortschrittliche, feinkörnige Schlussfolgern voranzutreiben, das für komplexe Codierungs-, Mathematik- und mehrstufige Logikaufgaben erforderlich ist.
NVIDIA hat dieses hybride Fundament zusätzlich durch zwei Spitzentechnologien ergänzt:
Der Aufbau eines Modells, das zum autonomen Schlussfolgern fähig ist, erfordert mehr als nur eine innovative Architektur; es erfordert eine akribische und umfangreiche Trainings-Pipeline. NVIDIA trainierte Nemotron 3 Super in drei aufeinanderfolgenden Phasen. Erstens etablierte das Vortraining (Pretraining) ein breites Weltwissen unter Verwendung von 10 Billionen kuratierten Token, trainiert über insgesamt 25 Billionen gesehene Token, zusammen mit zusätzlichen 10 Milliarden Token, die sich speziell auf logisches Schließen konzentrierten, und 15 Millionen Codierungsproblemen. Zweitens formte das überwachte Feintuning (Supervised Fine-Tuning, SFT) das Verhalten des Modells über verschiedene agentenbasierte Aufgabentypen hinweg. Schließlich verfeinerte Multi-Umgebungs-Bestärkendes-Lernen (Reinforcement Learning, RL) dieses Verhalten anhand verifizierbarer Ergebnisse, um eine hochpräzise Werkzeugaufrufung und -ausführung zu garantieren.
In unabhängigen Evaluierungen hat sich dieses strenge Training massiv ausgezahlt. Auf den Bestenlisten von Artificial Analysis belegte Nemotron 3 Super den Spitzenplatz für Effizienz und Offenheit. In direkten Vergleichen zeigte es eine höhere Intelligenz und einen bis zu 11 % höheren Durchsatz pro NVIDIA B200 GPU als vergleichbare Modelle wie gpt-oss-120b. Im Vergleich zu Qwen3.5-122B erreicht Nemotron 3 Super eine gleichwertige oder überlegene Genauigkeit bei gleichzeitig drastisch höherem Inferenzdurchsatz für Aufgaben mit langem Kontext.
Um den Sprung in den Fähigkeiten besser zu verstehen, haben wir die Kernspezifikationen des Nemotron 3 Super Modells zusammengestellt.
| Merkmal | Detail | Vorteil |
|---|---|---|
| Architektur | Hybrides Mamba-Transformer MoE | Kombiniert effiziente Sequenzverarbeitung in linearer Zeit mit fortgeschrittenen Reasoning-Fähigkeiten. Optimiert für Multi-Agenten-Systeme. |
| Parameteranzahl | 120 Mrd. Gesamt 12 Mrd. Aktiv |
Reduziert drastisch die Inferenzkosten und die „Denksteuer“, während die Intelligenz eines massiven Modells erhalten bleibt. |
| Kontextfenster | 1 Million Token | Behält den vollständigen Workflow-Status im Speicher, was Zielabweichungen bei längeren autonomen Aufgaben verhindert. |
| Wichtige Innovationen | Latentes MoE Multi-Token-Vorhersage (MTP) |
Ruft 4-mal mehr Experten für die gleichen Rechenkosten auf. Beschleunigt die Generierung durch integriertes spekulatives Dekodieren. |
| Präzision | NVFP4 Pre-training | Gewährleistet hohen Durchsatz und optimale Hardware-Auslastung auf NVIDIA-GPUs der nächsten Generation. |
Wir bei Creati.ai sind fest davon überzeugt, dass die Open-Source-Verfügbarkeit der primäre Katalysator für schnelle KI-Innovationen ist. NVIDIA teilt diese Philosophie und veröffentlicht Nemotron 3 Super mit einem beispiellosen Maß an Transparenz. Das Modell bietet vollständig offene Gewichte, Rezepte und vor allem offene Datensätze. Diese Datensätze wurden aggressiv dedupliziert und qualitätsgefiltert, um das Signal-Rausch-Verhältnis zu maximieren und Entwicklern reproduzierbare Bausteine für agentenbasierte KI zu geben.
Die Unterstützung des Ökosystems für Nemotron 3 Super ist weitreichend. Das Modell ist über führende Inferenzplattformen verfügbar und als NVIDIA NIM Microservice verpackt, was bedeutet, dass es überall eingesetzt werden kann, von lokalen Unternehmens-Workstations bis hin zu globalen Cloud-Umgebungen. Entwickler können direkt über Hugging Face auf die Gewichte zugreifen, sie mit Plattformen wie Unsloth feintunen oder das Modell über verwaltete Dienste wie Together AI, Oracle Cloud Infrastructure (OCI) Generative AI, Perplexity, Lightning AI und DeepInfra bereitstellen. Bemerkenswert ist, dass sein optimierter Fußabdruck den Einsatz auf einer einzelnen GPU auf NVIDIA H200- oder H100-Hardware ermöglicht, was die Eintrittsbarriere für kleinere Engineering-Teams erheblich senkt.
Die praktischen Anwendungen von Nemotron 3 Super sind vielfältig, insbesondere in Branchen, die tiefgreifende technische Problemlösungen und autonome Orchestrierung erfordern.
Wenn wir in die Zukunft der KI in Unternehmen blicken, ist klar, dass das einfache Hochskalieren dichter Modelle kein gangbarer Weg mehr für Multi-Agenten-Systeme ist. NVIDIAs Nemotron 3 Super stellt einen meisterhaften Schwenk hin zu effizienter Intelligenz dar. Durch die nahtlose Verschmelzung der Long-Context-Fähigkeiten von Mamba mit der Reasoning-Power von Transformern und die Optimierung durch Latentes MoE und Multi-Token-Vorhersage hat NVIDIA einen neuen Maßstab für die Open-Source-KI-Gemeinschaft gesetzt.
Für Entwickler, Forscher und Unternehmensorganisationen, die darauf abzielen, robuste, skalierbare und autonome KI-Agenten aufzubauen, ist Nemotron 3 Super nicht nur ein inkrementelles Upgrade – es ist der grundlegende Motor, der die nächste Generation des agentenbasierten Schlussfolgerns (Agentic Reasoning) antreiben wird. Wir bei Creati.ai werden weiterhin genau beobachten, wie die Open-Source-Community diese beispiellosen Werkzeuge nutzt, um die autonomen Workflows von morgen zu erstellen.