
At Creati.ai, monitoreamos constantemente la evolución de la inteligencia artificial, y el último lanzamiento de NVIDIA marca un momento decisivo para los sistemas autónomos. El 11 de marzo de 2026, NVIDIA presentó oficialmente Nemotron 3 Super, un modelo de Mezcla de Expertos (Mixture-of-Experts, MoE) híbrido Mamba-Transformer de pesos abiertos, diseñado específicamente para potenciar tareas complejas de razonamiento agéntico (agentic reasoning). Diseñado para mitigar los prohibitivos costos de cómputo y las limitaciones de contexto típicamente asociados con los flujos de trabajo multi-agente, este coloso de 120 mil millones de parámetros —que opera con solo 12 mil millones de parámetros activos por token— promete redefinir cómo se construyen y despliegan las aplicaciones de IA empresarial.
A medida que la IA empresarial avanza más allá de las simples interfaces de chatbot hacia orquestaciones sofisticadas de múltiples agentes, los desarrolladores se enfrentan a dos cuellos de botella críticos. El primero es lo que los expertos de la industria denominan "explosión de contexto" (context explosion). Los flujos de trabajo multi-agente generan frecuentemente hasta 15 veces más tokens que la IA conversacional estándar. Esto ocurre porque los agentes deben intercambiar constantemente historiales completos, pasos de razonamiento intermedio y salidas de herramientas en cada turno. En tareas prolongadas, esta afluencia masiva de datos a menudo conduce a la "deriva de objetivos" (goal drift), donde la IA pierde gradualmente la alineación con su objetivo original.
El segundo cuello de botella es el "impuesto al pensamiento" (thinking tax). Requerir un modelo de lenguaje denso y masivo para ejecutar cada subtarea menor en un flujo de trabajo autónomo es computacionalmente exorbitante y dolorosamente lento para aplicaciones prácticas del mundo real. Al aprovechar una arquitectura altamente optimizada, Nemotron 3 Super aborda directamente estas limitaciones. Ofrece más de cinco veces el rendimiento de la iteración anterior de Nemotron Super, lo que permite que los agentes autónomos funcionen continuamente a escala sin agotar los presupuestos de cómputo.
Nemotron 3 Super no es simplemente una versión ampliada de modelos anteriores como el Nemotron 3 Nano; introduce innovaciones arquitectónicas profundas que redefinen el paradigma de eficiencia-precisión para motores de razonamiento de alta capacidad.
La columna vertebral del modelo entrelaza elegantemente dos tipos de capas distintos para maximizar el rendimiento. Las capas Mamba-2 manejan la mayor parte del procesamiento de secuencias. Como modelos de espacio de estados (State Space Models, SSM), proporcionan una complejidad de tiempo lineal en relación con la longitud de la secuencia. Esta eficiencia es precisamente lo que transforma una ventana de contexto masiva de 1 millón de tokens de un concepto teórico en una herramienta altamente práctica. Entrelazadas con estas se encuentran las capas de atención Transformer (Transformer attention layers), que se colocan estratégicamente en profundidades clave para impulsar el razonamiento avanzado y detallado requerido para tareas complejas de codificación, matemáticas y lógica de múltiples pasos.
NVIDIA ha aumentado aún más esta base híbrida con dos técnicas de vanguardia:
Construir un modelo capaz de razonamiento autónomo requiere más que solo una arquitectura innovadora; demanda un canal de entrenamiento meticuloso y vasto. NVIDIA entrenó a Nemotron 3 Super en tres fases secuenciales. Primero, el preentrenamiento estableció un amplio conocimiento del mundo utilizando 10 billones (trillion) de tokens seleccionados, entrenados sobre un total de 25 billones de tokens vistos, junto con 10 mil millones de tokens adicionales enfocados específicamente en el razonamiento y 15 millones de problemas de codificación. Segundo, el ajuste fino supervisado (Supervised Fine-Tuning, SFT) moldeó el comportamiento del modelo a través de diversos tipos de tareas agénticas. Finalmente, el aprendizaje por refuerzo en entornos múltiples (Reinforcement Learning, RL) refinó este comportamiento frente a resultados verificables para garantizar llamadas a herramientas y ejecución de alta precisión.
En evaluaciones independientes, este entrenamiento riguroso ha rendido enormes dividendos. En las tablas de clasificación de Artificial Analysis, Nemotron 3 Super obtuvo el primer lugar en eficiencia y apertura. En comparaciones directas, demostró una mayor inteligencia y hasta un 11% más de rendimiento por GPU NVIDIA B200 que modelos comparables como gpt-oss-120b. En comparación con Qwen3.5-122B, Nemotron 3 Super logra una precisión similar o superior al tiempo que ofrece un rendimiento de inferencia drásticamente mayor para tareas de contexto largo.
Para comprender mejor el salto en las capacidades, hemos compilado las especificaciones principales del modelo Nemotron 3 Super.
| Característica | Detalle | Beneficio |
|---|---|---|
| Arquitectura | Híbrida Mamba-Transformer MoE | Combina un procesamiento eficiente de secuencias en tiempo lineal con capacidades de razonamiento avanzado. Optimizado para sistemas multi-agente. |
| Conteo de Parámetros | 120B Total 12B Activos |
Reduce drásticamente los costos de inferencia y el "impuesto al pensamiento" mientras mantiene la inteligencia de un modelo masivo. |
| Ventana de Contexto | 1 Millón de Tokens | Retiene el estado completo del flujo de trabajo en la memoria, evitando la deriva de objetivos en tareas autónomas prolongadas. |
| Innovaciones Clave | Latent MoE Multi-Token Prediction (MTP) |
Llama a 4 veces más expertos por el mismo costo de cómputo. Acelera la generación a través de la decodificación especulativa integrada. |
| Precisión | Pre-entrenamiento NVFP4 | Asegura un alto rendimiento y una utilización óptima del hardware en las GPUs NVIDIA de próxima generación. |
En Creati.ai, creemos firmemente que la disponibilidad de código abierto es el catalizador principal para la rápida innovación en IA. NVIDIA comparte esta filosofía, lanzando Nemotron 3 Super con un nivel de transparencia sin precedentes. El modelo presenta pesos, recetas y, lo más notable, conjuntos de datos completamente abiertos. Estos conjuntos de datos fueron desduplicados agresivamente y filtrados por calidad para maximizar la relación señal-ruido, brindando a los desarrolladores bloques de construcción reproducibles para una IA agéntica.
El soporte del ecosistema para Nemotron 3 Super es expansivo. El modelo está disponible en las principales plataformas de inferencia y empaquetado como un microservicio NVIDIA NIM, lo que significa que puede desplegarse en cualquier lugar, desde estaciones de trabajo empresariales locales hasta entornos de nube globales. Los desarrolladores pueden acceder a los pesos directamente a través de Hugging Face, ajustarlos usando plataformas como Unsloth o desplegar el modelo a través de servicios gestionados como Together AI, Oracle Cloud Infrastructure (OCI) Generative AI, Perplexity, Lightning AI y DeepInfra. Cabe destacar que su huella optimizada permite el despliegue en una sola GPU en hardware NVIDIA H200 o H100, reduciendo severamente la barrera de entrada para equipos de ingeniería más pequeños.
Las aplicaciones prácticas de Nemotron 3 Super son vastas, particularmente en industrias que requieren una resolución profunda de problemas técnicos y orquestación autónoma.
Al mirar hacia el futuro de la IA empresarial, está claro que simplemente escalar modelos densos ya no es un camino viable para los sistemas multi-agente. El Nemotron 3 Super de NVIDIA representa un giro magistral hacia la inteligencia eficiente. Al fusionar a la perfección las capacidades de contexto largo de Mamba con la destreza de razonamiento de los Transformers, y optimizarlo todo a través de Latent MoE y Multi-Token Prediction, NVIDIA ha establecido un nuevo estándar para la comunidad de IA de código abierto.
Para desarrolladores, investigadores y organizaciones empresariales que buscan construir agentes de IA robustos, escalables y autónomos, Nemotron 3 Super no es solo una actualización incremental: es el motor fundacional que impulsará la próxima generación de razonamiento agéntico. Nosotros en Creati.ai continuaremos monitoreando de cerca cómo la comunidad de código abierto aprovecha estas herramientas sin precedentes para construir los flujos de trabajo autónomos del mañana.