NVIDIA presenta Nemotron 3 Super: MoE híbrido abierto Mamba-Transformer para razonamiento basado en agentes

At Creati.ai, monitoreamos constantemente la evolución de la inteligencia artificial, y el último lanzamiento de NVIDIA marca un momento decisivo para los sistemas autónomos. El 11 de marzo de 2026, NVIDIA presentó oficialmente Nemotron 3 Super, un modelo de Mezcla de Expertos (Mixture-of-Experts, MoE) híbrido Mamba-Transformer de pesos abiertos, diseñado específicamente para potenciar tareas complejas de razonamiento agéntico (agentic reasoning). Diseñado para mitigar los prohibitivos costos de cómputo y las limitaciones de contexto típicamente asociados con los flujos de trabajo multi-agente, este coloso de 120 mil millones de parámetros —que opera con solo 12 mil millones de parámetros activos por token— promete redefinir cómo se construyen y despliegan las aplicaciones de IA empresarial.

El Desafío Principal: Resolver la Explosión de Contexto y el Impuesto al Pensamiento

A medida que la IA empresarial avanza más allá de las simples interfaces de chatbot hacia orquestaciones sofisticadas de múltiples agentes, los desarrolladores se enfrentan a dos cuellos de botella críticos. El primero es lo que los expertos de la industria denominan "explosión de contexto" (context explosion). Los flujos de trabajo multi-agente generan frecuentemente hasta 15 veces más tokens que la IA conversacional estándar. Esto ocurre porque los agentes deben intercambiar constantemente historiales completos, pasos de razonamiento intermedio y salidas de herramientas en cada turno. En tareas prolongadas, esta afluencia masiva de datos a menudo conduce a la "deriva de objetivos" (goal drift), donde la IA pierde gradualmente la alineación con su objetivo original.

El segundo cuello de botella es el "impuesto al pensamiento" (thinking tax). Requerir un modelo de lenguaje denso y masivo para ejecutar cada subtarea menor en un flujo de trabajo autónomo es computacionalmente exorbitante y dolorosamente lento para aplicaciones prácticas del mundo real. Al aprovechar una arquitectura altamente optimizada, Nemotron 3 Super aborda directamente estas limitaciones. Ofrece más de cinco veces el rendimiento de la iteración anterior de Nemotron Super, lo que permite que los agentes autónomos funcionen continuamente a escala sin agotar los presupuestos de cómputo.

Avances Arquitectónicos: MoE Híbrido Mamba-Transformer

Nemotron 3 Super no es simplemente una versión ampliada de modelos anteriores como el Nemotron 3 Nano; introduce innovaciones arquitectónicas profundas que redefinen el paradigma de eficiencia-precisión para motores de razonamiento de alta capacidad.

Mamba-2 se encuentra con Transformer Attention

La columna vertebral del modelo entrelaza elegantemente dos tipos de capas distintos para maximizar el rendimiento. Las capas Mamba-2 manejan la mayor parte del procesamiento de secuencias. Como modelos de espacio de estados (State Space Models, SSM), proporcionan una complejidad de tiempo lineal en relación con la longitud de la secuencia. Esta eficiencia es precisamente lo que transforma una ventana de contexto masiva de 1 millón de tokens de un concepto teórico en una herramienta altamente práctica. Entrelazadas con estas se encuentran las capas de atención Transformer (Transformer attention layers), que se colocan estratégicamente en profundidades clave para impulsar el razonamiento avanzado y detallado requerido para tareas complejas de codificación, matemáticas y lógica de múltiples pasos.

MoE Latente y Predicción Multi-Token (MTP)

NVIDIA ha aumentado aún más esta base híbrida con dos técnicas de vanguardia:

Mezcla de Expertos Latente (Latent Mixture-of-Experts, MoE): A diferencia de las arquitecturas MoE estándar, Latent MoE comprime los tokens antes de que lleguen a las capas de expertos. Este salto arquitectónico permite al modelo activar cuatro especialistas expertos por el costo de inferencia que tradicionalmente se requiere para uno solo. El resultado es una especialización más detallada, un razonamiento más sólido durante el entrenamiento y una precisión sustancialmente mayor por FLOP.
Predicción Multi-Token (Multi-Token Prediction, MTP): Alejándose de la generación convencional del siguiente token, MTP faculta al modelo para predecir múltiples tokens futuros en una sola pasada hacia adelante. Esto reduce drásticamente la latencia de generación para secuencias largas y permite la decodificación especulativa integrada, entregando velocidades de generación de tokens altamente aceleradas en comparación con los modelos abiertos líderes actuales.

Entrenamiento Riguroso y Dominio de Benchmarks

Construir un modelo capaz de razonamiento autónomo requiere más que solo una arquitectura innovadora; demanda un canal de entrenamiento meticuloso y vasto. NVIDIA entrenó a Nemotron 3 Super en tres fases secuenciales. Primero, el preentrenamiento estableció un amplio conocimiento del mundo utilizando 10 billones (trillion) de tokens seleccionados, entrenados sobre un total de 25 billones de tokens vistos, junto con 10 mil millones de tokens adicionales enfocados específicamente en el razonamiento y 15 millones de problemas de codificación. Segundo, el ajuste fino supervisado (Supervised Fine-Tuning, SFT) moldeó el comportamiento del modelo a través de diversos tipos de tareas agénticas. Finalmente, el aprendizaje por refuerzo en entornos múltiples (Reinforcement Learning, RL) refinó este comportamiento frente a resultados verificables para garantizar llamadas a herramientas y ejecución de alta precisión.

En evaluaciones independientes, este entrenamiento riguroso ha rendido enormes dividendos. En las tablas de clasificación de Artificial Analysis, Nemotron 3 Super obtuvo el primer lugar en eficiencia y apertura. En comparaciones directas, demostró una mayor inteligencia y hasta un 11% más de rendimiento por GPU NVIDIA B200 que modelos comparables como gpt-oss-120b. En comparación con Qwen3.5-122B, Nemotron 3 Super logra una precisión similar o superior al tiempo que ofrece un rendimiento de inferencia drásticamente mayor para tareas de contexto largo.

Especificaciones Técnicas de un Vistazo

Para comprender mejor el salto en las capacidades, hemos compilado las especificaciones principales del modelo Nemotron 3 Super.

Característica	Detalle	Beneficio
Arquitectura	Híbrida Mamba-Transformer MoE	Combina un procesamiento eficiente de secuencias en tiempo lineal con capacidades de razonamiento avanzado. Optimizado para sistemas multi-agente.
Conteo de Parámetros	120B Total 12B Activos	Reduce drásticamente los costos de inferencia y el "impuesto al pensamiento" mientras mantiene la inteligencia de un modelo masivo.
Ventana de Contexto	1 Millón de Tokens	Retiene el estado completo del flujo de trabajo en la memoria, evitando la deriva de objetivos en tareas autónomas prolongadas.
Innovaciones Clave	Latent MoE Multi-Token Prediction (MTP)	Llama a 4 veces más expertos por el mismo costo de cómputo. Acelera la generación a través de la decodificación especulativa integrada.
Precisión	Pre-entrenamiento NVFP4	Asegura un alto rendimiento y una utilización óptima del hardware en las GPUs NVIDIA de próxima generación.

Apertura sin Precedentes e Integración Empresarial

En Creati.ai, creemos firmemente que la disponibilidad de código abierto es el catalizador principal para la rápida innovación en IA. NVIDIA comparte esta filosofía, lanzando Nemotron 3 Super con un nivel de transparencia sin precedentes. El modelo presenta pesos, recetas y, lo más notable, conjuntos de datos completamente abiertos. Estos conjuntos de datos fueron desduplicados agresivamente y filtrados por calidad para maximizar la relación señal-ruido, brindando a los desarrolladores bloques de construcción reproducibles para una IA agéntica.

Amplia Disponibilidad del Ecosistema

El soporte del ecosistema para Nemotron 3 Super es expansivo. El modelo está disponible en las principales plataformas de inferencia y empaquetado como un microservicio NVIDIA NIM, lo que significa que puede desplegarse en cualquier lugar, desde estaciones de trabajo empresariales locales hasta entornos de nube globales. Los desarrolladores pueden acceder a los pesos directamente a través de Hugging Face, ajustarlos usando plataformas como Unsloth o desplegar el modelo a través de servicios gestionados como Together AI, Oracle Cloud Infrastructure (OCI) Generative AI, Perplexity, Lightning AI y DeepInfra. Cabe destacar que su huella optimizada permite el despliegue en una sola GPU en hardware NVIDIA H200 o H100, reduciendo severamente la barrera de entrada para equipos de ingeniería más pequeños.

Potenciando los Flujos de Trabajo Agénticos de Próxima Generación

Las aplicaciones prácticas de Nemotron 3 Super son vastas, particularmente en industrias que requieren una resolución profunda de problemas técnicos y orquestación autónoma.

Ingeniería de Software y Desarrollo: Un agente de codificación potenciado por Nemotron 3 Super puede cargar una base de código empresarial completa en su ventana de contexto de 1 millón de tokens. Esto permite la generación de código de extremo a extremo, una depuración fluida y una refactorización integral sin la necesidad de una segmentación de documentos propensa a errores o canales fragmentados de generación aumentada por recuperación (Retrieval-Augmented Generation, RAG).
Triaje de Ciberseguridad: En entornos de seguridad de alto riesgo, los agentes autónomos deben procesar rápidamente miles de registros y estados del sistema. Las llamadas a herramientas de alta precisión del modelo aseguran que estos agentes puedan navegar de manera confiable por bibliotecas de funciones masivas, evitando errores de ejecución mientras realizan el triaje de amenazas en tiempo real.
Investigación Financiera y Científica: Para búsquedas bibliográficas profundas o comprensión molecular, los agentes pueden cargar miles de páginas de informes financieros o artículos científicos en la memoria simultáneamente. Esto elimina la necesidad de volver a razonar a través de conversaciones fragmentadas, mejorando exponencialmente la eficiencia de la investigación y permitiendo un razonamiento integral de múltiples pasos.

Veredicto Final de Creati.ai: Una Nueva Era para la IA Abierta

Al mirar hacia el futuro de la IA empresarial, está claro que simplemente escalar modelos densos ya no es un camino viable para los sistemas multi-agente. El Nemotron 3 Super de NVIDIA representa un giro magistral hacia la inteligencia eficiente. Al fusionar a la perfección las capacidades de contexto largo de Mamba con la destreza de razonamiento de los Transformers, y optimizarlo todo a través de Latent MoE y Multi-Token Prediction, NVIDIA ha establecido un nuevo estándar para la comunidad de IA de código abierto.

Para desarrolladores, investigadores y organizaciones empresariales que buscan construir agentes de IA robustos, escalables y autónomos, Nemotron 3 Super no es solo una actualización incremental: es el motor fundacional que impulsará la próxima generación de razonamiento agéntico. Nosotros en Creati.ai continuaremos monitoreando de cerca cómo la comunidad de código abierto aprovecha estas herramientas sin precedentes para construir los flujos de trabajo autónomos del mañana.