Qué pasó. El 28 de abril de 2026, NVIDIA publicó Nemotron 3 Nano Omni, un modelo abierto omni-modal de 30B parámetros (arquitectura híbrida con 23 capas Mamba, 23 capas Mixture-of-Experts con 128 expertos y 6 capas de grouped-query attention) capaz de procesar simultáneamente texto, imagen, audio y vídeo. Los pesos están en Hugging Face en tres precisiones: BF16, FP8 y NVFP4 (esta última comprime el modelo a unos 18B). Internamente combina el vision encoder C-RADIOv4-H, el audio encoder Parakeet-TDT-0.6B-v2 y el backbone Nemotron 3 Nano 30B-A3B.
Por qué importa. Las cifras del comunicado dibujan un modelo orientado a casos de uso reales más allá del chat. Acepta imágenes de hasta 1.840×1.840 píxeles, analiza documentos de 100 páginas o más, y soporta contexto de audio de más de cinco horas (entrenado hasta 1.200 segundos). En benchmarks oficiales rinde 65,8 en OCRBenchV2-En, 57,5 en MMLongBench-Doc, 72,2 en Video-MME y 89,4 en VoiceBench. NVIDIA reporta hasta 9× de throughput y 2,9× de velocidad en razonamiento single-stream en casos multimodales frente a alternativas, además de 7,4× de eficiencia en multi-documento y 9,2× en vídeo. La pieza ofrece automatic speech recognition, comprensión audio-vídeo, uso agéntico de ordenador (GUI) y razonamiento general en un único modelo. Para entornos que necesiten correr el modelo en local, la cuantización NVFP4 reduce el tamaño efectivo a ~18B.
Cambios destacados (texto adaptado del comunicado oficial):
- Omni-modal: texto, imagen, audio y vídeo en un solo modelo. Casos descritos por NVIDIA: análisis de documentos extensos, ASR, comprensión audio-vídeo, uso agéntico de GUI y razonamiento general.
- Arquitectura híbrida: 23 capas Mamba (state-space), 23 capas MoE con 128 expertos y top-6 routing, 6 capas de grouped-query attention.
- Pesos en Hugging Face:
nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16,-FP8y-NVFP4. - Documentos largos: hasta 100+ páginas; OCRBenchV2-En 65,8, MMLongBench-Doc 57,5, CharXiv-reasoning 63,6.
- Audio: contexto de hasta 5+ horas (entrenado hasta 20 minutos); VoiceBench 89,4.
- Vídeo: Video-MME 72,2, WorldSense (vídeo+audio) 55,4, DailyOmni (vídeo+audio) 74,1.
- GUI / uso de ordenador: ScreenSpot-Pro 57,8, OSWorld 47,4.
- Eficiencia (cifras NVIDIA frente a alternativas): hasta 9× throughput, 2,9× razonamiento single-stream, 7,4× en multi-documento, 9,2× en vídeo.
Lo que sigue. Habrá que ver, en evaluaciones independientes, si los números de eficiencia que reporta NVIDIA se sostienen en hardware fuera de su stack y qué ecosistemas de runtime (vLLM, llama.cpp, MLX) integran soporte para la NVFP4. La pieza llega justo cuando OpenClaw incorporaba a NVIDIA como proveedor bundled en v2026.4.29 y vLLM publicaba su patch v0.20.1 con foco en estabilizar DeepSeek V4. El movimiento de fondo es el mismo: modelos abiertos pesados que aspiran a moverse a entornos privados.
Fuentes: NVIDIA en Hugging Face: Introducing Nemotron 3 Nano Omni, Pesos BF16 en Hugging Face, Reporte técnico (arXiv).