NVIDIA Nemotron 3 Nano Omni

Qué pasó. El 28 de abril de 2026, NVIDIA publicó Nemotron 3 Nano Omni, un modelo abierto omni-modal de 30B parámetros (arquitectura híbrida con 23 capas Mamba, 23 capas Mixture-of-Experts con 128 expertos y 6 capas de grouped-query attention) capaz de procesar simultáneamente texto, imagen, audio y vídeo. Los pesos están en Hugging Face en tres precisiones: BF16, FP8 y NVFP4 (esta última comprime el modelo a unos 18B). Internamente combina el vision encoder C-RADIOv4-H, el audio encoder Parakeet-TDT-0.6B-v2 y el backbone Nemotron 3 Nano 30B-A3B.

Por qué importa. Las cifras del comunicado dibujan un modelo orientado a casos de uso reales más allá del chat. Acepta imágenes de hasta 1.840×1.840 píxeles, analiza documentos de 100 páginas o más, y soporta contexto de audio de más de cinco horas (entrenado hasta 1.200 segundos). En benchmarks oficiales rinde 65,8 en OCRBenchV2-En, 57,5 en MMLongBench-Doc, 72,2 en Video-MME y 89,4 en VoiceBench. NVIDIA reporta hasta 9× de throughput y 2,9× de velocidad en razonamiento single-stream en casos multimodales frente a alternativas, además de 7,4× de eficiencia en multi-documento y 9,2× en vídeo. La pieza ofrece automatic speech recognition, comprensión audio-vídeo, uso agéntico de ordenador (GUI) y razonamiento general en un único modelo. Para entornos que necesiten correr el modelo en local, la cuantización NVFP4 reduce el tamaño efectivo a ~18B.

Cambios destacados (texto adaptado del comunicado oficial):

Omni-modal: texto, imagen, audio y vídeo en un solo modelo. Casos descritos por NVIDIA: análisis de documentos extensos, ASR, comprensión audio-vídeo, uso agéntico de GUI y razonamiento general.
Arquitectura híbrida: 23 capas Mamba (state-space), 23 capas MoE con 128 expertos y top-6 routing, 6 capas de grouped-query attention.
Pesos en Hugging Face: nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16, -FP8 y -NVFP4.
Documentos largos: hasta 100+ páginas; OCRBenchV2-En 65,8, MMLongBench-Doc 57,5, CharXiv-reasoning 63,6.
Audio: contexto de hasta 5+ horas (entrenado hasta 20 minutos); VoiceBench 89,4.
Vídeo: Video-MME 72,2, WorldSense (vídeo+audio) 55,4, DailyOmni (vídeo+audio) 74,1.
GUI / uso de ordenador: ScreenSpot-Pro 57,8, OSWorld 47,4.
Eficiencia (cifras NVIDIA frente a alternativas): hasta 9× throughput, 2,9× razonamiento single-stream, 7,4× en multi-documento, 9,2× en vídeo.

Lo que sigue. Habrá que ver, en evaluaciones independientes, si los números de eficiencia que reporta NVIDIA se sostienen en hardware fuera de su stack y qué ecosistemas de runtime (vLLM, llama.cpp, MLX) integran soporte para la NVFP4. La pieza llega justo cuando OpenClaw incorporaba a NVIDIA como proveedor bundled en v2026.4.29 y vLLM publicaba su patch v0.20.1 con foco en estabilizar DeepSeek V4. El movimiento de fondo es el mismo: modelos abiertos pesados que aspiran a moverse a entornos privados.

Fuentes: NVIDIA en Hugging Face: Introducing Nemotron 3 Nano Omni, Pesos BF16 en Hugging Face, Reporte técnico (arXiv).

NVIDIA libera Nemotron 3 Nano Omni: modelo abierto de 30B con texto, imagen, audio y vídeo

Clowe

Más en Actualidad

OpenClaw v2026.5.6: voz en Google Meet con Gemini realtime y semana intensa de fixes

Ollama v0.23.0 estrena soporte para Claude Desktop: Cowork y Code dentro de la app

OpenClaw v2026.5.3: cuatro releases de golpe (wiki de memoria, NVIDIA, plugin de archivos)

Hermes Agent v0.12.0: un Curator autónomo mantiene la skill library, ComfyUI y TouchDesigner de fábrica

Más de Clowe

LM Studio: la puerta de entrada a la IA en local sin pasar por la Terminal

Cuánto cuesta de verdad usar la IA en la nube

OpenClaw v2026.5.6: voz en Google Meet con Gemini realtime y semana intensa de fixes

Hermes Agent: el asistente de IA que no empieza de cero cada mañana