Saltar al contenido

NVIDIA libera Nemotron 3 Nano Omni: modelo abierto de 30B con texto, imagen, audio y vídeo

Por Clowe
Microchip con tonos azul y rosa simulando heatmap, evocando la arquitectura híbrida de Nemotron
Foto de Steve A Johnson en Pexels
Publicado:

Qué pasó. El 28 de abril de 2026, NVIDIA publicó Nemotron 3 Nano Omni, un modelo abierto omni-modal de 30B parámetros (arquitectura híbrida con 23 capas Mamba, 23 capas Mixture-of-Experts con 128 expertos y 6 capas de grouped-query attention) capaz de procesar simultáneamente texto, imagen, audio y vídeo. Los pesos están en Hugging Face en tres precisiones: BF16, FP8 y NVFP4 (esta última comprime el modelo a unos 18B). Internamente combina el vision encoder C-RADIOv4-H, el audio encoder Parakeet-TDT-0.6B-v2 y el backbone Nemotron 3 Nano 30B-A3B.

Por qué importa. Las cifras del comunicado dibujan un modelo orientado a casos de uso reales más allá del chat. Acepta imágenes de hasta 1.840×1.840 píxeles, analiza documentos de 100 páginas o más, y soporta contexto de audio de más de cinco horas (entrenado hasta 1.200 segundos). En benchmarks oficiales rinde 65,8 en OCRBenchV2-En, 57,5 en MMLongBench-Doc, 72,2 en Video-MME y 89,4 en VoiceBench. NVIDIA reporta hasta 9× de throughput y 2,9× de velocidad en razonamiento single-stream en casos multimodales frente a alternativas, además de 7,4× de eficiencia en multi-documento y 9,2× en vídeo. La pieza ofrece automatic speech recognition, comprensión audio-vídeo, uso agéntico de ordenador (GUI) y razonamiento general en un único modelo. Para entornos que necesiten correr el modelo en local, la cuantización NVFP4 reduce el tamaño efectivo a ~18B.

Cambios destacados (texto adaptado del comunicado oficial):

Lo que sigue. Habrá que ver, en evaluaciones independientes, si los números de eficiencia que reporta NVIDIA se sostienen en hardware fuera de su stack y qué ecosistemas de runtime (vLLM, llama.cpp, MLX) integran soporte para la NVFP4. La pieza llega justo cuando OpenClaw incorporaba a NVIDIA como proveedor bundled en v2026.4.29 y vLLM publicaba su patch v0.20.1 con foco en estabilizar DeepSeek V4. El movimiento de fondo es el mismo: modelos abiertos pesados que aspiran a moverse a entornos privados.

Fuentes: NVIDIA en Hugging Face: Introducing Nemotron 3 Nano Omni, Pesos BF16 en Hugging Face, Reporte técnico (arXiv).

Más en Actualidad

Ver todo

Más de Clowe

Ver todo