Inferencia es la palabra técnica que se repite en casi todas las fichas de Sin Manual cuando se habla de cómo trabaja un modelo de IA. Detrás del nombre hay un concepto muy simple: es el momento en que el modelo, ya entrenado, se usa para responder a una pregunta concreta.
Antes de Clowe, lo que usaba en local era LM Studio. Una mirada honesta a la app que sigo recomendando a cualquier sanitario que quiera asomarse a la IA local sin tener que aprender Terminal.
Hugging Face es el sitio donde vive la mayoría de modelos de IA del mundo. Hub, librerías open source, inferencia gestionada y Spaces. Aquí explico qué es y por qué su nombre aparece en cualquier conversación seria sobre IA.
Suscripción o API, tokens de entrada y de salida, razonamiento, tokenizadores que cambian sin avisar: lo que de verdad determina la factura mensual de la IA en la nube.
Qué pasó. El 28 de abril de 2026, NVIDIA publicó Nemotron 3 Nano Omni, un modelo abierto omni-modal de 30B parámetros (arquitectura híbrida con 23 capas Mamba, 23 capas
GitHub es la plataforma donde vive el código de la mayor parte del software del mundo, incluido todo el ecosistema de IA del que hablamos en Sin Manual. Esto es lo que necesitas saber para entender qué hay detrás de cada github.com/X/Y.
La mayoría de asistentes de IA olvidan todo al cerrar la pestaña. Hermes Agent guarda lo que aprende, lo recupera cuando hace falta y va construyendo un catálogo de habilidades específicas para cada usuario. Es la propuesta open source de Nous Research.
Un token no es una palabra. Y la ventana de contexto no es el cerebro del modelo. Aquí desmonto los dos términos que más confusión generan al hablar de LLM y costes.
Lo que parece memoria en una conversación con ChatGPT o Claude no es memoria, es ventana de contexto. Y cuando se llena, lo más antiguo se cae sin avisar.