Decodificador: qué es la inferencia (y por qué aparece en cada ficha técnica)

En cualquier ficha técnica de Sin Manual aparece, antes o después, la palabra inferencia. Sale al hablar de Ollama («motor de inferencia local»), de Mercury Agent («distintos backends de inferencia»), de Hermes Agent («cinco proveedores de inferencia»). Si nadie te ha explicado nunca qué es, suena a tecnicismo importante y opaco. La buena noticia es que el concepto es bastante más simple de lo que el nombre sugiere.

Inferencia es, en el mundo de la IA, el momento en que un modelo ya entrenado se usa para responder a algo. Cada vez que escribes una pregunta a ChatGPT, le mandas un mensaje a Claude desde el móvil o le pides a un asistente local que te ayude con un correo, lo que ocurre por debajo del capó es una inferencia: el modelo recibe tu texto, hace cuentas con él (millones de cuentas, en realidad) y devuelve una respuesta.

La metáfora más clara es la del examen. Imagina a un opositor que se ha pasado meses preparando una plaza. Esos meses son el entrenamiento: lee, estudia, hace ejercicios, repasa, asienta los conocimientos. Cuando llega el día del examen y se sienta delante de la hoja a responder preguntas concretas, lo que está haciendo es inferencia: aplicar lo aprendido a un caso nuevo, en tiempo real, sin volver a estudiar nada. Los modelos de IA funcionan exactamente igual. Hay una fase larga, costosa y única en la que se «aprenden» (entrenamiento), y luego una fase repetida, más barata y casi instantánea, en la que se les pregunta y responden (inferencia).

Esa diferencia importa, y mucho. Entrenar un modelo grande, eso de los «cien mil millones de parámetros» que aparece a veces en las noticias, ocupa miles de tarjetas gráficas durante semanas o meses, y cuesta varios millones de euros. Es algo que solo hacen un puñado de empresas grandes en todo el mundo. Hacer inferencia con ese modelo, en cambio, es órdenes de magnitud más barato: el modelo ya está hecho, solo hay que ejecutarlo. Por eso casi todas las herramientas de las que hablamos en Sin Manual (Ollama, Mercury, Hermes Agent, OpenClaw, GitHub Copilot) viven en la fase de uso, no en la de construcción. Ninguna entrena modelos desde cero; lo que hacen es ofrecer una manera cómoda de invocar la inferencia de un modelo que ya existe.

Aquí entra una distinción que vertebra todo Sin Manual: dónde se hace la inferencia. Cuando se usa ChatGPT, Claude o Gemini desde el navegador, la inferencia ocurre en los servidores de OpenAI, Anthropic o Google. La pregunta del usuario viaja hasta allí, el modelo de la empresa la procesa y la respuesta vuelve. Cuando se usa Ollama o LM Studio en el ordenador, la inferencia ocurre dentro del propio equipo. La pregunta no sale de la máquina del usuario, y la respuesta tampoco. Esa es exactamente la línea que separa IA en la nube de IA local: no es qué modelo se usa, sino dónde se ejecuta la inferencia.

Para describir la velocidad a la que un modelo responde se usa una métrica que aparece a menudo en las fichas y conviene tener clavada: la velocidad de inferencia se mide en tokens por segundo (a veces escrito tok/s). Un token es la unidad mínima de texto que el modelo maneja, aproximadamente una sílaba o un trozo de palabra (lo cubrimos a fondo en el Decodificador sobre tokens y ventana de contexto). Si una ficha dice que un modelo corre a 60 tok/s, significa que escribe a unos 60 trozos de palabra por segundo, lo que se traduce en una experiencia muy fluida, casi como leer al hilo. A 5 tok/s, en cambio, es una conversación incómoda: el modelo va más lento que un dedo escribiendo a máquina.

Hay un tercer término que conviene mencionar porque también aparece: servidor de inferencia o motor de inferencia. Es simplemente el programa concreto que se encarga de ejecutar el modelo en una máquina (la del usuario, la de un proveedor o un servidor cualquiera) y devolver la respuesta. Ollama es un motor de inferencia local. Los servidores de OpenAI son motores de inferencia en la nube. Cuando una ficha de Sin Manual dice que una herramienta «expone una API de inferencia», lo que está diciendo es: pone una puerta accesible para que otros programas le hagan preguntas al modelo y reciban la respuesta.

El resumen, para que se quede en la cabeza, es este. Entrenar un modelo es enseñarle a leer y escribir partiendo de cero (caro, lento, único). Hacer inferencia con ese modelo es preguntarle algo y leer su respuesta (barato, rápido, repetible tantas veces como haga falta). Toda la conversación pública sobre IA del último año (qué velocidades, qué precios, qué hardware, qué privacidad) gira en realidad sobre la fase de inferencia, no la de entrenamiento, porque la inferencia es lo que el usuario final hace cada día.

Y a ti, ¿te habías fijado ya en que la velocidad de respuesta de los asistentes que usas habitualmente cambia bastante según el modelo elegido? Eso que percibes como «va más fluido» es, exactamente, la velocidad de inferencia haciendo su trabajo.

Para saber más: en Sin Manual hay decodificadores hermanos que ayudan a redondear el concepto: qué es un LLM, tokens y ventana de contexto, y cuantización, que es la técnica que permite que la inferencia de modelos grandes quepa en ordenadores domésticos.