LLM: qué es exactamente eso de los modelos de lenguaje grandes

Cuando alguien dice que «Claude es un LLM» o que «ChatGPT funciona con un Large Language Model», la frase suena rotunda y técnica. Y como pasa con casi toda la jerga del sector, debajo del acrónimo hay algo bastante menos místico de lo que parece. Conviene desmontarlo, porque LLM es el término del que cuelgan casi todos los demás. Si esto se entiende, el resto del Decodificador encaja casi solo.

Un LLM (de Large Language Model, modelo de lenguaje grande) es un programa estadístico entrenado para predecir cuál es la siguiente palabra en un texto. Eso es todo. Lo que ves cuando le hablas a ChatGPT y te responde con un párrafo coherente sobre, pongamos, la insuficiencia cardíaca, no es un sistema que «sepa medicina» en el sentido en que un médico sabe medicina. Es un sistema que ha leído, durante su entrenamiento, una cantidad descomunal de textos como libros, artículos, foros, documentación clínica, código, periódicos, etc, y ha aprendido a estimar qué palabra es más probable que vaya después de cada secuencia de palabras anteriores.

La metáfora más cercana es la de un piano enormemente desafinado al que, con paciencia, se le ha ido ajustando cada tecla escuchando millones de horas de música. Al final, cuando alguien empieza a tocar una melodía, el piano «sabe», no porque entienda, qué notas suelen ir después de qué otras. Pulsas tres acordes y el piano completa la frase con un cuarto que encaja. No hay comprensión, hay un patrón aprendido. Cuando el patrón está bien aprendido, la salida parece inteligencia. Cuando se le pide algo fuera de lo que ha visto, falla con la misma soltura con la que antes acertaba.

La «L» de large se refiere al tamaño del modelo, que se mide en parámetros. Los parámetros son los números que ajustan internamente cómo el modelo combina la información: en el símil del piano, serían las teclas y la tensión de cada cuerda. Un modelo pequeño puede tener mil millones (1B); uno mediano, treinta y cinco mil millones (35B); uno enorme, varios cientos de miles de millones. La intuición, confirmada por la experiencia, es que cuantos más parámetros, mejor maneja patrones complejos, pero también más memoria, más electricidad y más dinero cuesta entrenarlo y ejecutarlo.

El proceso de entrenamiento tiene dos fases. En la primera, llamada pre-entrenamiento, se le enseña al modelo a predecir la siguiente palabra leyendo internet, libros y código. Acaba con un modelo que «sabe escribir» pero no necesariamente seguir instrucciones: si le pides «explícame la diabetes», puede que continúe escribiendo más texto sobre diabetes en general en lugar de explicártela a ti. En la segunda fase, llamada fine-tuning o ajuste, se le enseña con ejemplos concretos cómo comportarse: cómo seguir instrucciones, cómo ser educado, cómo no decir cosas peligrosas. Esa segunda fase es la que convierte un «motor de lenguaje» en un «asistente conversacional». Sin ella, no hay ChatGPT.

De este origen estadístico se desprenden varias cosas que conviene tener presentes. La primera es que un LLM no tiene memoria entre conversaciones. Cada vez que abres una nueva, empieza de cero, salvo que el sistema lo conecte a una base de datos externa con tu historial. La segunda es que no aprende de lo que le dices durante la conversación: el modelo en sí está congelado. Lo que cambia entre dos versiones es porque alguien ha lanzado un nuevo entrenamiento, no porque tu uso haya enseñado nada al sistema.

La tercera, y quizá la más importante para un sanitario: un LLM puede «alucinar». El término técnico para esa palabra rara, del que también hay entrada propia en este Decodificador , describe algo concreto: cuando el modelo genera información que parece plausible pero es falsa, lo hace con la misma confianza con la que da una respuesta correcta. No tiene forma de saber qué sabe y qué no. La estimación estadística de la siguiente palabra no incluye un «no estoy seguro de esto». A veces el modelo cita un estudio que no existe, una dosis que no es la correcta o un efecto adverso inventado, y lo cuenta con la misma cadencia segura con la que recita la fórmula del paracetamol.

Aclarado esto, queda la pregunta natural: si solo predice palabras, ¿por qué da la sensación de razonar? La respuesta corta es que predecir bien la siguiente palabra en textos muy variados requiere, en la práctica, haber capturado regularidades del mundo. Para completar bien la frase «el paciente presenta cifras de glucosa de 280 mg/dL en ayunas, lo que sugiere…», el modelo ha tenido que ver muchos textos donde esa cifra se asocia con diabetes. La «inteligencia» emerge como subproducto de hacer estadística sobre montañas de lenguaje humano. Es una inteligencia rara, sin sentido común garantizado, sin certeza ni vergüenza, pero útil cuando se sabe qué pedirle y cuándo desconfiar de la respuesta.

Familias enteras de modelos pueblan ya el panorama: la familia GPT de OpenAI, la familia Claude de Anthropic, la familia Gemini de Google, la familia Llama de Meta, la familia Qwen de Alibaba, la familia DeepSeek y un puñado de open source que se entrena con presupuestos modestos en universidades. Cada una tiene su carácter, más cauta, más creativa, más rápida, más barata, pero todas son la misma idea de fondo: predecir la siguiente palabra muy bien.

Y a ti, ¿te ha sorprendido alguna respuesta de un LLM hasta el punto de pensar que entendía lo que le preguntabas?... porque a mí, muchas veces.