Alucinación: cuando el modelo se inventa lo que no sabe

Hay una palabra que se ha colado en el vocabulario habitual de la IA y que conviene mirarla de cerca, porque la usan tanto los desarrolladores, como los periodistas, como los propios sanitarios que han probado ChatGPT: alucinación. Se dice que un modelo «alucina» cuando se inventa algo. La metáfora es vívida y útil, pero también engañosa: sugiere que el modelo a veces ve cosas que no están y otras veces ve la realidad correctamente. La verdad técnica es bastante distinta, y, una vez entendida, resulta más útil para saber cuándo desconfiar.

Un modelo de lenguaje no «sabe» nada, en el sentido en que un médico sabe medicina. Lo único que hace es predecir cuál es la siguiente palabra más probable dado lo que ha visto antes. Cuando le preguntas «¿cuál es la dosis máxima diaria de paracetamol en un adulto sano?», no consulta una base de datos farmacológica: estima qué secuencia de palabras tiene más probabilidades de aparecer después de tu pregunta, basándose en los millones de textos que ha leído durante su entrenamiento. Si en esos textos aparecía suficientes veces que la dosis máxima son 4 gramos al día, el modelo te dará 4 gramos. Si en algún texto aparecía algo distinto, o si la pregunta queda en una zona donde sus datos son ambiguos, te puede dar otra cifra con la misma confianza.

De aquí se sigue una cosa incómoda: el modelo no distingue entre lo que sabe y lo que no sabe. No tiene un mecanismo interno que diga «de esto estoy seguro» frente a «de esto me lo estoy inventando». La estimación estadística de la siguiente palabra se hace siempre, llene de información o llene de ruido. Por eso una alucinación no se anuncia con una voz temblorosa: viene en el mismo tono firme con el que el modelo te recita la fórmula del aspirina o el mecanismo de acción de la metformina. La fluidez no es un indicador de veracidad. Esto, para alguien acostumbrado a leer literatura médica, donde la calidad de la prosa suele correlacionar con el rigor del trabajo, resulta especialmente traicionero.

Las alucinaciones se manifiestan en muchas formas, algunas más detectables que otras. Las más groseras son los datos numéricos inventados, una dosis que no es, una semivida equivocada, un porcentaje de incidencia de un efecto adverso que no aparece en ninguna ficha técnica. Estas, leídas con atención y contrastadas con una fuente, se cazan. Más insidiosas son las citas inventadas: el modelo te puede entregar una referencia bibliográfica completa, autores, revista, año, volumen, páginas, para un estudio que no existe. La forma de la cita es perfecta porque ha leído millones de citas reales y sabe imitarlas; el contenido es ficticio porque ese estudio concreto nunca se publicó. Hay casos documentados de abogados estadounidenses sancionados por presentar en tribunales jurisprudencia inventada por ChatGPT, jurisprudencia que nadie cazó hasta que el juez quiso buscar el caso.

Aún más sutil es la mezcla de datos correctos y datos inventados en una misma respuesta. El modelo te da la indicación correcta de un fármaco, los efectos adversos reales, y en medio cuela una contraindicación que no está en la ficha técnica. Como el resto encaja, la pieza falsa pasa desapercibida. Esta es la forma más peligrosa porque la confianza generada por las partes verdaderas se traslada a las falsas sin pestañear.

¿Por qué pasa? Tres razones técnicas concurren. La primera es que los modelos están entrenados para responder, no para callarse. Durante el ajuste posterior al entrenamiento, la fase llamada fine-tuning con feedback humano, se les enseña a ser útiles, claros y conversacionales. Decir «no lo sé» no es lo más útil que puede decir un asistente, así que la maquinaria estadística tiende a buscar alguna respuesta antes que ninguna. La segunda es que el conocimiento del modelo está congelado en una fecha. Si una guía clínica se actualizó la semana pasada, el modelo no se ha enterado: sigue contestando con la versión que estuviera vigente cuando se entrenó. La tercera es que en zonas de información dispersa o contradictoria, el modelo «promedia» y termina generando algo que se parece a la media de lo que ha visto, sin que esa media corresponda exactamente a nada real.

Lo más útil para quien empieza a trabajar con estas herramientas no es indignarse contra las alucinaciones, es esperable que ocurran, sino aprender a identificar las zonas donde son más probables y construir hábitos de defensa. Las alucinaciones aumentan cuando: la pregunta toca datos numéricos muy específicos (dosis, posologías, percentiles), cuando se piden referencias bibliográficas concretas, cuando se interroga sobre eventos posteriores a la fecha de entrenamiento del modelo, cuando se le pide opinar sobre temas raros o de literatura escasa, y cuando se le pide ser muy conciso (la concisión deja menos espacio para corregirse a sí mismo en el camino).

Frente a esto, el mejor antídoto es convertir al modelo en un colaborador y no en un oráculo. Tres prácticas reducen drásticamente el riesgo. La primera: pedirle siempre que cite y verificar las citas. Si la cita no existe, es señal clara de que el resto puede no ser de fiar. La segunda: darle tú la información de partida, en lugar de pedirle que la genere. Si pegas la ficha técnica del fármaco y le pides que te resuma sus contraindicaciones, está mucho menos expuesto a alucinar que si solo le dices «¿cuáles son las contraindicaciones del omeprazol?». Esta técnica se llama grounding y es la base del RAG. La tercera: usarlo en tareas donde tú puedes verificar el resultado, redactar un correo, pulir un texto, generar un primer borrador, traducir, y no en tareas donde el output es el dato final que entra a una decisión clínica.

Hay también soluciones técnicas que el sector está desarrollando. Algunos modelos modernos pueden ahora consultar internet en tiempo real para verificar (lo que se llama tool use o web search), y los modelos de razonamiento, los que «piensan» antes de responder, alucinan menos en tareas matemáticas o lógicas porque tienen más oportunidad de detectarse a sí mismos. Pero ninguna de estas soluciones es completa todavía, y probablemente no lo sea nunca del todo: mientras la generación de texto sea estadística, el riesgo de generar texto plausiblemente falso es estructural.

Entender la alucinación como una propiedad del sistema, no como un fallo ocasional, cambia cómo se usa. Se deja de pedirle al modelo que sea infalible, y se empieza a tratarlo como lo que es: un colaborador rapidísimo y con vocabulario amplio, con tendencia a confabular cuando se le presiona. El que confía ciegamente se quema; el que verifica se ahorra disgustos. En ningún terreno la diferencia entre estos dos perfiles importa más que en sanidad.

Y a ti, ¿te ha pasado pillar a un modelo en una alucinación, y de qué tipo era, un dato numérico, una cita inventada, una contraindicación que no existía?