La escena es bastante común. La persona abre Claude, ChatGPT o Gemini, le sube un PDF largo, una transcripción, un cuaderno de notas, lo que sea, y empieza a conversar. Le pide un resumen, le pide aclaraciones, va matizando. Quince o veinte mensajes después, hace una pregunta sobre una idea que apareció al principio del documento. Y el modelo responde con algo que no encaja: ha mezclado el contenido, ha inventado un dato que ya estaba en el original, o directamente afirma que «esa información no se mencionó». La sensación es desconcertante. Hace un rato lo sabía. Ahora parece que no.
Lo que ha pasado no es un error puntual, es una característica estructural de cómo funcionan estos modelos. Conviene entenderla, porque cambia bastante la forma de trabajar con ellos.
Lo primero que hay que asumir es que un modelo de lenguaje no tiene memoria continua. Cada vez que respondes a una pregunta, el modelo no «recuerda» la conversación anterior como hace un humano. Lo que ocurre es que la aplicación con la que hablas (chatgpt.com, claude.ai, la app de Gemini) le manda al modelo, en cada turno, todo el historial visible de la conversación, y el modelo lee todo eso desde cero antes de generar la siguiente respuesta. Le manda tus mensajes anteriores, las respuestas que ya dio, y la nueva pregunta. El modelo no recuerda nada por sí mismo: relee el conjunto cada vez. La sensación de continuidad la genera la aplicación, que arrastra el historial; no el modelo, que cada turno es nuevo.
Aquí entra el concepto clave: la ventana de contexto. Es el espacio de texto que el modelo puede leer en una sola pasada antes de responder. Se mide en tokens, esos trozos de palabra de los que se habla cuando se discute el coste por uso de la nube (ver Cuánto cuesta de verdad usar la IA en la nube). Cada modelo tiene su propia ventana, y los tamaños actuales se mueven en un rango amplio: las distintas versiones de Claude manejan en torno a 200.000 tokens, los GPT más recientes están en el orden de los cientos de miles, y Gemini llega hasta el millón. Para hacerse una idea, doscientos mil tokens son aproximadamente 150.000 palabras de español, el equivalente a una novela de tamaño medio entera; un millón son cerca de 750.000 palabras, una pequeña biblioteca.
Estas cifras parecen enormes, y lo son comparadas con las que había hace dos años, cuando los modelos manejaban cuatro u ocho mil tokens. Pero no son ilimitadas. Cuando una conversación, sumando todos los mensajes anteriores, las respuestas y los archivos adjuntos, supera el tamaño de la ventana, algo tiene que caerse. Lo habitual es que la aplicación corte por el principio, descarte los mensajes más antiguos, y le mande al modelo solo lo más reciente que cabe. El modelo, que ya no ve esos primeros mensajes, no puede usar nada de lo que hubiera dicho ahí. La información existió en la conversación, pero ya no existe en el contexto que el modelo está leyendo. Por eso de repente parece que se «olvida».
Hay además una sutileza incómoda que conviene mencionar. Aunque la conversación quepa entera dentro de la ventana, no toda la ventana se aprovecha por igual. Hay un fenómeno bien estudiado, conocido en la literatura como lost in the middle: cuando un texto largo se mete en el contexto, el modelo presta más atención a lo que aparece al principio y al final, y menos a lo que queda en mitad del documento. Si una idea importante está sepultada en la página cincuenta de un PDF de cien páginas, hay una probabilidad real de que el modelo la pase por encima aunque técnicamente la haya leído. Los modelos modernos han mejorado mucho en esto, pero el efecto sigue siendo medible. La ventana de un millón de tokens de Gemini es real; la ventana de un millón de tokens efectivamente útil suele ser menor.
Esto cambia un poco si la herramienta usa archivos, porque ahí los proveedores han añadido lógica adicional. Cuando subes un PDF a Claude o a ChatGPT, lo que hace la aplicación es trocear el documento, indexarlo, y en cada pregunta que tú haces, recuperar los fragmentos más relevantes y meterlos en el contexto que va al modelo. Es una forma de RAG (Retrieval Augmented Generation) detrás del telón. Funciona muy bien para preguntas concretas («¿qué dice el documento sobre X?»), porque el sistema localiza el fragmento que habla de X y lo pone delante del modelo. Funciona peor para preguntas que requieren una visión global del documento entero, porque solo se le entregan trozos, no el todo. Saber esto ayuda a entender por qué a veces el resumen del PDF queda flojo y la pregunta puntual se contesta perfectamente.
A todo esto se ha añadido en los últimos meses una capa que sí merece llamarse memoria persistente, aunque no sea memoria como la entendemos. OpenAI lanzó las memorias de ChatGPT, donde el modelo guarda automáticamente datos que considera importantes (tu profesión, tus preferencias, proyectos en curso) y los recupera en futuras conversaciones. Anthropic ha añadido una funcionalidad parecida en los planes Pro y Max de Claude, los projects permiten mantener instrucciones y archivos persistentes accesibles desde varias conversaciones. Pero conviene dejar claro lo que estas memorias son y lo que no son. Son extractos breves que la aplicación guarda en un archivo aparte, fuera del modelo, y que se inyectan en cada nueva conversación al principio del contexto. No es que el modelo «recuerde» todo lo que hablasteis: es que la aplicación le pone una nota recordatoria al inicio de cada nueva charla.
Esto tiene una consecuencia que a veces se pasa por alto. Cuando empiezas una nueva conversación con ChatGPT, no es la misma conversación de ayer continuada: es una nueva, en la que se inyecta un resumen de lo que el sistema considera relevante de tus interacciones previas. Si necesitas continuidad real para un trabajo largo, no la tendrás por defecto. Tendrás algo parecido, una aproximación, que funciona razonablemente bien para temas personales y de uso frecuente, y peor para hilos profundos de proyectos concretos. Para esos casos, conviene mantener un único hilo largo mientras quepa, o llevar tu propio sistema de notas externas que tú mismo le pases al modelo cuando arranques una nueva conversación.
Hay un par de hábitos que se vuelven útiles cuando uno entiende cómo funciona el contexto. El primero es dividir tareas largas: cuando un PDF es realmente grande o una conversación se ha ido por las ramas, abrir un nuevo hilo con un resumen al principio suele dar mejores resultados que arrastrar la mochila entera. El segundo es enviar la información importante cerca del final de la pregunta: dado que los modelos tienden a prestar más atención al final de su contexto, situar ahí los datos clave que quieres que use mejora la respuesta. Y el tercero es no asumir que el modelo recuerda algo solo porque se lo dijiste hace tres conversaciones. Si no está en el contexto actual, para el modelo no existe.
Una nota sobre privacidad antes de cerrar. La memoria persistente que añaden los proveedores guarda extractos de tus conversaciones en sus servidores y los reutiliza en futuras interacciones. La opción está activada por defecto en muchos planes, y puede contener datos que, si se trata de información sensible, conviene revisar. En los ajustes de cada producto se puede acceder al listado de lo que se ha guardado, borrar entradas concretas y desactivar la función entera. Como con todo lo que toca a datos sensibles en la nube, la opción local sigue siendo la única que garantiza que ese extracto nunca existió fuera de tu equipo.
El resumen, simplificando, es que estos modelos no recuerdan; releen. Y lo que releen es lo que cabe en su ventana, ni más ni menos. Saberlo cambia un poco la relación con la herramienta: deja de ser un confidente con memoria continua y pasa a ser un colaborador muy capaz de muy corto alcance, al que le toca a uno mismo recordarle dónde se quedó.
Y a ti, ¿te ha pasado lo de la conversación que «se olvida», o llevas años trabajando con estos modelos asumiendo que su memoria funcionaba como la nuestra?
Lecturas relacionadas: Cuánto cuesta de verdad usar la IA en la nube · API vs versión web · RAG