Tokens y ventana de contexto: por qué un millón no son un millón

Cuando OpenAI o Anthropic anuncian que su modelo tiene «un millón de tokens de contexto», lo dicen con la misma soltura con la que se anuncian las pulgadas de un televisor. Y como con las pulgadas, el número impresiona, pero rara vez explica nada. Conviene aterrizarlo, porque tokens y ventana de contexto son las dos unidades con las que un sanitario va a empezar a tropezar en cuanto se acerque a estas herramientas, sea para resumir un protocolo, para preguntarle a Claude Opus 4.7 sobre un fármaco o para entender por qué la factura de la API sube tanto.

Un token es la unidad mínima de texto que un modelo de lenguaje procesa. No es una palabra, no es una sílaba, no es una letra: es un trozo de texto que normalmente coincide con una sílaba larga, una palabra corta o un fragmento de palabra. La frase «el paciente toma metformina» se descompone, para un modelo en castellano, en algo así como el, paciente, toma, met, formin, a. Cinco palabras se han convertido en seis tokens. La regla de bolsillo es que un token equivale a unos cuatro caracteres en castellano, o aproximadamente tres palabras cada cuatro tokens.

Esa partición no es arbitraria. Cuando se entrena un modelo, se toma un corpus enorme de texto y se busca un vocabulario de subpalabras que cubra todo lo que aparece. Las palabras frecuentes («paciente», «hospital», «mañana») se quedan como un solo token. Las raras, técnicas o compuestas se trocean en piezas más pequeñas. Por eso un nombre químico largo o un apellido poco común gasta más tokens que una palabra del vocabulario habitual. Y por eso traducir un texto del castellano al inglés normalmente reduce el número de tokens: el inglés se trocea más eficientemente en los modelos actuales, sencillamente porque se entrenó con más texto en inglés que en cualquier otro idioma.

La ventana de contexto es la cantidad máxima de tokens que el modelo puede tener en su «memoria de trabajo» en una sola interacción. Si el modelo tiene una ventana de 128.000 tokens, eso significa que puede procesar hasta unas 96.000 palabras a la vez, algo así como un libro corto. Si tiene una ventana de un millón, hablamos de unas 750.000 palabras: la obra completa de varios autores. Esa es la cifra que aparece en los anuncios.

El problema es que esa cifra no se traduce en lo que uno intuye. Tener una ventana de un millón de tokens no significa que el modelo «sabe» un millón de tokens de información. Significa que en una conversación puede manejar esa cantidad. Cada vez que el modelo responde, todo lo que le hayas escrito antes, el documento que pegaste, las preguntas anteriores, las respuestas anteriores, se le pasa otra vez, entero, en cada turno. Es como hablar con alguien que tiene amnesia: para que te entienda, le tienes que volver a contar la conversación entera cada vez que abres la boca.

Y aquí aparecen dos consecuencias prácticas. La primera es de coste: la mayoría de proveedores comerciales cobran por token de entrada y por token de salida. Un millón de tokens metidos en una sola conversación en un modelo grande puede costar varios euros por interacción. Una conversación larga sobre un protocolo extenso, repetida varias veces al día, suma. La segunda es de calidad: aunque el modelo pueda almacenar un millón de tokens, su capacidad de razonar sobre toda esa información de forma simultánea no es uniforme. Los modelos suelen prestar más atención al principio y al final del contexto, y desatender lo del medio. A esto se le llama el problema del «lost in the middle», y está documentado en estudios académicos. Si pegas un PDF de 200 páginas y haces una pregunta sobre la página 100, la respuesta puede ser peor que si haces la misma pregunta sobre la página 5 o la 199.

Por eso, en la práctica, una ventana de contexto enorme no sustituye a una buena estrategia de qué le das al modelo. Pegarle todo y rezar es mal método. Recortar, seleccionar, o construir un sistema que recupere solo los fragmentos relevantes, lo que en jerga se llama RAG, y que tiene su propia entrada en este Decodificador, funciona mejor casi siempre, y además resulta más barato.

La métrica del millón de tokens, en suma, se parece más a la velocidad máxima de un coche que a su velocidad de crucero. Vende, pero raramente la usas. Para la mayoría de tareas razonables, una ventana de 32.000 o 128.000 tokens es de sobra; lo que cambia el resultado es qué metes dentro y cómo lo organizas, no cuánto cabe.

Y a ti, ¿te ha pasado preguntarle algo a un modelo después de pegarle un documento largo y notar que «se le había olvidado» lo que le mandaste al principio?