Cuantización: cómo un modelo de 70 GB acaba pesando 23

Cuando alguien dice que un modelo de inteligencia artificial «cabe en un portátil», hay un truco silencioso detrás. No solo arquitectura, no solo el chip. Hay también un proceso de compresión que reduce el peso del modelo a la cuarta parte de lo que ocuparía si se distribuyera en bruto. Ese proceso se llama cuantización, y es una de las palancas que han hecho posible la IA local doméstica que se ve hoy.

La metáfora más útil para entender qué es la cuantización es la del archivo de música. Un archivo WAV de un disco original ocupa, pongamos, 50 megas por canción. Un MP3 con buena calidad pesa 5 megas. Es la misma canción, con cierta pérdida que el oído medio no detecta, comprimida en una forma matemáticamente más eficiente. El que escucha el MP3 raramente nota la diferencia. El espacio que se ahorra es enorme.

Con los modelos de IA pasa algo parecido. Un modelo en su forma original guarda cada uno de sus parámetros (los miles de millones de números que decimos al hablar de un LLM) como un decimal de 16 bits, llamado float16 o FP16. Es un nivel de precisión que el modelo necesitó durante el entrenamiento, cuando se ajustaban los valores con cuidado quirúrgico. Pero una vez entrenado y listo para usar, esa precisión es excesiva: la mayoría de los parámetros podrían representarse con muchos menos bits sin que el modelo «note» la diferencia.

Eso es exactamente lo que hace la cuantización. Pasa los parámetros de 16 bits a 8, a 4, incluso a 2 bits en los casos más agresivos. El modelo encoge a la mitad, a la cuarta parte, a la octava. Y con él encoge la memoria que hace falta para cargarlo y la potencia de cómputo necesaria para hacerlo correr.

Las versiones más usadas hoy son las cuantizaciones a 4 bits, normalmente bajo nombres como Q4_K_M o Q4_0 en el ecosistema GGUF (un formato estándar para modelos cuantizados). Un modelo de 35.000 millones de parámetros en FP16 ocuparía unos 70 GB de memoria. El mismo modelo cuantizado a Q4_K_M ronda los 23 GB. La diferencia entre que quepa en un MacBook bueno o que necesites un servidor.

El precio que se paga es cierta pérdida de calidad. Cuanta más agresiva la cuantización, más errores empieza a cometer el modelo: las respuestas se vuelven menos precisas, los razonamientos largos pierden coherencia, la sutileza al traducir o redactar se degrada. Para tareas razonables, sin embargo, los modelos cuantizados a 4 bits son sorprendentemente capaces, y la diferencia con el modelo original es a menudo imperceptible. Para tareas exigentes (código complejo, razonamiento matemático profundo, traducciones literarias) sí se nota, y conviene usar versiones menos cuantizadas o el modelo original en la nube.

La cuantización tiene también un coste de tiempo y memoria que no se ve: el proceso de cuantizar un modelo grande puede tardar horas y exige hardware potente. Pero ese coste lo asume una sola vez quien publica el modelo cuantizado, no quien lo usa. Las comunidades de Ollama y de Hugging Face mantienen catálogos de versiones cuantizadas listas para descargar, ya pre-procesadas. El usuario solo descarga la variante que le encaja en su hardware, y a correr.

La consecuencia más interesante de todo esto, para alguien que mira el panorama desde fuera, es que la cuantización ha sido una de las herramientas que más ha democratizado la IA en los últimos dos años. Sin ella, un modelo de la categoría de Qwen 3.6 o Llama 3.3 seguiría viviendo solo en centros de datos. Con ella, vive en portátiles. La diferencia entre «accesible solo para grandes corporaciones» y «accesible para una consulta privada» pasa, en buena medida, por una fila de matemáticas que reduce la precisión de unos números sin matar el modelo en el camino.

Es un compromiso elegante, además, porque expone una verdad sobre estos sistemas: la mayoría del conocimiento útil del modelo no está en la precisión exacta de cada parámetro, sino en las relaciones entre ellos. Bajar la fineza de cada número individual apenas degrada el conjunto, igual que el oído humano apenas distingue un MP3 a 320 kbps de un WAV original. La cuantización es, en el fondo, la confirmación matemática de que estos modelos son robustos a pequeñas imprecisiones, y eso dice algo bonito sobre cómo aprenden.

Y a ti, ¿te sorprende que un truco tan «mundano» (recortar bits, reducir precisión) sea uno de los responsables de que la IA local haya bajado a tu mesa?