Cuánto cuesta de verdad usar la IA en la nube

«¿Y por esto cuánto me cobran?» es la primera pregunta que aparece en cuanto alguien empieza a usar de verdad cualquier herramienta de IA en la nube. La respuesta corta, depende, no ayuda. La respuesta larga sí: depende de dónde compres (suscripción de usuario o acceso por API), depende de cuánto pidas (cuántos tokens entran y salen del modelo), y depende de qué modelo elijas (los pequeños son baratos, los grandes pueden multiplicar la factura por veinte). Quien sepa leer el recibo, podrá ajustar. Quien no, seguirá teniendo la sensación de que la cifra a final de mes va por libre.

Conviene empezar por la parte fácil. Las suscripciones que ofrecen ChatGPT, Claude, Gemini y compañía funcionan como cualquier otro servicio digital. Pagas una cantidad fija al mes, normalmente entre 20 y 25 euros en su plan inferior, y obtienes un uso mas o menos amplio (no ilimitado) del producto a través de la web o la app oficial. ChatGPT Plus, Claude Pro y Google AI Pro están en esa franja. Hay escalones más altos, algunos en unos 100 euros al mes y otros en torno a 200 euros al mes, pensado para quien usa la herramienta varias horas al día y se choca con los topes de los planes inferiores. Y hay versiones gratuitas, todas, con límites estrechos pensados para que el usuario pruebe el producto y se enganche.

Esa primera capa tiene una ventaja enorme: el coste es predecible. Pagas la cantidad que decidas que se te acopla y, salvo que excedas los límites del plan, ya está. Conviene leer la letra pequeña sobre cuotas (cuántos mensajes por hora, qué modelos premium están incluidos), pero no hay riesgo de factura sorpresa. Para la mayoría de usuarios, sanitarios incluidos, esta es la opción adecuada y suficiente.

El otro modo de acceso, el que cambia el enfoque económico por completo, es la API. Esta es la puerta directa al modelo: en lugar de hablar con un chat humanizado, una aplicación tuya o de un tercero conecta con el proveedor mediante código y le envía mensajes uno por uno. La cuenta de la API funciona como un taxímetro: cobra por cada token que entra y por cada token que sale. No hay cuota fija. Si no usas, no pagas. Si usas mucho, la factura sube en proporción.

Aquí entra el concepto que rige toda la facturación de la nube: el token. Un token es un trozo de texto, normalmente más pequeño que una palabra. La regla aproximada en castellano y en inglés es que mil tokens equivalen a unas 750 palabras, aunque la cifra varía con el idioma, los caracteres y el modelo concreto. Cuando le mandas un mensaje a la API, todo lo que envías (la pregunta, los documentos adjuntos, el historial de la conversación si lo arrastras) se traduce a tokens y entra al precio de input. Lo que el modelo te devuelve son tokens también, y se cobran al precio de output, que suele ser entre cuatro y cinco veces más alto.

Las cifras, en cualquiera de los grandes proveedores, son del mismo orden. Para los modelos de cabecera el rango va, en abril de 2026, de tres a cinco dólares por millón de tokens de entrada y de quince a veinticinco dólares por millón de tokens de salida. Claude Opus 4.7, recién publicado el 16 de abril, está en cinco y veinticinco dólares respectivamente. GPT-5.5 y Gemini 3.1 Ultra rondan precios parecidos para sus modelos de gama alta. Los modelos intermedios (Claude Sonnet 4.6, GPT-5 estándar, Gemini 3.1 Pro) cuestan típicamente entre tres y cinco veces menos. Y los modelos pequeños, optimizados para velocidad (Claude Haiku, GPT-5 Mini, Gemini Flash) suelen estar en el orden de céntimos por millón de tokens. La elección del modelo, por tanto, es la decisión económica más importante que toma quien factura por API.

Conviene aterrizar la cifra. Un millón de tokens son muchos tokens: aproximadamente 750.000 palabras de texto, el equivalente al Quijote completo más un par de novelas medias encima. Si estás haciendo preguntas conversacionales sueltas y simples, tardaras días en alcanzar esa cifra. Si tu aplicación está procesando informes, transcripciones o documentación de forma sistemática, la puedes consumir en un día sin despeinarte.

A esta aritmética, los modelos modernos añaden una capa que despista. Es lo que se llama razonamiento o reasoning (también modos thinking, extended thinking o deep think, según el proveedor). Cuando el modelo razona, antes de redactar la respuesta, genera una cadena interna de pensamiento que también se factura, y que el usuario habitualmente no ve. Una pregunta que en un modelo sin razonamiento devuelve mil tokens, en el mismo modelo con razonamiento alto puede generar diez mil o quince mil tokens internos antes de la respuesta final, y todos cobran. La calidad mejora, los problemas complejos se resuelven mejor. Y la factura, también, sube.

Una sutileza más, y especialmente reciente: el tokenizador puede cambiar entre versiones de un mismo modelo. Anthropic, por ejemplo, ha estrenado con Opus 4.7 un nuevo tokenizador que convierte el mismo texto en más tokens que su predecesor. La diferencia, según la propia documentación de Anthropic y las primeras comparaciones públicas, está entre un 20% y un 47% más tokens para textos en inglés y código. Eso significa que aunque el precio por millón de tokens no haya subido respecto a Opus 4.6, el coste real de la misma tarea sí puede haberlo hecho. Es la trampa que tiene la fórmula «mismo precio que la versión anterior»: la frase es cierta y, a la vez, la factura mensual puede aumentar.

¿Cuánto se traduce todo esto en una situación real? Para una persona que usa una herramienta consumer un par de horas al día, la suscripción mensual sale rentable; la API no compensaría. Para un equipo pequeño que automatiza tareas con la API, la factura típica es muy variable, aunque con modelos frontera puede irse a varios cientos de euros al mes según volumen, con picos cuando se procesan grandes volúmenes de documentos. Para una empresa que despliega un asistente con la API por debajo, la factura ya escala en proporción al tráfico, y aquí entran los descuentos por volumen, los créditos prepago y las negociaciones específicas con el proveedor.

Hay un par de palancas que merece la pena conocer. La primera es el caché de prompts: muchos proveedores cobran menos por reutilizar texto que ya enviaste en peticiones anteriores. Si tu aplicación manda repetidamente el mismo prompt de sistema y solo cambia la pregunta del usuario, activar caché puede recortar la factura entre un 50% y un 90% en la parte fija. La segunda son los task budgets que Anthropic acaba de abrir en beta: límites de tokens por tarea para evitar que un razonamiento desbocado se coma medio presupuesto. Y la tercera, la más simple: bajar el nivel de esfuerzo de razonamiento cuando la pregunta no lo necesita. Gran parte de las consultas cotidianas se resuelven igual de bien con esfuerzo bajo o medio que con esfuerzo extremo.

Todo lo anterior afecta solo al precio. La pregunta de si meter datos por API o por web debe responderse antes que la de cuánto cuesta. La API y la web son productos jurídicamente distintos y, en la mayoría de proveedores, los términos sobre uso de tus datos para entrenamiento difieren entre uno y otro. Por defecto, la API tiene políticas más restrictivas (los datos no se usan para entrenar modelos futuros), mientras que la versión web del consumer suele tener entrenamiento opcional que el usuario puede desactivar. En ningún caso eso convierte automáticamente a la API en aceptable para datos sanitarios identificables: para esos casos hay planes específicos (Business, Enterprise, HIPAA-compliant) con contratos firmados y cláusulas concretas. Y siempre hay una alternativa que merece valorarse: ejecutar el modelo en local, con Ollama o LM Studio, donde la factura por uso desaparece y los datos no salen nunca de tu equipo.

Quien quiera tomarse en serio el coste, tiene una rutina sencilla. Empezar por una suscripción para descubrir qué se necesita. Pasar a la API solo cuando el flujo justifique automatización. Activar el panel de uso del proveedor, que todos los grandes ofrecen, y mirarlo cada semana las primeras semanas. Poner alertas de gasto, que también las ofrecen todos. Y revisar cada dos meses si el modelo que se está usando es el necesario o si uno más pequeño hace el mismo trabajo por un quinto del coste. La factura por IA, como cualquier factura por servicio digital, se domestica con atención y no se domestica sin ella.

Y a ti, ¿te ha pillado alguna factura de IA por sorpresa, o ya tienes el panel de uso entre tus pestañas habituales?… porque la primera vez es difícil que no sorprenda.

Lecturas relacionadas: Qué es la IA en la nube · ChatGPT, Claude y Gemini