Ollama — Sin Manual

Desarrollador: Ollama Inc. · Licencia: MIT (open source) · Plataformas: macOS, Linux, Windows.

Ollama es una herramienta gratuita para descargar y ejecutar modelos de inteligencia artificial directamente en el ordenador del usuario, con un par de comandos. Pesa unos pocos megas, funciona en macOS, Linux y Windows, y desde 2026 ofrece también un servicio en la nube opcional para los modelos demasiado grandes como para caber en un equipo doméstico.

Con independencia de todo lo abajo expuesto, si ya tienes un agente operando en una de tus máquinas, pídele que te lo instale, y decidís que modelo quieres que te descargue y te enchufe. Así lo hice yo.

Qué es esto, en lenguaje claro

Antes de Ollama, montar una IA en el ordenador propio era cosa de gente con paciencia y conocimientos técnicos: descargar archivos sueltos, instalar componentes uno a uno, configurar un pequeño servidor casero. Fácilmente, una tarde entera. Ollama lo reduce a tres comandos que se escriben en el terminal: ollama pull para descargar el modelo, ollama run para empezar a chatear con él y ollama serve para dejarlo encendido al fondo, listo para que otras aplicaciones lo usen.

Tres rasgos lo distinguen:

Una biblioteca lista para usar. Ollama mantiene un catálogo público de modelos preparados (Llama, Qwen, DeepSeek, Mistral, Gemma, Phi, Granite, etc.), en distintos tamaños según cuánta memoria tenga el equipo. Eliges el que cabe en tu máquina y lo descargas con una línea: ollama pull qwen3:14b.
Una "centralita" dentro de tu propio equipo. Ollama crea, en tu ordenador, un pequeño punto de conexión por el que cualquier programa que ya hable con ChatGPT puede hablar también con tu modelo local cambiando solo la dirección a la que se conecta. Esa "centralita" es lo que en jerga técnica se llama API, y es la pieza que ha convertido a Ollama en el motor que hay debajo de muchas otras herramientas, como Open WebUI, Continue, Claude Code o OpenClaw.
Una sola máquina, todo en casa. No hay servidor remoto en el flujo: la conversación entera ocurre dentro del ordenador del usuario. Salvo que se pida expresamente, nada viaja a la nube.

Desde 2026 existe además Ollama Cloud, un servicio gestionado opcional que da acceso a modelos demasiado grandes como para correr en un ordenador personal. Tiene un nivel gratuito limitado y planes de pago Pro (20 $/mes) y Max (100 $/mes). La aplicación de escritorio sigue funcionando sin cuenta y sin pagar nada.

Datos técnicos

Tipo: motor local para ejecutar modelos de lenguaje + biblioteca de modelos preparados.
Licencia: MIT, open source.
Lenguajes: Go (el servidor) y C/C++ heredados de llama.cpp (la parte que hace que el modelo realmente responda, lo que en jerga se llama inferencia).
Plataformas: macOS, Linux y Windows con app nativa en cada una.
Formatos de modelo: GGUF, un formato abierto pensado para guardar modelos comprimidos. Soporta varias compresiones (cuantizaciones), desde las más agresivas (Q2) hasta la versión sin comprimir (F16). Por defecto usa Q4_K_M, que es el equilibrio recomendado por la comunidad entre tamaño y precisión.
API: servidor HTTP local en localhost:11434. Hay un endpoint propio (/api/chat) y otro compatible con OpenAI (/v1/chat/completions) para que cualquier cliente externo se conecte sin tener que cambiar código.
Catálogo: las grandes familias de modelos abiertos: LLM de Meta (Llama), Alibaba (Qwen), DeepSeek, Mistral, Google (Gemma), Microsoft (Phi), IBM (Granite), Cohere (Command R) y otros como Yi y Aya.
Integraciones: Open WebUI, Msty, AnythingLLM, Continue, Claude Code, Hermes Agent, Mercury, OpenClaw y, en general, cualquier aplicación que ya sepa hablar con la API de OpenAI.
Ollama Cloud: acceso opcional a modelos grandes en servidores gestionados. Nivel gratuito limitado, Pro 20 $/mes, Max 100 $/mes.

Cómo se accede

Descarga gratuita en ollama.com/download para macOS, Linux y Windows.
Instalación rápida en Linux: curl -fsSL https://ollama.com/install.sh | sh.
Primer modelo: ollama pull qwen3:14b para descargarlo y ollama run qwen3:14b para chatear con él desde el terminal. Aunque puede ser el modelo que tú quieras, y no necesariamente el qwen3:14b.
Servidor de fondo: ollama serve deja Ollama escuchando en localhost:11434 para que otros programas lo usen.
Ollama Cloud: alta opcional para acceder a modelos en la nube. Pro 20 $/mes, Max 100 $/mes.

Bibliografía

Sitio oficial: ollama.com
Documentación: docs.ollama.com
Repositorio: github.com/ollama/ollama
Catálogo de modelos: ollama.com/library