Qué es un Ollama Server y cómo instalarlo

Tiempo de lectura: 8 minutos

Ollama es una herramienta que permite ejecutar modelos de lenguaje de inteligencia artificial directamente en tu propio servidor o computadora, sin depender de servicios en la nube.

En este artículo se explica qué es un Ollama Server, cómo instalarlo en Linux, cómo exponer la API y por qué un VPS es la opción más práctica para hacer un hosting de Ollama estable y accesible desde cualquier lugar.

Contenidos ocultar

1 Qué es Ollama y para qué sirve

2 Cómo funciona un Ollama Server

3 Requisitos previos para instalar Ollama

3.1 Hardware mínimo recomendado

3.2 Sistema operativo

4 Cómo instalar Ollama Server paso a paso

4.1 Paso 1: Actualizar el sistema

4.2 Paso 2: Instalar Ollama

4.3 Paso 3: Descargar un modelo

4.4 Paso 4: Probar el modelo en la terminal

4.5 Paso 5: Verificar que la API está activa

5 Cómo exponer el Ollama Server como API

5.1 Configurar Ollama para escuchar en todas las interfaces

5.2 Hacer una petición a la API desde otra máquina

5.3 Proteger el acceso con un proxy inverso (Nginx)

6 Hosting de Ollama: por qué un VPS es la mejor opción

7 ¿Qué plan de VPS necesito para Ollama?

8 Errores comunes al instalar Ollama y cómo resolverlos

8.1 Error: «ollama: command not found» después de instalar

8.2 El servicio no arranca con systemctl

8.3 El modelo responde muy lento

8.4 Error: «model not found»

8.5 El puerto 11434 no responde desde el exterior

9 Lo que dicen los clientes de Neolo

10 Preguntas frecuentes

10.1 ¿Ollama es gratuito?

10.2 ¿Se puede hacer hosting de Ollama en un servidor compartido?

10.3 ¿Cuántos modelos se pueden tener instalados al mismo tiempo?

10.4 ¿Ollama tiene interfaz gráfica?

10.5 ¿Qué diferencia hay entre Ollama y LM Studio?

10.6 ¿Puedo conectar Ollama con n8n?

10.7 ¿Ollama soporta GPU en un servidor?

11 Conclusión

Qué es Ollama y para qué sirve

Ollama es una herramienta de código abierto que permite descargar y ejecutar modelos de lenguaje grande (LLMs) directamente en tu propia infraestructura, ya sea una computadora local o un servidor remoto.

A diferencia de usar ChatGPT, Gemini o Claude a través de sus APIs en la nube, con Ollama el modelo se ejecuta completamente en tu hardware. Eso significa que los datos nunca salen de tu entorno, no hay costos por token y el tiempo de respuesta depende exclusivamente de los recursos del servidor donde esté corriendo.

Los modelos más utilizados con Ollama incluyen LLaMA 3 (Meta), Mistral, Gemma (Google), Phi-3 (Microsoft), Qwen y DeepSeek, entre muchos otros. Todos se descargan con un solo comando y pueden ejecutarse sin conexión a internet una vez descargados.

VPS AL MEJOR PRECIO

¿Para qué se usa en la práctica?

Integrar un modelo de lenguaje en una aplicación propia sin pagar por cada consulta
Procesar documentos internos con privacidad total
Crear asistentes conversacionales para uso interno en empresas
Experimentar con distintos modelos de IA en un entorno controlado
Alimentar flujos de automatización (por ejemplo, con n8n) sin exponer datos a terceros

El artículo sobre cómo actúa un agente de IA puede complementar muy bien este punto si quieres entender cómo se integra Ollama en pipelines de automatización.

Cómo funciona un Ollama Server

Cuando se instala Ollama en un servidor, el proceso levanta un servicio en segundo plano que expone una API REST local en el puerto 11434. Esa API acepta peticiones en formato JSON y devuelve las respuestas del modelo seleccionado.

La arquitectura es simple:

Cliente (curl, Python, n8n, etc.)
         |
         v
   API REST :11434
         |
         v
   Ollama Server (proceso local)
         |
         v
   Modelo LLM (archivo .gguf en disco)

El modelo se carga en memoria RAM (o VRAM si hay GPU disponible) cuando recibe la primera petición. Las peticiones siguientes reutilizan el modelo cargado, lo que reduce el tiempo de respuesta.

Ollama gestiona la descarga, el almacenamiento y la carga de los modelos de forma automática. No es necesario manejar archivos .gguf manualmente ni configurar entornos de Python complejos.

Si quieres profundizar en cómo alojar modelos de lenguaje en infraestructura propia, el artículo sobre cómo alojar un LLM en un VPS es una lectura complementaria útil.

Requisitos previos para instalar Ollama

Antes de empezar, es importante tener claro qué recursos necesita Ollama para funcionar de forma estable.

Hardware mínimo recomendado

Recurso	Mínimo (modelos 7B)	Recomendado (modelos 13B+)
RAM	8 GB	16 GB o más
CPU	4 núcleos	8 núcleos o más
Almacenamiento	20 GB libres	50 GB o más
GPU (opcional)	No requerida	NVIDIA con CUDA 12+

Los modelos más pequeños, como Phi-3 Mini o Gemma 2B, pueden correr con 4–6 GB de RAM disponible. Los modelos de 70B requieren al menos 40 GB de RAM o una GPU de alto rendimiento.

Sistema operativo

Ollama es compatible con:

Linux (Ubuntu 20.04+, Debian 11+, cualquier distribución con systemd)
macOS (Apple Silicon y Intel)
Windows (con WSL2 o instalador nativo desde la versión 0.1.24)

Para uso en servidor, Linux es el entorno recomendado por su estabilidad y porque Ollama se integra nativamente como servicio de systemd.

Cómo instalar Ollama Server paso a paso

La guía a continuación está orientada a un servidor Ubuntu 22.04, que es el entorno más común para hosting de Ollama.

Paso 1: Actualizar el sistema

sudo apt update &amp;&amp; sudo apt upgrade -y

Paso 2: Instalar Ollama

El instalador oficial descarga el binario y configura el servicio de systemd automáticamente:

curl -fsSL https://ollama.com/install.sh | sh

Al terminar la instalación, Ollama queda corriendo como servicio en segundo plano. Se puede verificar con:

systemctl status ollama

La salida esperada incluye active (running).

Paso 3: Descargar un modelo

Por ejemplo, para descargar LLaMA 3.2 (3B, aproximadamente 2 GB):

ollama pull llama3.2

Para un modelo más completo como Mistral 7B:

ollama pull mistral

La lista completa de modelos disponibles está en ollama.com/library.

Paso 4: Probar el modelo en la terminal

ollama run mistral

Esto abre una sesión de chat interactiva directamente en la terminal. Para salir, se usa /bye.

Paso 5: Verificar que la API está activa

curl http://localhost:11434/api/tags

La respuesta es un JSON con la lista de modelos descargados. Si devuelve {"models":[...]}, la API está funcionando correctamente.

Cómo exponer el Ollama Server como API

Por defecto, Ollama solo escucha conexiones desde localhost. Para que otras aplicaciones o servicios externos puedan conectarse, hay que configurar la variable de entorno OLLAMA_HOST.

Configurar Ollama para escuchar en todas las interfaces

Editar el archivo de configuración del servicio:

sudo systemctl edit ollama

Agregar dentro del bloque [Service]:

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

Guardar y reiniciar el servicio:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Hacer una petición a la API desde otra máquina

curl http://TU_IP_PUBLICA:11434/api/generate \
  -d '{
    "model": "mistral",
    "prompt": "Explica qué es un servidor web en tres líneas",
    "stream": false
  }'

Proteger el acceso con un proxy inverso (Nginx)

Si la API va a estar expuesta públicamente, lo correcto es ponerla detrás de un proxy inverso con autenticación básica o HTTPS. Un ejemplo básico con Nginx:

server {
    listen 443 ssl;
    server_name ollama.tudominio.com;

    ssl_certificate /etc/letsencrypt/live/ollama.tudominio.com/fullchain.pem;
    ssl_certificate_key /etc/letsencrypt/live/ollama.tudominio.com/privkey.pem;

    location / {
        proxy_pass http://127.0.0.1:11434;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
    }
}

Nunca se debe dejar el puerto 11434 abierto directamente a internet sin ningún tipo de autenticación. Cualquier persona podría usar el modelo y agotar los recursos del servidor.

Hosting de Ollama: por qué un VPS es la mejor opción

Correr Ollama en una computadora personal tiene sentido para experimentar, pero presenta limitaciones reales en entornos de producción: la máquina debe estar encendida siempre, la IP puede cambiar y los recursos compiten con otras aplicaciones.

Un hosting de Ollama en un servidor VPS resuelve todos esos problemas. El VPS está disponible las 24 horas, tiene una IP fija, permite configurar el entorno exactamente como se necesita y puede escalarse si el proyecto crece.

Para hacer hosting de Ollama de forma estable, el hosting VPS de Neolo es una opción sólida: los servidores mantienen un uptime consistente, el soporte responde el 80% de las consultas en menos de 1 hora y se puede empezar con los planes más accesibles para modelos pequeños, escalando según el uso.

Neolo opera desde 2002 como empresa bootstrapped, lo que significa que sus decisiones no dependen de inversores sino de lo que realmente funciona para sus clientes. Tiene más de 10.000 clientes distribuidos en todo el mundo y ofrece una garantía de reembolso de 30 días, lo que permite probar el entorno sin riesgo.

¿Qué plan de VPS necesito para Ollama?

Depende del modelo que quieras ejecutar:

Modelo	RAM necesaria	Plan orientativo
Phi-3 Mini (3.8B)	4–6 GB	VPS básico (8 GB RAM)
Mistral 7B	8–10 GB	VPS medio (16 GB RAM)
LLaMA 3 8B	10–12 GB	VPS medio (16 GB RAM)
LLaMA 3 70B	40+ GB	VPS alto o dedicado

Para proyectos que integran Ollama con herramientas como n8n, lo habitual es empezar con un VPS de 16 GB de RAM y un modelo de 7B, que ofrece un balance razonable entre calidad de respuesta y consumo de recursos.

Errores comunes al instalar Ollama y cómo resolverlos

Error: «ollama: command not found» después de instalar

Ocurre cuando el PATH no incluye /usr/local/bin. Solución:

export PATH=$PATH:/usr/local/bin
source ~/.bashrc

El servicio no arranca con systemctl

Revisar el log del servicio para ver el error exacto:

journalctl -u ollama -n 50

El problema más frecuente es que el usuario bajo el que corre el servicio no tiene permisos sobre el directorio de modelos (~/.ollama). Se puede corregir ajustando los permisos o cambiando User en el archivo de servicio.

El modelo responde muy lento

En un VPS sin GPU, los modelos de 7B o más pueden tardar varios segundos por respuesta si la CPU es de baja frecuencia. Lo que ocurre realmente es que la inferencia en CPU consume entre 4 y 8 núcleos al máximo durante todo el tiempo de generación. Las opciones son: usar un modelo más pequeño (3B o menos), reducir el número de tokens de respuesta, o migrar a un VPS con más núcleos.

Error: «model not found»

Pasa cuando se llama a un modelo que no fue descargado previamente. Verificar los modelos disponibles:

ollama list

Si el modelo no aparece, descargarlo con ollama pull nombre-del-modelo.

El puerto 11434 no responde desde el exterior

Verificar dos cosas: (1) que OLLAMA_HOST esté configurado como 0.0.0.0:11434 y (2) que el firewall del servidor permita conexiones entrantes en ese puerto:

sudo ufw allow 11434/tcp

Aunque, como se explicó antes, lo ideal es no exponer ese puerto directamente y usar un proxy inverso.

El artículo sobre consejos de seguridad para proteger un VPS es una lectura recomendada antes de exponer cualquier servicio en un servidor público.

Si estás evaluando combinar Ollama con otras herramientas de desarrollo asistidas por IA en un entorno de servidor, este video explica por qué el VPS es la infraestructura más adecuada para ese tipo de proyectos:

Lo que dicen los clientes de Neolo

★★★★★ Ricardo Jakulica
«Se nota que cuando se plantea una dificultad, el equipo la estudia rápidamente y propone soluciones concretas.»

★★★★★ Esteban Lopez
«Excelente hosting. Muchísimo mejor que Hostinger, SiteGround o HostGator.»

★★★★★ Alejandro Belmonte
«Cliente desde 2006. Siempre me brindaron muy buen servicio, con atención y respuesta rápida.»

Preguntas frecuentes

¿Ollama es gratuito?

Sí. Ollama es un proyecto de código abierto y su uso es completamente gratuito. Los modelos que se ejecutan con él también son gratuitos en su mayoría, aunque algunos tienen licencias de uso restringido para aplicaciones comerciales (como LLaMA 3 en ciertos contextos). El único costo real es la infraestructura donde se ejecuta.

¿Se puede hacer hosting de Ollama en un servidor compartido?

No. El hosting compartido no permite instalar servicios del sistema ni ejecutar procesos persistentes en segundo plano. Para hacer un hosting de Ollama funcional se necesita un VPS o un servidor dedicado, donde el usuario tiene acceso root completo.

¿Cuántos modelos se pueden tener instalados al mismo tiempo?

Tantos como permita el espacio en disco. Ollama no limita el número de modelos almacenados. Sin embargo, solo puede tener un modelo cargado en memoria activamente (el último que se llamó). Cambiar de modelo implica descargar el anterior de RAM y cargar el nuevo, lo que toma entre 5 y 30 segundos dependiendo del tamaño.

¿Ollama tiene interfaz gráfica?

Por defecto, no. Ollama es una herramienta de línea de comandos y API. Sin embargo, existen interfaces de terceros que se conectan a la API de Ollama y ofrecen una interfaz web similar a ChatGPT. Las más usadas son Open WebUI y Ollama Web UI, que se instalan por separado y se conectan al servidor Ollama existente.

¿Qué diferencia hay entre Ollama y LM Studio?

LM Studio es una aplicación de escritorio para Windows y macOS orientada a uso personal. Ollama está diseñado para entornos de servidor y uso programático a través de su API. En la práctica, Ollama es más adecuado para integraciones con aplicaciones, automatizaciones y uso en producción, mientras que LM Studio es más cómodo para exploración visual en una computadora personal.

¿Puedo conectar Ollama con n8n?

Sí. n8n tiene un nodo nativo para Ollama que permite conectar flujos de automatización directamente con la API del servidor. Es una combinación muy usada para construir agentes de IA que procesan datos de forma privada. Lo ideal es tener ambos servicios corriendo en el mismo VPS o en servidores de la misma red privada.

¿Ollama soporta GPU en un servidor?

Sí, si el servidor tiene una GPU NVIDIA con soporte CUDA 12+. Ollama detecta automáticamente la GPU disponible y la usa para acelerar la inferencia. En un VPS estándar sin GPU, toda la carga recae sobre la CPU. Para proyectos que requieren respuestas rápidas con modelos grandes, un servidor con GPU reduce los tiempos de respuesta de forma significativa.

Conclusión

Ollama es una de las formas más accesibles de tener un modelo de lenguaje propio funcionando en producción. La instalación es directa, la API es estándar y los modelos disponibles cubren la mayoría de los casos de uso actuales. El punto crítico no es la herramienta en sí, sino la infraestructura donde corre.

Para hacer un hosting de Ollama estable, privado y disponible en todo momento, un VPS es la elección correcta. El hosting VPS de Neolo ofrece los recursos necesarios para ejecutar modelos de 7B o superiores, con planes que se pueden contratar con descuento pagando por adelantado, soporte técnico real y más de dos décadas de experiencia gestionando infraestructura para proyectos de todo tipo.