¿Cuánta RAM necesitas para correr IA local? Guía para servidores con Ollama

Montar tu propio servidor de Inteligencia Artificial para usar modelos como Llama 3, Mistral o Phi-3 es el hack de productividad definitivo. Te permite automatizar tareas, analizar documentos privados y programar sin que tus datos salgan de tu red local.

Pero antes de instalar nada, debes responder a la pregunta técnica más crítica: ¿Cuánta memoria necesito? En el mundo de la IA, la memoria es el factor que determina si un modelo responde en segundos o si tarda minutos en balbucear una palabra.

1. El concepto clave: RAM vs. VRAM

Para correr IA con Ollama, existen dos tipos de memoria:

VRAM (Video RAM): Es la memoria de tu tarjeta gráfica (GPU). Es ultrarrápida y es donde la IA prefiere «vivir». Si el modelo cabe aquí, la respuesta será instantánea.
RAM del Sistema: Si no tienes una GPU potente, Ollama usará la RAM de tu PC. Es mucho más lenta, pero permite correr modelos más grandes que no caben en la tarjeta de video.

2. Los «Parámetros» y el tamaño del modelo

Los modelos de IA se miden en parámetros (Billion / Billones). Cuantos más parámetros, más inteligente es el modelo, pero más memoria ocupa:

Modelo (Tamaño)	VRAM/RAM mínima (4-bit quant)	Recomendado
Pequeño (3B – 7B) (ej. Phi-3, Mistral)	8 GB	12 GB
Mediano (13B – 14B) (ej. Llama 3)	16 GB	24 GB
Grande (30B – 70B) (ej. Llama 3 70B)	40 GB	64 GB+

Nota: La mayoría de los usuarios utilizan versiones «quantized» (comprimidas). Un modelo de 7B parámetros «pesa» unos 5GB en RAM gracias a esta compresión de 4 bits.

3. Escenarios recomendados para Ollama

Escenario A: El Servidor Minimalista (Presupuesto bajo)

Hardware: 16 GB de RAM del sistema + GPU de 8 GB (RTX 3060/4060).
Capacidad: Podrás correr modelos de 7B u 8B parámetros con total fluidez. Ideal para asistentes de texto básicos y resúmenes de documentos.

Escenario B: El Servidor de Productividad Pro (Recomendado)

Hardware: 32 GB o 64 GB de RAM del sistema + GPU de 12 GB o 16 GB (RTX 4070 Ti / 4080).
Capacidad: Puedes correr modelos de hasta 14B parámetros totalmente en VRAM, o modelos de 30B combinando GPU y RAM. Aquí la IA ya empieza a razonar de forma compleja y a programar muy bien.

Escenario C: El Servidor de IA Avanzado (Sin límites)

Hardware: 128 GB de RAM + Multi-GPU (2x RTX 3090/4090 de 24GB c/u).
Capacidad: Puedes correr Llama 3 70B, un modelo que compite con GPT-4 en razonamiento. Este es el hardware necesario si quieres que la IA gestione toda tu base de conocimientos (RAG) localmente.

4. El «Truco» de los Mac con Apple Silicon

Si vas a usar un Mac (M1, M2, M3) para Ollama, tienes una ventaja: la Memoria Unificada.

En un Mac, la GPU y el CPU comparten la misma RAM. Si compras un Mac Studio con 128GB de RAM, la IA puede usar casi toda esa memoria como si fuera VRAM. Por eso los Mac son, hoy por hoy, las mejores máquinas «todo en uno» para IA local.

5. Consejos finales para optimizar tu servidor de IA

Prioriza la velocidad de la RAM: Si vas a depender de la RAM del sistema, usa DDR5 a la máxima frecuencia posible. El «ancho de banda» es lo que dicta la velocidad de las palabras por segundo.
Usa Linux: Ollama rinde ligeramente mejor en Linux que en Windows, y la gestión de la memoria de video es más eficiente.
No escatimes en el SSD: Los modelos de IA son archivos grandes (5GB a 40GB). Un NVMe (visto en la entrada anterior) reducirá el tiempo que tarda el servidor en cargar el modelo cada vez que lo consultes.

Conclusión

Para montar un servidor de IA en 2026, 32 GB de RAM y una GPU con 12 GB de VRAM es el punto de partida ideal para una experiencia profesional. Menos de eso te limitará a modelos muy básicos; más de eso te dará un superordenador capaz de razonar de forma autónoma en tu propio escritorio.