Contexto técnico
La frase sobre 20 agentes de Claude Code ejecutándose simultáneamente en un Mac suena graciosa hasta que miro el uso de CPU, memoria y disco. Ahí se ve algo simple: el problema no son los «agentes», sino que no tengo una cola adecuada, límites de paralelismo y una arquitectura de IA clara para la ejecución local.
Si permito que todos los agentes se inicien a la vez, la máquina no trabaja, sino que se sacude. Ruido, swap, picos de latencia, conflictos en el sistema de archivos, competencia por la red y las ventanas de contexto. Es especialmente divertido si al lado están funcionando el editor, terminales, la indexación del proyecto y un par de servicios en segundo plano.
No trataría los síntomas manualmente. El enfoque básico es: pongo un gestor de colas entre las tareas y los ejecutores, limito la concurrencia por tipo de trabajo y separo los pasos pesados. No «20 agentes haciendo todo», sino, por ejemplo, 3 agentes de código, 2 de revisión, 1 ensamblador de contexto, y los demás esperando su turno.
Si se utilizan proxies o LLMs locales a través de Ollama, es mejor no experimentar sin límites estrictos. En la práctica, OLLAMA_NUM_PARALLEL=1 y un OLLAMA_MAX_LOADED bajo ayudan a que los modelos no consuman toda la memoria unificada y colapsen el sistema. Además, el monitoreo con `ollama ps` muestra de inmediato quién realmente ocupa la memoria y quién solo aparenta multitarea.
Otro punto en el que suelo frenar al equipo: no todos los agentes deben ser igualmente «inteligentes». Las subtareas pequeñas las delegaría a modelos más ligeros o incluso a lógica determinista, reservando el costoso razonamiento para puntos específicos. Esto ya no es solo optimización, sino una integración de inteligencia artificial normal, donde los recursos se distribuyen según el valor de la tarea.
Impacto en el negocio y la automatización
Para el negocio, la conclusión es muy pragmática: muchos agentes no equivalen a alta velocidad. Sin colas ni prioridades, es fácil obtener un sistema que parece impresionante en la demo, pero que en el trabajo real consume el tiempo de los desarrolladores y rompe la previsibilidad.
Ganan aquellos que construyen la automatización con IA como una línea de producción: ingesta, planificación, ejecución, revisión, reintento. Pierden los que simplemente multiplican agentes y esperan que el hardware lo soporte todo.
En Nahornyi AI Lab, resuelvo estas cosas no con la cantidad de agentes, sino con la arquitectura de ejecución: dónde se necesita ejecución local, dónde es mejor llevar la inferencia a un nodo separado, dónde poner una cola y dónde eliminar por completo el LLM de un paso. Si sus procesos ya se enfrentan a este caos, podemos analizar el flujo de trabajo y construir un desarrollo de soluciones de IA para que el sistema acelere al equipo, en lugar de zumbar en el escritorio como un Mac sobrecalentado.