Технічний контекст
Фраза про 20 одночасно запущених Claude Code агентів на маці звучить смішно рівно до того моменту, поки я сам не починаю дивитися на CPU, пам'ять та диск. Там одразу видно просту річ: проблема не в «агентах», а в тому, що в мене немає нормальної черги, лімітів паралелізму та зрозумілої AI architecture під локальний запуск.
Якщо я даю всім агентам стартувати одночасно, машина починає не працювати, а сіпатися. Шум, своп, стрибки latency, конфлікти за файлову систему, конкуренція за мережу та контекстні вікна. Особливо весело, якщо поруч крутяться редактор, термінали, індексація проєкту та ще кілька фонових сервісів.
Я б тут не лікував симптоматику вручну. Базовий хід такий: ставлю диспетчер черги між завданнями та виконавцями, ріжу concurrency за типами робіт і розводжу важкі кроки окремо. Не «20 агентів роблять усе», а, наприклад, 3 кодових, 2 для рев'ю, 1 збирач контексту, решта чекає на слот.
Якщо локально використовуються проксі або локальні LLM через Ollama, то без жорстких лімітів взагалі краще не експериментувати. На практиці допомагають OLLAMA_NUM_PARALLEL=1 і низький OLLAMA_MAX_LOADED, щоб моделі не з'їдали unified memory і не валили систему. Плюс моніторинг через `ollama ps` одразу показує, хто реально тримає пам'ять, а хто лише створює видимість багатозадачності.
Ще один момент, на якому я зазвичай гальмую команду: не кожен агент має бути «розумним» однаково. Дрібні підзадачі я б віддавав легким моделям або взагалі deterministic-логіці, а дороге reasoning залишав точково. Це вже не просто оптимізація, а нормальна artificial intelligence integration, де ресурси розподіляються за цінністю завдання.
Вплив на бізнес та автоматизацію
Для бізнесу висновок дуже приземлений: багато агентів не дорівнює високій швидкості. Без черги та пріоритетів я легко отримую систему, яка виглядає вражаюче в демо, але в реальній роботі жере час розробників і ламає передбачуваність.
Виграють ті, хто будує AI automation як конвеєр: ingest, planning, execution, review, retry. Програють ті, хто просто множить агентів і сподівається, що залізо все витримає.
Я в Nahornyi AI Lab вирішую такі речі не кількістю агентів, а архітектурою виконання: де потрібен локальний запуск, де краще винести inference в окремий вузол, де поставити чергу, а де взагалі прибрати LLM із кроку. Якщо у вас процеси вже впираються в такий хаос, можна спокійно розібрати воркфлоу та зібрати AI solution development так, щоб система прискорювала команду, а не гуділа на столі, як перегрітий Mac.