Технический контекст
Фраза про 20 одновременно запущенных Claude Code агентов на маке звучит смешно ровно до момента, пока я сам не начинаю смотреть на CPU, память и диск. Там сразу видно простую вещь: проблема не в «агентах», а в том, что у меня нет нормальной очереди, лимитов параллелизма и понятной AI architecture под локальный запуск.
Если я даю всем агентам стартовать одновременно, машина начинает не работать, а дергаться. Шум, своп, скачки latency, конфликты за файловую систему, конкуренция за сеть и контекстные окна. Особенно весело, если рядом крутятся редактор, терминалы, индексация проекта и еще пара фоновых сервисов.
Я бы здесь не лечил симптоматику вручную. Базовый ход такой: ставлю диспетчер очереди между задачами и исполнителями, режу concurrency по типам работ и развожу тяжелые шаги отдельно. Не «20 агентов делают всё», а, например, 3 кодовых, 2 ревью, 1 сборщик контекста, остальные ждут слот.
Если локально используются прокси или локальные LLM через Ollama, то без жёстких лимитов вообще лучше не экспериментировать. На практике помогают OLLAMA_NUM_PARALLEL=1 и низкий OLLAMA_MAX_LOADED, чтобы модели не съедали unified memory и не валили систему. Плюс мониторинг через ollama ps сразу показывает, кто реально держит память, а кто только создает видимость многозадачности.
Ещё один момент, на котором я обычно торможу команду: не каждый агент должен быть «умным» одинаково. Мелкие подзадачи я бы отдавал легким моделям или вообще deterministic-логике, а дорогой reasoning оставлял точечно. Это уже не просто оптимизация, а нормальная artificial intelligence integration, где ресурсы распределяются по ценности задачи.
Влияние на бизнес и автоматизацию
Для бизнеса вывод очень приземленный: много агентов не равно высокая скорость. Без очереди и приоритетов я легко получаю систему, которая выглядит впечатляюще в демо, но в реальной работе жрет время разработчиков и ломает предсказуемость.
Выигрывают те, кто строит AI automation как конвейер: ingest, planning, execution, review, retry. Проигрывают те, кто просто множит агентов и надеется, что железо всё стерпит.
Я в Nahornyi AI Lab решаю такие вещи не количеством агентов, а архитектурой исполнения: где нужен локальный запуск, где лучше вынести inference в отдельный узел, где поставить очередь, а где вообще убрать LLM из шага. Если у вас процессы уже упираются в такой хаос, можно спокойно разобрать воркфлоу и собрать AI solution development так, чтобы система ускоряла команду, а не гудела на столе как перегретый Mac.