Skip to main content
ai-agentsclaude-codemac

20 Agents Claude Code sur Mac : Là où tout se brise

Lancer 20 agents Claude Code sur un Mac simultanément ne relève pas de la magie, mais bute sur les files d'attente, la mémoire et les I/O. Pour l'automatisation par IA, c'est un signal crucial : sans orchestration ni limites, une machine locale devient un banc d'essai instable.

Contexte technique

L'idée de lancer 20 agents Claude Code simultanément sur un Mac semble ridicule jusqu'à ce que je regarde le CPU, la mémoire et le disque. On y voit immédiatement une chose simple : le problème ne vient pas des « agents », mais de l'absence d'une file d'attente correcte, de limites de parallélisme et d'une architecture IA claire pour l'exécution locale.

Si je laisse tous les agents démarrer en même temps, la machine ne travaille pas, elle saccade. Bruit, swap, pics de latence, conflits sur le système de fichiers, concurrence pour le réseau et les fenêtres de contexte. C'est particulièrement amusant si un éditeur, des terminaux, l'indexation du projet et quelques autres services d'arrière-plan tournent à côté.

Je ne traiterais pas les symptômes manuellement. L'approche de base est la suivante : je place un gestionnaire de file d'attente entre les tâches et les exécutants, je limite la concurrence par type de travail et j'isole les étapes lourdes. Pas « 20 agents qui font tout », mais plutôt, par exemple, 3 agents de codage, 2 pour la revue, 1 pour l'assemblage de contexte, les autres attendant leur tour.

Si des proxys ou des LLM locaux sont utilisés via Ollama, il vaut mieux ne pas expérimenter sans limites strictes. En pratique, OLLAMA_NUM_PARALLEL=1 et un OLLAMA_MAX_LOADED bas aident à éviter que les modèles ne dévorent la mémoire unifiée et ne plantent le système. De plus, le suivi via `ollama ps` montre immédiatement qui occupe réellement la mémoire et qui ne fait que créer une illusion de multitâche.

Un autre point sur lequel je freine souvent l'équipe : chaque agent ne doit pas être « intelligent » de la même manière. Je déléguerais les petites sous-tâches à des modèles plus légers ou même à une logique déterministe, en réservant le raisonnement coûteux à des points précis. Ce n'est plus seulement de l'optimisation, mais une véritable intégration de l'intelligence artificielle, où les ressources sont allouées en fonction de la valeur de la tâche.

Impact sur l'entreprise et l'automatisation

Pour l'entreprise, la conclusion est très terre-à-terre : beaucoup d'agents ne signifient pas une grande vitesse. Sans file d'attente ni priorités, j'obtiens facilement un système qui semble impressionnant en démo, mais qui, en production, dévore le temps des développeurs et brise la prévisibilité.

Ceux qui construisent l'automatisation IA comme une chaîne de montage gagnent : ingestion, planification, exécution, revue, nouvelle tentative. Ceux qui ne font que multiplier les agents en espérant que le matériel tiendra le coup perdent.

Chez Nahornyi AI Lab, je résous ces problèmes non pas par le nombre d'agents, mais par l'architecture d'exécution : où une exécution locale est-elle nécessaire, où vaut-il mieux déporter l'inférence sur un nœud séparé, où placer une file d'attente, et où supprimer complètement le LLM d'une étape. Si vos processus se heurtent déjà à un tel chaos, nous pouvons analyser le flux de travail et concevoir un développement de solution IA pour que le système accélère l'équipe, au lieu de vrombir sur le bureau comme un Mac en surchauffe.

Alors que nous nous attaquons à la complexité de l'exécution de nombreux agents d'IA, il convient de noter comment les agents parallèles de Claude Code peuvent être mis à profit pour détecter les conditions de concurrence dans les pull requests. Cette application pratique souligne l'importance d'une orchestration intelligente des agents pour prévenir les goulots d'étranglement des performances et maintenir la stabilité du système dans divers scénarios de déploiement.

Partager cet article