Contexte Technique
J'apprécie ce genre de cas non pas pour l'effet « wow », mais pour l'ingénierie pragmatique. Ici, quelqu'un a réellement construit un système multi-agents dans Claude Code : il y a un orchestrateur principal, des agents de projet, une communication directe avec chacun, et même la possibilité d'en créer ou d'en supprimer de nouveaux dynamiquement.
Pour l'automatisation par IA, ce n'est plus un jouet. C'est presque un système d'exploitation vivant pour des tâches telles que la recherche, la correspondance, la comptabilité, la rédaction de brouillons d'e-mails et la gestion de projet, le tout dans une mémoire et un journal unifiés.
Ce qui a retenu mon attention : cela a été fait principalement via un abonnement Claude Code, avec une limite d'environ 10 itérations, et non via une API. La validation est parfois gérée par Codex, et Claude Code et Gemini interviennent aussi comme sous-agents. Le système fonctionne, mais on sent immédiatement qu'il atteindra vite des limites. Si quelqu'un essaie d'extraire une pseudo-API de l'abonnement, il ne serait pas loin de violer les conditions d'utilisation.
Mais il y a plus important. Une question très pertinente sur les métriques de qualité a été soulevée dans la discussion, et c'est là que la magie s'estompe rapidement. Avoir 20, 30 ou 50 agents qui discutent entre eux ne signifie pas automatiquement que vous avez une bonne implémentation d'intelligence artificielle. Sans critères d'arrêt, de budgets de tokens et de portes de qualité claires, vous ne faites que brûler du contexte de manière élégante et enthousiaste.
Un extrait révélateur des benchmarks : la compétence de prise de décision a consommé une fois et demie plus de tokens pour un résultat moins bon qu'un agent sans compétences. En revanche, la compétence de révision d'architecture a doublé la qualité pour le même coût en tokens. Je traduirais cela ainsi : toutes les compétences n'améliorent pas le système ; certaines n'ajoutent que de la cérémonie et du bruit.
Et oui, cela correspond parfaitement à ce que je vois dans la pratique. Si un agent est mauvais pour décomposer les tâches, établir des priorités et savoir quand s'arrêter, le multi-agent commence à dévorer le budget de manière linéaire. Cependant, une couche de révision avant l'exécution est souvent très vite rentabilisée, car il est moins coûteux de détecter un mauvais plan que de nettoyer plus tard un mauvais code ou une automatisation défaillante.
Impact sur l'Entreprise et l'Automatisation
Les équipes ayant de nombreuses tâches cognitives parallèles en sortent gagnantes : recherche, révision, communication, support de projet. Dans ces cas, l'intégration de l'IA avec un orchestrateur permet réellement d'économiser des heures et de réduire le changement de contexte manuel.
Ceux qui pensent que plus d'agents signifie automatiquement de meilleurs résultats sont perdants. Pour les tâches routinières, un seul agent bien configuré est presque toujours moins cher et plus stable qu'un « village » de bots.
J'établirais trois règles : une limite d'itérations, des critères de terminaison pour les agents bloqués et une révision d'architecture distincte avant l'exécution. C'est précisément ce genre de goulots d'étranglement que nous traitons pour nos clients chez Nahornyi AI Lab lorsque nous construisons des solutions d'IA pour les entreprises sans le feu d'artifice des tokens gaspillés.
Si vous êtes déjà confronté à un chaos de chats, de tâches et de vérifications manuelles, nous pouvons mettre en place une véritable automatisation par IA pour votre processus sans ce zoo. Contactez-nous, et Vadym Nahornyi et moi-même chez Nahornyi AI Lab évaluerons où vous avez besoin d'un agent puissant et où il est vraiment judicieux de construire un orchestrateur.