J'ai aussi sous-estimé les progrès des agents IA

Ajeya Cotra a révisé ses prévisions sur les capacités de l'IA suite aux nouveaux résultats de METR : les agents gèrent des tâches bien plus longues que prévu. C'est crucial pour les entreprises, car l'automatisation par IA peut désormais être conçue pour des heures, voire des jours, mais pas encore pour une semaine sans erreur.

Contexte technique

J'apprécie ce genre d'articles non pas pour le battage médiatique, mais pour le moment où quelqu'un admet honnêtement : d'accord, j'ai sous-estimé le rythme du progrès. C'est exactement ce qui s'est passé dans le post d'Ajeya Cotra du 5 mars 2026. Elle a réévalué la quantité de travail autonome que les agents modernes peuvent réellement accomplir, et pour l'implémentation de l'IA, ce n'est plus une question philosophique, mais architecturale.

J'ai examiné les chiffres, et voici ce qui a retenu mon attention. Auparavant, la référence était à peu près la suivante : un modèle de pointe comme Claude Opus 4.5 pouvait maintenir un 'horizon temporel' d'environ 5 heures sur les tâches d'ingénierie de METR, ce qui signifie qu'il pouvait résoudre environ la moitié des problèmes qu'un humain qualifié mettrait 5 heures à résoudre.

Le nouveau changement s'est avéré inconfortablement important pour quiconque faisait des prévisions conservatrices. Selon les données citées par Cotra, Opus 4.6 a déjà réussi 14 des 19 tâches de plus de 8 heures, et l'intervalle de confiance pour son horizon s'est élargi pour atteindre 5.3 à 66 heures. Cela ne signifie pas que l'agent est soudainement 'fiable pendant trois jours'. Cela signifie que nos anciens outils de mesure atteignent leurs limites.

Et c'est là que ça devient vraiment intéressant. En dehors des benchmarks bien définis, les agents géraient déjà des projets de plusieurs semaines comme la création d'un navigateur, d'un compilateur ou de portages de code importants, mais pas en mode entièrement autonome. Je le constate aussi sur le terrain : mieux les spécifications sont définies et les outils délimités, plus un agent peut avancer sans intervention. Plus la tâche est ouverte, plus vite il est sujet à la dérive, aux boucles et à l'accumulation d'erreurs simples.

Ce que cela change pour l'entreprise et l'automatisation

Premièrement : je ne concevrais plus l'automatisation par IA comme un 'chatbot à côté d'un employé'. Pour certains processus, il est plus judicieux de créer de longs 'runbooks' de plusieurs heures, avec des points de contrôle, des retours en arrière et la vérification des artefacts.

Deuxièmement : les équipes avec des tâches bien formalisées seront gagnantes. Celles qui tentent de confier à un agent un environnement de production chaotique et des exigences vagues en attendant de la magie, sans une intégration IA appropriée dans une pile avec des logs, des tests et des droits d'accès, perdront.

Troisièmement : le coût d'une erreur est désormais plus important que le coût des jetons. Si un agent fonctionne pendant 12 heures et se retrouve dans un état incorrect, les économies peuvent facilement se transformer en un débogage coûteux.

Chez Nahornyi AI Lab, nous nous attaquons à cette couche complexe : décider où accorder de l'autonomie à un agent, où mettre en place des filets de sécurité, et où l'empêcher d'agir sans supervision humaine. Si vos processus sont déjà bloqués par des vérifications manuelles et des cycles d'ingénierie lents, Vadym Nahornyi et moi pouvons vous aider à construire une automatisation IA qui soulage réellement votre équipe, au lieu de produire un chaos joliment formaté.

Nous avons précédemment discuté de la 'crise du code de mauvaise qualité' émergente, où une dépendance excessive à l'IA pour le développement peut dégrader la qualité du code et augmenter le coût total de possession. Cela rappelle crûment les défis imprévisibles qui surgissent parfois lors de l'intégration de l'IA dans les flux de travail établis de l'industrie.

Partager cet article

Twitter/X LinkedIn Telegram

J'ai aussi sous-estimé les progrès des agents IA

Contexte technique

Ce que cela change pour l'entreprise et l'automatisation

Plus d'actualités

Gemma 4 accélère l'inférence grâce à la prédiction multi-jetons

Codex prend la tête après sa dernière mise à jour