Auch ich habe den Fortschritt von KI-Agenten unterschätzt

Ajeya Cotra hat ihre Prognosen zu KI-Fähigkeiten nach neuen METR-Ergebnissen revidiert: Agenten bewältigen deutlich längere Aufgaben als erwartet. Für Unternehmen ist das entscheidend, da KI-Automatisierung nun für Stunden oder Tage, aber noch nicht für eine fehlerfreie Woche konzipiert werden kann.

Technischer Kontext

Ich schätze solche Texte nicht wegen des Hypes, sondern für den Moment, in dem jemand ehrlich sagt: Okay, ich habe das Tempo des Fortschritts unterschätzt. Genau das geschah in Ajeya Cotras Beitrag vom 5. März 2026. Sie bewertete neu, wie viel autonome Arbeit moderne Agenten tatsächlich bewältigen können, und für die KI-Implementierung ist dies keine philosophische Frage mehr, sondern eine architektonische.

Ich habe mich in die Zahlen vertieft, und das ist mir aufgefallen. Früher war der Richtwert etwa so: Ein Spitzenmodell wie Claude Opus 4.5 konnte bei den Ingenieursaufgaben von METR einen 'Zeithorizont' von etwa 5 Stunden aufrechterhalten, was bedeutet, dass es etwa die Hälfte der Probleme löste, für die ein erfahrener Mensch 5 Stunden brauchen würde.

Die neue Entwicklung erwies sich als unangenehm groß für jeden, der konservative Prognosen machte. Laut den von Cotra zitierten Daten bestand Opus 4.6 bereits 14 von 19 Aufgaben, die länger als 8 Stunden dauerten, und das Konfidenzintervall für seinen Horizont erweiterte sich auf 5.3 bis 66 Stunden. Das bedeutet nicht, dass der Agent plötzlich 'drei Tage lang zuverlässig' ist. Es bedeutet, dass unsere alten Messwerkzeuge an ihre Grenzen stoßen.

Und hier wird es wirklich interessant. Außerhalb sauberer Benchmarks bewältigten Agenten bereits mehrwöchige Projekte wie die Erstellung eines Browsers, eines Compilers oder großer Code-Portierungen, aber nicht im Zero-Touch-Modus. Das sehe ich auch in der Praxis: Je besser die Spezifikationen und je klarer die Werkzeuge definiert sind, desto weiter kommt ein Agent ohne Eingriff. Je offener die Aufgabe, desto schneller unterliegt er Drift, Schleifen und der Anhäufung einfacher Fehler.

Was dies für Unternehmen und Automatisierung bedeutet

Erstens: Ich würde KI-Automatisierung nicht mehr als 'Chatbot neben einem Mitarbeiter' konzipieren. Für einige Prozesse ist es sinnvoller, lange, stundenlange Runbooks mit Kontrollpunkten, Rollbacks und der Überprüfung von Artefakten zu erstellen.

Zweitens: Teams mit gut formalisierten Aufgaben werden gewinnen. Diejenigen, die versuchen, einem Agenten eine chaotische Produktionsumgebung und vage Anforderungen zu übergeben und Magie ohne eine ordnungsgemäße KI-Integration in einen Stack mit Protokollen, Tests und Zugriffsrechten erwarten, werden verlieren.

Drittens: Die Kosten eines Fehlers sind jetzt wichtiger als die Kosten für Token. Wenn ein Agent 12 Stunden läuft und in einem falschen Zustand endet, können sich die Einsparungen leicht in teures Debugging verwandeln.

Bei Nahornyi AI Lab befassen wir uns genau mit dieser schwierigen Ebene: zu entscheiden, wo einem Agenten Autonomie gewährt wird, wo Sicherheitsnetze implementiert werden und wo er ohne menschliche Aufsicht nicht handeln darf. Wenn Ihre Prozesse bereits an manuelle Überprüfungen und langsame Entwicklungszyklen stoßen, können Vadym Nahornyi und ich Ihnen helfen, eine KI-Automatisierung aufzubauen, die Ihr Team wirklich entlastet, anstatt schön formatiertes Chaos zu produzieren.

Wir haben bereits die aufkommende 'Subprime-Code-Krise' diskutiert, bei der eine zu starke Abhängigkeit von KI in der Entwicklung die Codequalität beeinträchtigen und die Gesamtbetriebskosten erhöhen kann. Dies ist eine deutliche Erinnerung an die unvorhersehbaren Herausforderungen, die bei der Integration von KI in etablierte Branchen-Workflows manchmal auftreten.

Diesen Artikel teilen

Twitter/X LinkedIn Telegram

Auch ich habe den Fortschritt von KI-Agenten unterschätzt

Technischer Kontext

Was dies für Unternehmen und Automatisierung bedeutet

Weitere News

Claude und MCP für pixel-perfekte Verstka

Claude-Zertifizierung wurde zum Partnerfilter