Technischer Kontext
Ich mag solche Arbeiten wegen ihrer Bodenständigkeit: kein abstrakter Benchmark, sondern 90 unabhängige Durchläufe derselben Aufgabe. Die Agenten erstellten ein Echtzeit-Retrospective-Board nach einer Spezifikation, das Ergebnis wurde anhand von 14 Kriterien mit einer Höchstpunktzahl von 42 plus visueller Prüfung bewertet.
Für mich ist hier nicht die UI wichtig, sondern die Schlussfolgerung für die KI-Implementierung. Die Autoren prüften, was die Zuverlässigkeit beim ersten Versuch wirklich steigert: Modellklasse, Überlegungsaufwand, Zugang zu Testing-Tools und designorientiertes Prompting.
Das stärkste Signal: Der Überlegungsaufwand gewann haushoch. Beim Wechsel von High auf xHigh stieg der Anteil perfekter Erstversuche von 28 % auf 89 %, während die Zahl korrigierender Prompts etwa um den Faktor fünf sank. Das ist keine kosmetische Änderung, sondern ein Regimewechsel.
An diesem Punkt würde ich anstelle vieler Teams innehalten. Testing-Tools brachten keinen Zuwachs an funktionaler Zuverlässigkeit, selbst dort, wo sie etwas hätten abfangen müssen, trieben aber die Kosten um 42–68 % in die Höhe.
Auch die Modellstufe erwies sich als dominierender Faktor. Frontier-Modelle operierten nahe der Obergrenze, während ein schwächeres lokales Modell deutlich abfiel. Designorientiertes Prompting verbesserte den visuellen Aspekt, aber nicht die Funktionalität – das ähnelt stark dem echten Leben: schöner heißt nicht zuverlässiger.
Was das für Unternehmen und Automatisierung bedeutet
Wenn ich eine KI-Architektur für einen Code-Agenten entwerfe, bin ich jetzt noch vorsichtiger mit der Idee, „wir werfen mehr Tools darauf und es wird zuverlässiger“. Nein – zuerst muss man die Denkfähigkeit des Modells einkaufen und es dann mit Werkzeugen umgeben.
Die zweite praktische Erkenntnis: Ein billiger Agent mit vielen Prüfungen kann teurer und schwächer sein als ein leistungsfähigeres Modell mit hohem Reasoning-Budget. Für die KI-Automation ist das eine unangenehme, aber nützliche Rechnung.
Es gewinnen die Teams, die nicht nur den Token-Preis, sondern die Kosten eines erfolgreichen ersten Durchlaufs kalkulieren. Verlierer sind die, die Orchestrierungskomplexität mit Ergebnisqualität verwechseln.
Wir bei Nahornyi AI Lab lösen genau solche Fragen in der Praxis: Wo starkes Reasoning nötig ist, wo eine einfache Pipeline ausreicht und wo Tools nur die Rechnung aufblähen. Wenn Ihre KI-Integration in der Entwicklung bereits Budget frisst, aber keine vorhersagbaren Ergebnisse liefert, analysiere ich gern Ihr Szenario und schlage eine KI-Lösungsentwicklung ohne unnötige Agentenmagie vor.