Technischer Kontext
Ich bin auf diesen Fall nicht wegen des Dramas um die Tools gestoßen, sondern wegen eines sehr bekannten Musters: Sobald die KI-Automatisierung in der Entwicklung zu wortreich wird, schnellt der Token-Zähler in die Höhe und die menschliche Kontrolle schwindet. Hier ist das fast unter dem Mikroskop sichtbar.
Das Szenario ist einfach. Die Aufgabe ist lokal: Das Speichern in einem Elasticsearch-Repository auf die Bulk-API umstellen. Das Repository selbst umfasst etwa 500 Zeilen, plus etwas umgebenden Code. Dann bläst Superpowers dies zu einer 2700-zeiligen Spezifikation auf, mit Codebeispielen, Tests, Fragen, einem TDD-Ritual und 14 Commits in etwa 2 Stunden.
Und genau hier würde ich auch innehalten. Nicht, weil TDD schlecht ist, sondern weil die Überprüfung von 2700 Zeilen für eine mittelgroße Änderung, gelinde gesagt, kein Vergnügen ist. Formal hat der Agent großartige Arbeit geleistet; praktisch bezahle ich jetzt nicht nur mit Tokens, sondern auch mit der Aufmerksamkeit meines Teams.
Im alternativen Ansatz, den der Benutzer mit den Fähigkeiten von Matt Pocock und dem Wechsel zu Codex beschrieb, ist der Rhythmus anders: ein kurzer Plan, eine kurze Iteration, Überprüfung des endgültigen Codes und Besprechung unklarer Teile mit dem Agenten. Ich persönlich halte diesen Modus für nachhaltiger, wenn man die Architektur in den eigenen Händen behalten will, anstatt eine weitere ordentlich verpackte Blackbox zu akzeptieren.
Ja, von außen betrachtet mag es langsamer erscheinen, als eine große Spezifikation hineinzuwerfen und einen Kaffee trinken zu gehen. Aber in der Praxis ist ein kurzer Kontext fast immer billiger, vorhersehbarer und passt besser in die KI-Integration innerhalb eines Live-Projekts, in dem der Code bereits eine Geschichte, Kompromisse und seltsame Kanten angesammelt hat.
Ein wichtiger Punkt nebenbei: Es gibt hier keine direkten Benchmarks, und ich würde nicht so tun, als wäre dies eine wissenschaftliche Wahrheit. Vorerst sind dies hauptsächlich starke Benutzerbeobachtungen, aber sie stimmen gut mit dem überein, was ich in realen Agenten-Pipelines sehe.
Was bedeutet das für Unternehmen und Automatisierung?
Gewinner sind Teams, die eine verwaltete KI-Lösungsentwicklung benötigen – nicht „Autopilot um jeden Preis“: weniger Kontext, schnellere Reviews, niedrigere Kosten pro Zyklus. Dies gilt insbesondere dort, wo häufige, sichere Änderungen wichtiger sind als ein demonstrativ autonomer Agent.
Szenarien, in denen einem Agenten bei kleinen Aufgaben zu viel Freiheit gegeben wird, verlieren. Die teure Gründlichkeit frisst die Vorteile auf, und ein Mensch muss das Ergebnis trotzdem überprüfen.
Ich würde es so formulieren: Ein wortreicher TDD-Ansatz ist gut, wenn die Aufgabe wirklich groß ist und fast wie ein Mini-Projekt formalisiert werden muss. Für die tägliche Produktentwicklung sind kompakte Iterationen oft einfach kostengünstiger.
Bei Nahornyi AI Lab analysieren wir genau solche Engpässe in Teams: Wo ein Agent benötigt wird, wo ein guter Zyklus mit kurzem Kontext ausreicht und wo die KI-Architektur begonnen hat, das Budget ohne Nutzen zu verbrennen. Wenn Sie eine ähnliche Geschichte mit teuren und schwerfälligen Agenten haben, lassen Sie uns gemeinsam Ihren Prozess betrachten und eine KI-Automatisierung entwickeln, die zu Ihrem tatsächlichen Arbeitsablauf passt, nicht nur zu einer schicken Demo.