Technischer Kontext
Ich würde das nicht auf ein plötzlich dümmer gewordenes Modell schieben. Das Bild ist prosaischer: Bei Claude Code gab es bereits offiziell anerkannte Qualitätsregressionen aufgrund von Produkteinstellungen, nicht wegen der Modellgewichte selbst. Anthropic schrieb im Frühjahr 2026 explizit, dass das Problem in einer Änderung des Reasoning-Effort, einem Bug mit dem Verlust des alten Thinking nach Idle und einem misslungenen System-Prompt lag.
Nun zu Ultracode. Ich sehe dieselbe Falle, in die viele tappen: Es wurde so dargestellt, als sei es einfach die „leistungsstärkste Denkstufe“, obwohl es faktisch eher einem Orchestrierungsmodus entspricht. Das heißt, es gibt nicht nur Reasoning, sondern einen dynamischen Workflow mit Subagenten, und für die AI-Integration in Arbeitsprozesse ist das eine völlig andere Verhaltensklasse.
Daraus entsteht der seltsame Effekt: Bei einer gewöhnlichen Aufgabe beginnt der Modus, sich das Leben selbst zu verkomplizieren. Statt die Anweisungen linear abzuarbeiten, baut er einen Baum aus Prüfungen, Verzweigungen und Delegation. Als Ergebnis erhalte ich nicht „intelligenter“, sondern „rauschender“: Der Kontext verschwimmt, Schritte gehen verloren und die Reihenfolge gerät ins Schwimmen.
Das aussagekräftigste Symptom liegt nicht in der Antwort, sondern in der Sitzungstelemetrie. Wenn der Modus 20, 30, 50+ Subagenten für ein kleines Code-Review hochfährt, ist das keine Magie, sondern architektonische Übertreibung. Und ja, das Tageslimit schmilzt in einem solchen Szenario buchstäblich vor den Augen dahin.
Deshalb klingt der Rat aus der Community vernünftig: Man sollte nicht vergleichen „Opus 4.8 ist schlecht“, sondern Max gegen Ultracode bei ein und derselben Aufgabe. Es ist durchaus möglich, dass Max für die meisten alltäglichen Szenarien eine stabilere KI-Integration bietet, weil es keine überflüssige Orchestrierung mit sich herumschleppt.
Was das für Unternehmen und Automatisierung bedeutet
Wenn ich KI-Automatisierung für die Produktion baue, setze ich diesen Modus nicht als Standard. Er ist gut dort, wo echte parallele Zerlegung gefragt ist: ein großer Code-Audit, eine Multi-File-Migration, eine komplexe Verifizierung.
Wer profitiert? Teams mit seltenen, schweren Aufgaben, bei denen der Preis eines Fehlers höher ist als die Token-Kosten. Wer verliert? Alle, die gewöhnliche Reviews, Korrekturen und Routineketten durch diesen Modus jagen.
Finanziell ist es einfach: Zusätzliche Subagenten schlagen auf Ihre Limits durch, und verpasste Anweisungen kosten die Zeit Ihrer Ingenieure. Ich behandle solche Dinge normalerweise nicht mit „Glauben an einen neuen Modus“, sondern mit einer soliden KI-Architektur: Wahl des Modus nach Aufgabenklasse, Begrenzung der Orchestrierung und expliziten Stopp-Regeln für den Agenten.
Wenn Ihr Claude Code bereits anfängt, Limits zu verbrennen und dabei Schritte zu verlieren, würde ich mir den Workflow selbst ansehen, nicht nur das Modell. Bei Nahornyi AI Lab nehmen wir genau solche Engpässe unter die Lupe: wo ein einziger starker Agent ausreicht, wo Automation mit KI nötig ist und wo man Ultracode besser gar nicht anfasst, damit das Unternehmen nicht für das Chaos bezahlt.