Skip to main content
OpenAIClaudeAI automation

OpenAI und Claude: Limits, Hype und die wahren Kosten

Im Mai 2026 wird viel über „günstige Tokens“ für OpenAI und Claude gesprochen, doch die Realität ist gemischt. OpenAI bietet einen temporären Boost für Codex, während die Limits bei Claude eher strenger wurden. Dies ist für die KI-Automatisierung entscheidend, da es Budget, Geschwindigkeit und Lastenberechnung direkt beeinflusst.

Technischer Kontext

Ich habe mich eingehend mit den aktuellen Diskussionen über OpenAI und Claude befasst, denn bei der KI-Implementierung werden solche Themen schnell von Memes zu Infrastrukturrechnungen. Und hier habe ich sofort innegehalten: Es wird viel über „x2 Tokens“ gesprochen, aber es gibt deutlich weniger bestätigte Fakten.

Bei OpenAI ergibt sich für mich heute ein anderes Bild: Der ChatGPT Pro-Plan für 100 $ hat eine temporäre Werbeaktion für Codex bis zum 31. Mai 2026. Es handelt sich nicht um eine universelle Verdopplung von allem, sondern um ein deutlich erweitertes Limit speziell für Programmierszenarien, das nach der Aktion wieder zurückgesetzt werden soll. Daher haben einige das Gefühl, dass die Limits „fast verschwunden“ sind.

Bei Claude ist von Großzügigkeit keine Spur. Was ich aus öffentlichen Daten sehe, ähnelt eher einer Drosselung zu Spitzenzeiten und einem aggressiveren Verbrauch, insbesondere bei denen, die den ganzen Tag in Claude Code arbeiten. Außerdem gibt es die Pläne Max 5x für 100 $ und Max 20x für 200 $, aber die Verbrauchsmechanik ist unangenehmer geworden als zu Beginn des Jahres.

Nun zum Hauptpunkt, bei dem alle durcheinanderkommen. Wenn Leute sagen, „es ist billiger geworden“, vermischen sie oft drei verschiedene Ebenen: Abonnement-Limits, API-Wirtschaftlichkeit und das subjektive Gefühl von Geschwindigkeit. Wenn ein Modell schneller antwortet, kann man sein wöchentliches Limit auch schneller aufbrauchen, und das ist kein Rabatt, sondern einfach ein anderer Durchsatz.

Ich glaube auch den Berichten über den hohen Verbrauch bei der Arbeit mit mehreren Sitzungen. Wenn man einen Orchestrator und 20-30 Sub-Agenten hat, wie in realen Pipelines, verschwinden die Limits nicht linear, sondern fast unbemerkt schnell. Das sehe ich auch in Kundenszenarien: Ein einzelner „intelligenter“ Agent sieht günstig aus, aber eine richtige KI-Integration mit parallelen Zweigen erfordert bereits eine kühle Berechnung.

Was bedeutet das für Unternehmen und die Automatisierung?

Gewinner sind Teams, die viel programmieren, Hypothesen testen und einen kurzen „Idee -> Ausführung -> Korrektur“-Zyklus beibehalten. Für sie kann der aktuelle OpenAI-Boost die Entwicklung tatsächlich vorübergehend verbilligen und die KI-Automatisierung beschleunigen.

Verlierer sind diejenigen, die nur auf den Preis des Plans schauen. Wenn die Architektur agentenbasiert ist, mit langen Läufen, Browsing und vielen parallelen Aufrufen, ist ein Monatsabonnement keine verständliche Budgeteinheit mehr.

Ich würde derzeit keine Prozesse auf dem Gefühl aufbauen, dass „Tokens fast kostenlos sind“. Ich würde sie auf Messungen aufbauen: Wo ein Abonnement, wo eine API, wo ein Cache, wo ein schneller Modus und wo nur eine schöne Illusion von Geschwindigkeit sinnvoll ist.

Wenn bei Ihnen genau diese Verwirrung mit Limits, Agenten und Rechnungen beginnt, können wir Ihren Stack gemeinsam analysieren. Im Nahornyi AI Lab entwickeln wir KI-Lösungen für Unternehmen so, dass die Automatisierung mit KI nicht nur auf einem Screenshot günstig aussieht, sondern sich auch in der Produktion und im Budget bewährt.

Das Verständnis, wie man den Token-Verbrauch optimiert, wird immer wichtiger, da neue Modelle mehr Ressourcen benötigen. Wir haben bereits untersucht, wie Cloudflare Markdown for Agents die Token-Nutzung erheblich reduzieren kann, was sich auf die Gesamtwirtschaftlichkeit der Arbeit mit LLMs auswirkt.

Diesen Artikel teilen