Der seltsame Codex-Prompt und die Nähte von RLHF

In der OpenAI Codex-Konfiguration wurde eine Systemanweisung gefunden, die Erwähnungen von Kobolden, Trollen und Waschbären verbietet. Dieses Artefakt ist ein wichtiges Signal für Unternehmen: KI-Integration scheitert oft nicht an der API, sondern an versteckten Tuning-Artefakten und System-Patches, die die Zuverlässigkeit beeinträchtigen.

Technischer Kontext

Ich habe eine Konfigurationsdatei von Codex durchgesehen und bin auf eine Anweisung gestoßen, die man kaum vergisst: Kobolde, Gremlins, Waschbären, Trolle, Oger, Tauben und andere Kreaturen nicht zu erwähnen, wenn es nicht für die Anfrage relevant ist. Sie befindet sich in der models.json im OpenAI Codex-Repository und wird, den Funden nach zu urteilen, mehrmals wiederholt. Für mich ist das kein Meme, sondern ein sehr aufschlussreicher Hinweis darauf, wie die echte KI-Architektur unter der Haube aussieht.

Die Tatsache selbst ist wichtiger als der Witz. Wenn das Modell zuvor angefangen hat, seltsame Entitäten unaufgefordert in seine Antworten einzubauen, bedeutet das, dass sich irgendwo im Training oder im instruktiven Tuning ein stabiler Verhaltensattraktor gebildet hat. Und dann wurde einfach ein direkter System-Patch darübergelegt: Tu das nicht.

An dieser Stelle halte ich normalerweise inne und betrachte nicht den Text der Regel, sondern ihre Bedeutung. Das ist keine „Magie der Modellpersönlichkeit“, sondern ein technischer Kompromiss. Wenn man KI in der Produktion implementiert, interessiert es einen nicht, warum das Modell plötzlich eine Vorliebe für einen Fabelzoo entwickelt hat, sondern wie man schnell und vorhersagbar Störungen aus Arbeitsszenarien entfernen kann.

Indirekte Hinweise deuten darauf hin, dass diese Geschichte auf Beobachtungen von GPT-5.4 und GPT-5.5 zurückgeht, bei denen Benutzer zwanghafte Erwähnungen solcher Bilder feststellten. OpenAI hat anscheinend nicht gewartet, bis sich das von selbst löst, und hat das Verbot einfach in der Systempersönlichkeit von Codex festgeschrieben. Grob? Ja. Aber es zeigt ehrlich die Nähte.

Was mir daran besonders gefällt: Wir sehen wieder einmal, dass das Verhalten eines Modells nicht nur von einer einzigen Schicht geprägt wird. Es gibt das Vortraining, das RLHF, Systemanweisungen und Produktbeschränkungen. Und wenn etwas „plötzlich“ in der Benutzeroberfläche auftaucht, ist das fast immer das Ergebnis der Interaktion mehrerer Schichten und nicht eines mythischen einzelnen Fehlers.

Auswirkungen auf Unternehmen und Automatisierung

Für angewandte Systeme ist die Schlussfolgerung einfach: Man kann einer glänzenden Demo nicht blind vertrauen. Bei der Automatisierung mit KI tauchen solche Artefakte im Kundensupport, in agentenbasierten Szenarien, bei der E-Mail-Generierung und bei der Code-Überprüfung auf, wo jede überflüssige Assoziation zu Müll und Zeitverlust wird.

Es gewinnen die Teams, die das Modell nicht nur nach Benchmarks, sondern auch an den Verhaltensrändern testen: seltsame Wörter, sich wiederholende Muster, unerwartete stilistische Ausfälle. Es verlieren diejenigen, die glauben, ein System-Prompt löse alles.

Bei Nahornyi AI Lab fangen wir solche Dinge normalerweise schon vor der Veröffentlichung ab: Wir führen Szenarien durch, setzen Sicherungen ein, trennen die Rollen der Modelle und lassen nicht zu, dass ein einziges Artefakt die gesamte Pipeline beeinträchtigt. Wenn Ihre KI-Automatisierung bereits „unerklärlich seltsame“ Antworten liefert, können Sie mit Vadym Nahornyi und Nahornyi AI Lab schnell die Architektur analysieren, die Störquelle finden und eine Lösung ohne diese versteckten Überraschungen entwickeln.

Wir haben bereits erörtert, wie ein Fehler bei der Selbstanalyse im Claude-Modell zu unerwarteten Ablehnungen führte und Schwachstellen für Injektionen aufdeckte. Dies unterstreicht ein gemeinsames Thema bei KI-Systemen: das Auftreten von seltsamem oder unerwünschtem Verhalten aufgrund ihrer komplexen internen Funktionsweise.

Diesen Artikel teilen

Twitter/X LinkedIn Telegram

Der seltsame Codex-Prompt und die Nähte von RLHF

Technischer Kontext

Auswirkungen auf Unternehmen und Automatisierung

Weitere News

Codex und Zed: Wo ich eine echte Beschleunigung sehe

Superpowers oder kurze Iterationen: Was ist wirklich praktischer?