L'étrange prompt de Codex et les coutures du RLHF

Une instruction système a été trouvée dans la configuration de Codex d'OpenAI, interdisant les mentions de gobelins ou de trolls. Cet artefact est un signal critique pour les entreprises : l'intégration de l'IA échoue souvent à cause d'artefacts de réglage cachés et de correctifs système qui compromettent la fiabilité.

Contexte technique

En fouillant dans un fichier de configuration de Codex, je suis tombé sur une instruction difficile à oublier : ne pas mentionner les gobelins, gremlins, ratons laveurs, trolls, ogres, pigeons et autres créatures si ce n'est pas pertinent pour la requête. Elle se trouve dans models.json du dépôt OpenAI Codex et, d'après les découvertes, apparaît plusieurs fois. Pour moi, ce n'est pas un mème, mais une trace très révélatrice de ce à quoi ressemble la véritable architecture de l'IA sous le capot.

Le fait lui-même est plus important que la plaisanterie. Si le modèle a commencé à intégrer des entités étranges dans ses réponses sans y être invité, cela signifie qu'un attracteur comportemental stable s'est formé quelque part pendant son entraînement ou son réglage par instruction. Et puis, un correctif système direct a été appliqué par-dessus : ne fais pas ça.

C'est là que je m'arrête généralement et que je regarde non pas le texte de la règle, mais sa signification. Ce n'est pas la « magie de la personnalité du modèle », mais un compromis d'ingénierie. Lorsque vous mettez en œuvre l'IA en production, vous ne vous intéressez pas à la raison pour laquelle le modèle s'est soudainement pris d'affection pour une ménagerie mythique ; vous voulez savoir comment éliminer rapidement et de manière prévisible le bruit des scénarios de travail.

Des preuves indirectes suggèrent que cette histoire provient d'observations de GPT-5.4 et GPT-5.5, où les utilisateurs ont remarqué des mentions obsessionnelles de telles images. OpenAI n'a apparemment pas attendu que cela se résolve de lui-même et a simplement codé en dur l'interdiction dans la personnalité système de Codex. Brutal ? Oui. Mais cela montre honnêtement les coutures.

Ce que j'aime particulièrement dans tout ça, c'est que nous voyons une fois de plus que le comportement d'un modèle est façonné par plus d'une couche. Il y a le pré-entraînement, le RLHF, les instructions système et les contraintes du produit. Et lorsque quelque chose apparaît « soudainement » dans l'interface, c'est presque toujours le résultat de l'interaction de plusieurs couches, et non d'un bug unique et mythique.

Impact sur l'entreprise et l'automatisation

Pour les systèmes appliqués, la conclusion est simple : on ne peut pas faire aveuglément confiance à une démo tape-à-l'œil. Dans l'automatisation avec l'IA, de tels artefacts apparaissent dans le support client, les scénarios d'agents, la génération d'e-mails et la revue de code, où toute association superflue se transforme en déchet et en perte de temps.

Les équipes gagnantes sont celles qui testent le modèle non seulement sur des benchmarks, mais aussi sur ses limites comportementales : mots étranges, schémas répétitifs, défaillances stylistiques inattendues. Les perdants sont ceux qui pensent qu'un prompt système résout tout.

Chez Nahornyi AI Lab, nous détectons généralement ces problèmes avant la mise en production : nous exécutons des scénarios, mettons en place des garde-fous, séparons les rôles des modèles et ne laissons pas un seul artefact gâcher tout le pipeline. Si votre automatisation par IA produit déjà des réponses « étranges et inexplicables », nous pouvons rapidement analyser l'architecture, trouver la source du bruit et élaborer une solution sans ces surprises cachées avec Vadym Nahornyi et Nahornyi AI Lab.

Nous avons vu comment un échec d'auto-analyse du modèle Claude a entraîné des refus inattendus et révélé des vulnérabilités aux injections. Cela souligne un thème commun aux systèmes d'IA : l'émergence de comportements étranges ou indésirables due à leur complexité interne.

Partager cet article

Twitter/X LinkedIn Telegram

L'étrange prompt de Codex et les coutures du RLHF

Contexte technique

Impact sur l'entreprise et l'automatisation

Plus d'actualités

Codex et Zed : où je vois une réelle accélération

Superpowers ou itérations courtes : quelle méthode est la plus pratique ?