Contexte technique
En fouillant dans un fichier de configuration de Codex, je suis tombé sur une instruction difficile à oublier : ne pas mentionner les gobelins, gremlins, ratons laveurs, trolls, ogres, pigeons et autres créatures si ce n'est pas pertinent pour la requête. Elle se trouve dans models.json du dépôt OpenAI Codex et, d'après les découvertes, apparaît plusieurs fois. Pour moi, ce n'est pas un mème, mais une trace très révélatrice de ce à quoi ressemble la véritable architecture de l'IA sous le capot.
Le fait lui-même est plus important que la plaisanterie. Si le modèle a commencé à intégrer des entités étranges dans ses réponses sans y être invité, cela signifie qu'un attracteur comportemental stable s'est formé quelque part pendant son entraînement ou son réglage par instruction. Et puis, un correctif système direct a été appliqué par-dessus : ne fais pas ça.
C'est là que je m'arrête généralement et que je regarde non pas le texte de la règle, mais sa signification. Ce n'est pas la « magie de la personnalité du modèle », mais un compromis d'ingénierie. Lorsque vous mettez en œuvre l'IA en production, vous ne vous intéressez pas à la raison pour laquelle le modèle s'est soudainement pris d'affection pour une ménagerie mythique ; vous voulez savoir comment éliminer rapidement et de manière prévisible le bruit des scénarios de travail.
Des preuves indirectes suggèrent que cette histoire provient d'observations de GPT-5.4 et GPT-5.5, où les utilisateurs ont remarqué des mentions obsessionnelles de telles images. OpenAI n'a apparemment pas attendu que cela se résolve de lui-même et a simplement codé en dur l'interdiction dans la personnalité système de Codex. Brutal ? Oui. Mais cela montre honnêtement les coutures.
Ce que j'aime particulièrement dans tout ça, c'est que nous voyons une fois de plus que le comportement d'un modèle est façonné par plus d'une couche. Il y a le pré-entraînement, le RLHF, les instructions système et les contraintes du produit. Et lorsque quelque chose apparaît « soudainement » dans l'interface, c'est presque toujours le résultat de l'interaction de plusieurs couches, et non d'un bug unique et mythique.
Impact sur l'entreprise et l'automatisation
Pour les systèmes appliqués, la conclusion est simple : on ne peut pas faire aveuglément confiance à une démo tape-à-l'œil. Dans l'automatisation avec l'IA, de tels artefacts apparaissent dans le support client, les scénarios d'agents, la génération d'e-mails et la revue de code, où toute association superflue se transforme en déchet et en perte de temps.
Les équipes gagnantes sont celles qui testent le modèle non seulement sur des benchmarks, mais aussi sur ses limites comportementales : mots étranges, schémas répétitifs, défaillances stylistiques inattendues. Les perdants sont ceux qui pensent qu'un prompt système résout tout.
Chez Nahornyi AI Lab, nous détectons généralement ces problèmes avant la mise en production : nous exécutons des scénarios, mettons en place des garde-fous, séparons les rôles des modèles et ne laissons pas un seul artefact gâcher tout le pipeline. Si votre automatisation par IA produit déjà des réponses « étranges et inexplicables », nous pouvons rapidement analyser l'architecture, trouver la source du bruit et élaborer une solution sans ces surprises cachées avec Vadym Nahornyi et Nahornyi AI Lab.