Skip to main content
OpenAICodexRLHF

El extraño prompt de Codex y las costuras de RLHF

En la configuración de Codex de OpenAI se encontró una instrucción que prohíbe mencionar goblins, troles o mapaches si no es necesario. Este artefacto es una señal crítica para las empresas: la integración de IA a menudo falla no en la API, sino por ajustes ocultos y parches que socavan la fiabilidad.

Contexto técnico

Estaba revisando un archivo de configuración de Codex y me topé con una instrucción difícil de olvidar: no mencionar goblins, gremlins, mapaches, troles, ogros, palomas y otras criaturas si no es relevante para la consulta. Se encuentra en models.json en el repositorio de OpenAI Codex y, según los hallazgos, se repite varias veces. Para mí, esto no es un meme, sino una huella muy reveladora de cómo es la arquitectura real de la IA por dentro.

El hecho en sí es más importante que la broma. Si el modelo antes comenzaba a arrastrar entidades extrañas a sus respuestas sin que se le pidiera, significa que en algún punto del entrenamiento o del ajuste de instrucciones se formó un atractor de comportamiento estable. Y luego, encima de eso, le pusieron un parche directo del sistema: no hagas eso.

Y aquí es donde normalmente me detengo y no miro el texto de la regla, sino su significado. No es "la magia de la personalidad del modelo", sino un compromiso de ingeniería. Cuando implementas IA en producción, no te interesa por qué el modelo de repente se aficionó a un zoológico de fantasía; te interesa cómo eliminar el ruido de los escenarios de trabajo de forma rápida y predecible.

Según indicios indirectos, la historia proviene de observaciones de GPT-5.4 y GPT-5.5, donde los usuarios detectaron menciones obsesivas de tales imágenes. Parece que OpenAI no esperó a que se resolviera solo y simplemente fijó la prohibición en la personalidad del sistema de Codex. ¿Brusco? Sí. Pero muestra honestamente las costuras.

Lo que me gusta especialmente de esto es que vemos una vez más que el comportamiento de un modelo no se forma en una sola capa. Hay pre-entrenamiento, hay RLHF, hay instrucciones del sistema y hay restricciones del producto. Y cuando algo aparece "de repente" en la interfaz, casi siempre es el resultado de la interacción de varias capas, no de un único error mítico.

Impacto en el negocio y la automatización

Para los sistemas aplicados, la conclusión es simple: no se puede confiar ciegamente en una demostración llamativa. En la automatización con IA, tales artefactos aparecen en el soporte al cliente, en escenarios de agentes, en la generación de correos electrónicos, en la revisión de código, donde cualquier asociación superflua se convierte en basura y pérdida de tiempo.

Ganan los equipos que prueban el modelo no solo con benchmarks, sino también en los límites del comportamiento: palabras extrañas, patrones repetitivos, rupturas de estilo inesperadas. Pierden aquellos que creen que un prompt del sistema lo resuelve todo.

En Nahornyi AI Lab, solemos detectar estas cosas antes del lanzamiento: ejecutamos escenarios, implementamos salvaguardas, separamos los roles de los modelos y no permitimos que un solo artefacto arruine todo el pipeline. Si su automatización con IA ya está dando respuestas "inexplicablemente extrañas", podemos analizar rápidamente la arquitectura, encontrar la fuente del ruido y construir una solución sin estas sorpresas ocultas junto con Vadym Nahornyi y Nahornyi AI Lab.

Anteriormente, discutimos cómo un fallo de autoanálisis en el modelo Claude condujo a rechazos inesperados y reveló vulnerabilidades de inyección. Esto resalta un tema común en diferentes sistemas de IA: la aparición de comportamientos extraños o no deseados debido a su complejo funcionamiento interno.

Compartir este articulo