Странный промпт Codex и швы RLHF

В конфигурации OpenAI Codex нашли системную инструкцию, которая запрещает упоминать гоблинов, троллей и енотов без явной необходимости. Этот артефакт — важный сигнал для бизнеса: AI integration часто ломается не на API, а на скрытых проблемах тюнинга и системных костылях, которые влияют на надежность автоматизации.

Технический контекст

Я полез в файл конфигурации Codex и уткнулся в инструкцию, которую трудно забыть: не упоминать гоблинов, грэмлинов, енотов, троллей, огров, голубей и прочих существ, если это не связано с запросом. Она лежит в models.json в репозитории OpenAI Codex и, судя по находкам, повторяется несколько раз. Для меня это не мем, а очень показательный след того, как выглядит реальная AI architecture под капотом.

Сам факт важнее шутки. Если модель раньше начинала тащить в ответы странные сущности без запроса, значит, где-то в обучении или инструктивном тюнинге сформировался устойчивый аттрактор поведения. А потом поверх него накинули прямой системный патч: не делай так.

И вот здесь я обычно торможу и смотрю не на текст правила, а на его смысл. Это не «магия личности модели», а инженерный компромисс. Когда делаешь AI implementation в проде, тебя не интересует, почему модель вдруг полюбила сказочный зоопарк, тебя интересует, как быстро и предсказуемо убрать шум из рабочих сценариев.

По косвенным признакам история тянется из наблюдений за GPT-5.4 и GPT-5.5, где пользователи ловили навязчивые упоминания таких образов. OpenAI, похоже, не стала ждать, пока это само рассосется, и просто зафиксировала запрет в системной личности Codex. Грубо? Да. Зато честно показывает швы.

Мне в этом особенно нравится одна вещь: мы снова видим, что поведение модели формируется не одним слоем. Есть предобучение, есть RLHF, есть системные инструкции, есть продуктовые ограничения. И когда что-то «внезапно» вылезает в интерфейсе, это почти всегда результат взаимодействия нескольких слоев, а не одного мифического бага.

Влияние на бизнес и автоматизацию

Для прикладных систем вывод простой: нельзя слепо верить красивому демо. В automation with AI такие артефакты вылезают в поддержке, в агентных сценариях, в генерации писем, в code review, где любая лишняя ассоциация превращается в мусор и потери времени.

Выигрывают команды, которые тестируют модель не только по бенчмаркам, но и по поведенческим краям: странные слова, повторяющиеся паттерны, неожиданные стилевые срывы. Проигрывают те, кто считает, что системный промпт решает всё.

Мы в Nahornyi AI Lab такие вещи обычно ловим еще до релиза: гоняем сценарии, ставим предохранители, разводим роли моделей и не даем одному артефакту портить весь пайплайн. Если у вас AI automation уже дает «необъяснимо странные» ответы, можно быстро разобрать архитектуру, найти источник шума и собрать решение без этих скрытых сюрпризов вместе с Vadym Nahornyi и Nahornyi AI Lab.

Ранее мы рассматривали, как сбой самоанализа в модели Claude привел к неожиданным отказам и показал уязвимости к инъекциям. Это подчеркивает общую тему для различных систем ИИ: появление странного или нежелательного поведения из-за их сложной внутренней структуры.

Поделиться статьёй

Twitter/X LinkedIn Telegram

Странный промпт Codex и швы RLHF

Технический контекст

Влияние на бизнес и автоматизацию

Ещё новости

Codex и Zed: где я реально вижу ускорение

Superpowers или короткие итерации: что реально удобнее