Дивний промпт Codex і шви RLHF

У конфігурації OpenAI Codex знайшли системну інструкцію, що забороняє згадувати гоблінів, тролів та єнотів без потреби. Цей артефакт — важливий сигнал для бізнесу: AI integration часто ламається не на API, а через приховані артефакти тюнінгу та системні милиці, що впливають на надійність автоматизації.

Технічний контекст

Я заліз у файл конфігурації Codex і натрапив на інструкцію, яку важко забути: не згадувати гоблінів, гремлінів, єнотів, тролів, огрів, голубів та інших істот, якщо це не пов'язано із запитом. Вона лежить у models.json в репозиторії OpenAI Codex і, судячи зі знахідок, повторюється кілька разів. Для мене це не мем, а дуже показовий слід того, як виглядає реальна AI architecture під капотом.

Сам факт важливіший за жарт. Якщо модель раніше починала тягнути у відповіді дивні сутності без запиту, значить, десь у навчанні або інструктивному тюнінгу сформувався стійкий атрактор поведінки. А потім поверх нього накинули прямий системний патч: не роби так.

І ось тут я зазвичай гальмую і дивлюся не на текст правила, а на його сенс. Це не «магія особистості моделі», а інженерний компроміс. Коли робиш AI implementation у проді, тебе не цікавить, чому модель раптом полюбила казковий зоопарк, тебе цікавить, як швидко і передбачувано прибрати шум з робочих сценаріїв.

За непрямими ознаками історія тягнеться зі спостережень за GPT-5.4 та GPT-5.5, де користувачі ловили нав'язливі згадки таких образів. OpenAI, схоже, не стала чекати, поки це саме розсмокчеться, і просто зафіксувала заборону в системній особистості Codex. Грубо? Так. Зате чесно показує шви.

Мені в цьому особливо подобається одна річ: ми знову бачимо, що поведінка моделі формується не одним шаром. Є попереднє навчання, є RLHF, є системні інструкції, є продуктові обмеження. І коли щось «раптово» вилазить в інтерфейсі, це майже завжди результат взаємодії кількох шарів, а не одного міфічного багу.

Вплив на бізнес та автоматизацію

Для прикладних систем висновок простий: не можна сліпо вірити красивому демо. В automation with AI такі артефакти вилазять у підтримці, в агентних сценаріях, у генерації листів, у code review, де будь-яка зайва асоціація перетворюється на сміття і втрату часу.

Виграють команди, які тестують модель не тільки за бенчмарками, а й за поведінковими краями: дивні слова, повторювані патерни, несподівані стильові зриви. Програють ті, хто вважає, що системний промпт вирішує все.

Ми в Nahornyi AI Lab такі речі зазвичай ловимо ще до релізу: ганяємо сценарії, ставимо запобіжники, розводимо ролі моделей і не даємо одному артефакту псувати весь пайплайн. Якщо ваша AI automation вже дає «незрозуміло дивні» відповіді, можна швидко розібрати архітектуру, знайти джерело шуму та зібрати рішення без цих прихованих сюрпризів разом із Vadym Nahornyi та Nahornyi AI Lab.

Раніше ми розглядали, як збій самоаналізу в моделі Claude призвів до неочікуваних відмов і виявив уразливості до ін'єкцій. Це підкреслює спільну тему для різних систем ШІ: поява дивної або небажаної поведінки через їхню складну внутрішню структуру.

Поділитися статтею

Twitter/X LinkedIn Telegram

Дивний промпт Codex і шви RLHF

Технічний контекст

Вплив на бізнес та автоматизацію

Ще новини

Codex і Zed: де я бачу реальне прискорення

Superpowers чи короткі ітерації: що насправді зручніше