GPT-5.5: інструкції проти креативності?

Користувачі сперечаються, що GPT-5.5 нібито стала слабшою у дотриманні інструкцій, але значно сильнішою у креативі. Офіційні матеріали OpenAI це не підтверджують, проте для AI automation висновок корисний: модель треба тестувати на власних сценаріях, а не покладатися на чужі враження, щоб забезпечити надійність.

Технічний контекст

Я зацікавився цією суперечкою не через драму в коментарях, а тому що такі відгуки легко ламають рішення щодо AI implementation. Одна людина пише: «5.5 тупіша в інструкціях», інша в захваті від текстів. Звучить як компроміс між дисципліною та стилем, але з GPT-5.5 все не так прямолінійно.

Я переглянув, що є в офіційних матеріалах OpenAI. Там модель подають рівно навпаки: сильне виконання завдань, акуратна робота з інструментами, акцент на outcome-first prompting, де важливіша мета, обмеження та формат відповіді, а не довге покрокове полотно. Тобто публічно підтвердженого деградаційного обміну «гірше слухається, зате гарно пише» я не бачу.

Що мені справді впало в око, так це причина розбіжностей у відчуттях. GPT-5.5 рекомендують тестувати свіжими промптами, не тягнути старі шаблони, і окремо налаштовувати reasoning.effort. Якщо ви годуєте нову модель старою інструкцією, написаною під інший стиль слідування, вона цілком може здаватися «менш слухняною», хоча проблема в самому інтерфейсі спілкування.

Ще момент: у моделі великий контекст, Responses API та акцент на tool use. У таких системах я майже ніколи не оцінюю «дотримання інструкцій» за однією гарною відповіддю в чаті. Я дивлюся, чи тримає вона формат, чи викликає потрібні інструменти, чи не втрачає обмеження на 20-му кроці і як переживає брудний ввід. Ось там і починається правда.

Вплив на бізнес та автоматизацію

Для бізнесу висновок простий. Якщо вам потрібен маркетинговий текст, суб'єктивне «стала креативнішою» може бути плюсом. Якщо ви будуєте automation with AI для сапорту, документообігу чи продажів, важливіший не вайб тексту, а стабільність виконання контракту: JSON, маршрутизація, виклики функцій, межі політики.

Виграють ті, хто тестує модель на своїх завданнях, а не на загальних враженнях з чатів. Програють команди, які обирають модель за емоціями, а потім дивуються, чому агент гарно пише, але зриває workflow.

Я в таких випадках не сперечаюся про смаки, а швидко збираю прикладний стенд: один і той самий сценарій, кілька версій моделі, жорсткі метрики щодо помилок та ціни. Саме такі речі ми в Nahornyi AI Lab і робимо для клієнтів, коли потрібна AI integration без сюрпризів. Якщо у вас процеси вже впираються в якість відповідей або нестабільні агенти, давайте розкладемо це по тестах і зберемо AI automation так, щоб система працювала в проді, а не тільки гарно виглядала в демо.

Раніше ми вже аналізували ключові характеристики іншої відомої моделі, Claude Opus 4.6, приділяючи увагу її інтелекту, процесам «розширеного мислення» та впливу вартості контексту. Розуміння цих аспектів є критичним для оцінки загальних можливостей та обмежень будь-якої ШІ-моделі, включно з описаними компромісами між креативністю та дотриманням інструкцій.

Поділитися статтею

Twitter/X LinkedIn Telegram

GPT-5.5: інструкції проти креативності?

Технічний контекст

Вплив на бізнес та автоматизацію

Ще новини

BBC нагадала, що ШІ дорівнює своїм даним

Codex 5.5 проти Claude: враження та ліміти