GPT-5.5: инструкции против креативности?

Пользователи спорят, что GPT-5.5 якобы стала слабее в следовании инструкциям, но заметно сильнее в креативе. По официальным материалам OpenAI это не подтверждается, но для AI automation вывод полезный: модель надо проверять на своих сценариях, а не по чужим впечатлениям.

Технический контекст

Я зацепился за этот спор не из-за драмы в комментариях, а потому что такие отзывы легко ломают решения по AI implementation. Один человек пишет: «5.5 тупее в инструкциях», второй в восторге от текстов. Звучит как компромисс между дисциплиной и стилем, но с GPT-5.5 все не так прямолинейно.

Я посмотрел, что есть в официальных материалах OpenAI. Там модель подают ровно наоборот: сильное выполнение задач, аккуратная работа с инструментами, упор на outcome-first prompting, где важнее цель, ограничения и формат ответа, а не длинная пошаговая простыня. То есть публично подтвержденного деградационного обмена «хуже слушается, зато красиво пишет» я не вижу.

Что мне реально бросилось в глаза, так это причина расхождения в ощущениях. GPT-5.5 рекомендуют тестировать свежими промптами, не тащить старые шаблоны, и отдельно настраивать reasoning.effort. Если вы кормите новую модель старой инструкцией, написанной под другой стиль следования, она вполне может казаться «менее послушной», хотя проблема в самом интерфейсе общения.

Еще момент: у модели большой контекст, Responses API и упор на tool use. В таких системах я почти никогда не оцениваю «следование инструкциям» по одному красивому ответу в чате. Я смотрю, держит ли она формат, вызывает ли нужные инструменты, не теряет ли ограничения на 20-м ходе и как переживает грязный ввод. Вот там и начинается правда.

Влияние на бизнес и автоматизацию

Для бизнеса вывод простой. Если вам нужен маркетинговый текст, субъективное «стала креативнее» может быть плюсом. Если вы строите automation with AI для саппорта, документооборота или продаж, важнее не вайб текста, а стабильность выполнения контракта: JSON, маршрутизация, вызовы функций, границы политики.

Выигрывают те, кто тестирует модель на своих задачах, а не на общих впечатлениях из чатов. Проигрывают команды, которые выбирают модель по эмоциям, а потом удивляются, почему агент красиво пишет, но срывает workflow.

Я в таких случаях не спорю о вкусах, а быстро собираю прикладной стенд: один и тот же сценарий, несколько версий модели, жесткие метрики по ошибкам и цене. Именно такие вещи мы в Nahornyi AI Lab и делаем для клиентов, когда нужна AI integration без сюрпризов. Если у вас процессы уже упираются в качество ответов или нестабильные агенты, давайте разложим это по тестам и соберем AI automation так, чтобы система работала в проде, а не только красиво выглядела в демо.

Ранее мы уже анализировали ключевые характеристики другой известной модели, Claude Opus 4.6, уделяя внимание ее интеллекту, процессам «расширенного мышления» и влиянию стоимости контекста. Понимание этих аспектов критично для оценки общих возможностей и ограничений любой ИИ-модели, включая описанные компромиссы между креативностью и следованием инструкциям.

Поделиться статьёй

Twitter/X LinkedIn Telegram

GPT-5.5: инструкции против креативности?

Технический контекст

Влияние на бизнес и автоматизацию

Ещё новости

BBC напомнила, что ИИ равен своим данным

Codex 5.5 против Claude по ощущениям и лимитам