GPT-5.4: в коде мощно, в диалоге не всё так ровно

OpenAI вывела GPT-5.4 как флагманскую модель для общих и coding-задач, а пользователи уже показывают интересный разрыв: в коде она сильна, а в живом диалоге оценки спорные. Для бизнеса это сигнал, что качество зависит не только от модели, но и от архитектуры промптов и режима thinking.

Технический контекст

Я полез не в маркетинговые слайды, а в то, как GPT-5.4 реально описывают в работе. По официальной линии OpenAI это новый флагман для general-purpose, coding и agentic задач, с заменой старых веток вроде GPT-5.2 и постепенным уходом GPT-5.3-Codex. На бумаге всё красиво: единая модель, большой контекст, меньше фактических ошибок, несколько режимов, включая Thinking.

Но меня зацепило не это. Меня зацепил разнобой в пользовательских отзывах. Один человек держит GPT-5.4 рядом с Opus как second opinion, fact check и feedback-машину. Другой, наоборот, говорит, что именно для общения это пока самая слабая модель из топовых, слабее Gemini и Opus.

И вот тут начинается самое интересное. Третий кейс вообще не про «просто открыл чат и получил магию». Человек гоняет GPT-5.4 Extended Thinking внутри сильно кастомизированного ChatGPT: восемь модулей в markdown, триггеры, сложная система инструкций, отдельная логика самодиагностики мышления. Выход у него хороший, местами очень хороший, но модель требует постоянного тюнинга.

Для меня это выглядит так: GPT-5.4 не та модель, которую можно честно оценить одной фразой «сильная» или «слабая». В простом conversational-режиме она может проигрывать более «приятным» собеседникам. Зато в сложной конфигурации, где есть extended thinking, модульные инструкции и внятная маршрутизация задач, она раскрывается совсем по-другому.

Если перевести на язык инженера, модель стала более чувствительной к AI-архитектуре вокруг неё. Не только к системному промпту, а к полной схеме: какие роли заданы, где проверка фактов, как запускается размышление, что происходит при сомнении, когда надо останавливаться и перепроверять.

Влияние на бизнес и автоматизацию

Для бизнеса отсюда вывод очень практичный. GPT-5.4 не отменяет проектирование. Наоборот, она наказывает за ленивую сборку сильнее, чем многие ожидают. Если просто воткнуть модель в чат поддержки или во внутреннего ассистента без слоя правил, памяти, триггеров и валидации, можно получить результат ниже ожиданий.

Зато там, где нужна ИИ автоматизация не в формате «поболтать», а в формате «разобрать задачу, проверить гипотезу, вернуть структурированный ответ», у GPT-5.4 потенциал серьёзный. Особенно в связке с агентными сценариями, ревью документов, генерацией рабочих артефактов и многошаговыми пайплайнами. Я бы особенно смотрел на кейсы, где нужен второй проход мышления, а не первый красивый ответ.

Кто выигрывает? Команды, которые умеют строить архитектуру ИИ-решений, а не только выбирать модель по хайпу. Кто проигрывает? Те, кто ждёт универсального волшебства из коробки. С GPT-5.4 это особенно заметно: качество очень зависит от того, как вы собрали контур вокруг модели.

Я это вижу и в клиентских проектах. Когда мы в Nahornyi AI Lab делаем внедрение искусственного интеллекта, основной прирост почти никогда не приходит от одной замены модели. Он приходит из комбинации: маршрутизация запросов, модульные промпты, память, self-check, fallback-логика, иногда ещё и развязка между conversational и reasoning-режимом.

Если коротко, GPT-5.4 подталкивает рынок к более взрослой разработке ИИ решений. Уже мало «подключить API». Нужно понимать, когда модель должна говорить быстро, когда думать дольше, когда спорить сама с собой, а когда молча эскалировать на другой модуль или человека.

Я, Вадим Нагорный из Nahornyi AI Lab, такие штуки не просто комментирую, а собираю руками в рабочих системах: от ИИ агентов до n8n-сценариев и сложных контуров проверки ответа.

Если хотите обсудить ваш кейс, заказать ИИ автоматизацию, создать ИИ агента или собрать нормальную интеграцию под бизнес-задачу, напишите мне. Посмотрим, где вам реально нужен GPT-5.4, а где лучше сработает другая связка.

Поделиться статьёй

Twitter/X LinkedIn Telegram

GPT-5.4: в коде мощно, в диалоге не всё так ровно

Технический контекст

Влияние на бизнес и автоматизацию

Ещё новости

Gemma 4 стала заметно практичнее на edge

364M параметров и новый шанс для on-device AI