GPT-5.4: потужний у коді, але нерівний у діалозі

OpenAI представила GPT-5.4 як флагманську модель для загальних і coding-завдань, але користувачі помітили розрив: у коді вона сильна, а в живому діалозі оцінки суперечливі. Для бізнесу це сигнал, що якість залежить не тільки від моделі, а й від архітектури промптів і режиму thinking.

Технічний контекст

Я вирішив не дивитися маркетингові слайди, а розібратися, як GPT-5.4 реально описують у роботі. За офіційною лінією OpenAI, це новий флагман для general-purpose, coding та agentic завдань, що замінює старі гілки на кшталт GPT-5.2 і поступово витісняє GPT-5.3-Codex. На папері все красиво: єдина модель, великий контекст, менше фактичних помилок, кілька режимів, включно з Thinking.

Але мене зачепило не це. Мене зачепила розбіжність у відгуках користувачів. Одна людина тримає GPT-5.4 поруч з Opus як second opinion, для перевірки фактів і як машину для фідбеку. Інша, навпаки, каже, що саме для спілкування це поки що найслабша модель з топових, слабша за Gemini та Opus.

І ось тут починається найцікавіше. Третій кейс взагалі не про «просто відкрив чат і отримав магію». Людина використовує GPT-5.4 Extended Thinking всередині сильно кастомізованого ChatGPT: вісім модулів у markdown, тригери, складна система інструкцій, окрема логіка самодіагностики мислення. Результат у нього хороший, місцями дуже хороший, але модель вимагає постійного тюнінгу.

Для мене це виглядає так: GPT-5.4 — не та модель, яку можна чесно оцінити однією фразою «сильна» чи «слабка». У простому conversational-режимі вона може програвати більш «приємним» співрозмовникам. Натомість у складній конфігурації, де є extended thinking, модульні інструкції та чітка маршрутизація завдань, вона розкривається зовсім по-іншому.

Якщо перекласти мовою інженера, модель стала більш чутливою до ШІ-архітектури навколо неї. Не тільки до системного промпту, а до повної схеми: які ролі задані, де перевірка фактів, як запускається міркування, що відбувається при сумнівах, коли треба зупинятися й перевіряти ще раз.

Вплив на бізнес та автоматизацію

Для бізнесу звідси висновок дуже практичний. GPT-5.4 не скасовує проєктування. Навпаки, вона карає за ліниву збірку сильніше, ніж багато хто очікує. Якщо просто вставити модель у чат підтримки або у внутрішнього асистента без шару правил, пам'яті, тригерів і валідації, можна отримати результат, нижчий за очікування.

Натомість там, де потрібна ШІ-автоматизація не у форматі «поговорити», а у форматі «розібрати завдання, перевірити гіпотезу, повернути структуровану відповідь», у GPT-5.4 потенціал серйозний. Особливо у зв'язці з агентними сценаріями, рев'ю документів, генерацією робочих артефактів і багатокроковими пайплайнами. Я б особливо дивився на кейси, де потрібен другий прохід мислення, а не перша красива відповідь.

Хто виграє? Команди, які вміють будувати архітектуру ШІ-рішень, а не тільки вибирати модель за хайпом. Хто програє? Ті, хто чекає на універсальну магію з коробки. З GPT-5.4 це особливо помітно: якість дуже залежить від того, як ви зібрали контур навколо моделі.

Я це бачу і в клієнтських проєктах. Коли ми в Nahornyi AI Lab робимо впровадження штучного інтелекту, основний приріст майже ніколи не приходить від однієї заміни моделі. Він приходить із комбінації: маршрутизація запитів, модульні промпти, пам'ять, self-check, fallback-логіка, іноді ще й розв'язка між conversational та reasoning-режимом.

Якщо коротко, GPT-5.4 підштовхує ринок до більш дорослої розробки ШІ-рішень. Уже мало «підключити API». Потрібно розуміти, коли модель має говорити швидко, коли думати довше, коли сперечатися сама з собою, а коли мовчки ескалувати на інший модуль чи людину.

Я, Вадим Нагорний з Nahornyi AI Lab, такі штуки не просто коментую, а збираю руками в робочих системах: від ШІ-агентів до n8n-сценаріїв і складних контурів перевірки відповіді.

Якщо хочете обговорити ваш кейс, замовити ШІ-автоматизацію, створити ШІ-агента або зібрати нормальну інтеграцію під бізнес-завдання, напишіть мені. Подивимося, де вам реально потрібен GPT-5.4, а де краще спрацює інша зв'язка.

Поділитися статтею

Twitter/X LinkedIn Telegram

GPT-5.4: потужний у коді, але нерівний у діалозі

Технічний контекст

Вплив на бізнес та автоматизацію

Ще новини

Gemma 4 стала помітно практичнішою на edge

364M параметрів і новий шанс для ШІ на пристроях