Технічний контекст
Я ганяв не абстрактний бенчмарк, а живу багатоетапну задачу: спочатку research за специфікаціями, потім збір вимог, потім прохід по фіксах. І ось на першому ж повороті Claude 3 Opus залишив неприємне відчуття. Він чіпляє верхній шар, бере мінімум з доступного і не пірнає туди, де якраз народжується нормальна специфікація.
Мене це зачепило не тому, що відповідь була «поганою». Гірше інше: у промпті фаза research була розписана дуже докладно, тобто я не просив модель «сходи кудись і подумай». Я дав їй майже рейки, а вона все одно пішла коротким маршрутом.
За сухими параметрами картина теж складається. Claude 3 Opus — це модель березня 2024 року з контекстом близько 200K і старим knowledge cutoff. GPT-5.4 xhigh, що вийшов у березні 2026, живе вже в іншому класі завдань: контекст значно більший, агентний режим стабільніший, і на довгих зв'язкових ланцюжках це відчувається не в теорії, а в поведінці.
Я переглянув специфікації та публічні порівняння, і мене найбільше зачепила не кількість токенів сама по собі, а стійкість уваги по кроках. Opus швидко згортає дослідження до «досить схоже на правду». GPT-5.4 xhigh довше тримає нитку задачі та рідше намагається зрізати кути.
Є й друга пастка. Якщо давати Opus більш дієву критику, він справді починає виправлятися. Але тут же з'являється інший режим поломки: модель іде в довгу серію ітерацій, де кожне виправлення породжує ще один шар фіксів. Не нескінченний цикл у буквальному сенсі, але дуже близько до того, щоб спалити бюджет і час команди.
При цьому я не скажу, що GPT-5.4 ідеальний. З моєю задачею він впорався повністю, але дизайн видав так собі. Зате архітектурно він не розвалив пайплайн. А це для продакшну важливіше, ніж красива обгортка на першому проході.
Що це змінює для бізнесу та автоматизації
Якщо у вас пайплайн однокроковий, Opus ще можна терпіти. Але щойно у вас з'являється каскад із research, synthesis, critique і rewrite, поверхневий перший етап ламає все нижче по ланцюжку. Далі система не думає, а просто акуратно полірує слабку базу.
Саме тут багато хто недооцінює ціну помилки. Здається, що модель дешевша або звичніша, отже, можна дотиснути промптингом. Я на таких історіях уже бачив протилежне: ви економите на моделі, а потім платите інженером, рев'ю, ручним рисерчем і зайвими циклами перевірки.
Для мене висновок простий. Якщо задача впирається в глибокий розбір специфікацій, архітектуру вимог і стійку роботу в кілька фаз, GPT-5.4 зараз виглядає безпечнішим. Якщо ж дуже хочеться залишити Opus, то його краще ставити не як центральний рушій пайплайну, а у вужчу роль із жорсткими перевірками та зовнішнім контролем якості.
На практиці це вже питання не «яка модель розумніша», а як ви будуєте AI-архітектуру. Я б закладав окремий валідатор research-шару, ліміт на кількість циклів критики і явний тригер на ескалацію до сильнішої моделі. Інакше ШІ-автоматизація починає буксувати в найдорожчому місці, де команда думає, що процес уже автоматизований.
Ми в Nahornyi AI Lab якраз над таким і працюємо: не просто підбираємо модну модель, а збираємо архітектуру ШІ-рішень так, щоб вона витримувала реальні продакшн-сценарії. Впровадження штучного інтелекту майже завжди ламається не на демо, а на другій-третій фазі процесу, коли потрібна не «красива відповідь», а стабільна глибина.
Хто виграє від такого зсуву? Команди, які рахують вартість повного циклу, а не ціну одного запиту. Хто програє? Ті, хто намагається зробити ШІ-автоматизацію на старій моделі без маршрутизації, критеріального контролю та права системи сказати: «цей етап я не витягую, перемкни мене».
Цей розбір зробив я, Вадим Нагорний з Nahornyi AI Lab. Я руками збираю та лагоджу продакшн-пайплайни, де ШІ-інтеграція має працювати під навантаженням, а не лише в презентації. Якщо хочете обговорити ваш кейс, модельний стек або впровадження ШІ в конкретний процес, напишіть мені — разом розберемо, де у вас вузьке місце і як його нормально закрити.