Почему Opus сыпется там, где GPT-5.4 дотягивает

Если коротко: в реальном многоэтапном пайплайне Claude 3 Opus у меня сдулся уже на стадии research по спецификациям, а GPT-5.4 xhigh ту же задачу дотащил до конца. Для бизнеса это важно, потому что от такой разницы напрямую зависит стоимость ИИ автоматизации и количество ручных правок.

Технический контекст

Я гонял не абстрактный бенчмарк, а живую многоэтапную задачу: сначала research по спецификациям, потом сбор требований, потом проход по фиксам. И вот на первом же повороте Claude 3 Opus оставил неприятное ощущение. Он цепляет верхний слой, берёт минимум из доступного и не ныряет туда, где как раз рождается нормальная спецификация.

Меня это зацепило не потому, что ответ был «плохой». Хуже другое: в промпте фаза research была расписана очень подробно, то есть я не просил модель «сходи куда-нибудь и подумай». Я дал ей почти рельсы, а она всё равно пошла по короткому маршруту.

По сухим параметрам картина тоже складывается. Claude 3 Opus это модель марта 2024 года с контекстом около 200K и старым knowledge cutoff. GPT-5.4 xhigh, который вышел в марте 2026, живёт уже в другом классе задач: контекст сильно больше, агентный режим стабильнее, и на длинных связных цепочках это чувствуется не в теории, а в поведении.

Я потыкал спецификации и публичные сравнения, и меня больше всего зацепило не число токенов само по себе, а устойчивость внимания по шагам. Opus быстро схлопывает исследование до «достаточно похоже на правду». GPT-5.4 xhigh дольше держит нить задачи и реже пытается срезать углы.

Есть и вторая ловушка. Если давать Opus более экшенебл-критику, он правда начинает исправляться. Но тут же появляется другой режим поломки: модель уходит в длинную серию итераций, где каждое исправление рождает ещё один слой фиксов. Не бесконечный цикл в буквальном смысле, но очень близко к тому, чтобы сжечь бюджет и время команды.

При этом я не скажу, что GPT-5.4 идеален. На моей задаче он справился целиком, но дизайн выдал так себе. Зато архитектурно он не развалил пайплайн. А это для продакшна важнее, чем красивая обёртка на первом проходе.

Что это меняет для бизнеса и автоматизации

Если у вас пайплайн одношаговый, Opus ещё можно терпеть. Но как только у вас появляется каскад из research, synthesis, critique и rewrite, поверхностный первый этап ломает всё ниже по цепочке. Дальше система не думает, а просто аккуратно полирует слабую базу.

Именно тут многие недооценивают цену ошибки. Кажется, что модель дешевле или привычнее, значит можно дожать промптингом. Я на таких историях уже видел обратное: вы экономите на модели, а потом платите инженером, ревью, ручным ресерчем и лишними циклами проверки.

Для меня вывод простой. Если задача упирается в глубокий разбор спецификаций, архитектуру требований и устойчивую работу в несколько фаз, GPT-5.4 сейчас выглядит безопаснее. Если же очень хочется оставить Opus, то его лучше ставить не как центральный движок пайплайна, а в более узкую роль с жёсткими проверками и внешним контролем качества.

На практике это уже вопрос не «какая модель умнее», а как вы строите AI-архитектуру. Я бы закладывал отдельный валидатор research-слоя, лимит на число циклов критики и явный trigger на эскалацию в более сильную модель. Иначе ИИ автоматизация начинает буксовать в самом дорогом месте, где команда думает, что процесс уже автоматизирован.

Мы в Nahornyi AI Lab как раз на таком и работаем: не просто подбираем модную модель, а собираем архитектуру ИИ-решений так, чтобы она переживала реальные продакшн-сценарии. Внедрение искусственного интеллекта почти всегда ломается не на демо, а на второй-третьей фазе процесса, когда нужен не «красивый ответ», а стабильная глубина.

Кто выигрывает от такого сдвига? Команды, которые считают стоимость полного цикла, а не цену одного запроса. Кто проигрывает? Те, кто пытается сделать ИИ автоматизацию на старой модели без маршрутизации, критериального контроля и права системы сказать: «этот этап я не вытягиваю, переключи меня».

Этот разбор сделал я, Вадим Нагорный из Nahornyi AI Lab. Я руками собираю и чиню продакшн-пайплайны, где ИИ интеграция должна работать под нагрузкой, а не только в презентации. Если хотите обсудить ваш кейс, модельный стек или внедрение ИИ в конкретный процесс, напишите мне — вместе разберём, где у вас узкое место и как его нормально закрыть.

Поделиться статьёй

Twitter/X LinkedIn Telegram

Почему Opus сыпется там, где GPT-5.4 дотягивает

Технический контекст

Что это меняет для бизнеса и автоматизации

Ещё новости

LFM2.5-8B-A1B: что реально помогает от циклов

Твит Альтмана есть, а релиза пока не видно