Технический контекст
Я гонял не абстрактный бенчмарк, а живую многоэтапную задачу: сначала research по спецификациям, потом сбор требований, потом проход по фиксам. И вот на первом же повороте Claude 3 Opus оставил неприятное ощущение. Он цепляет верхний слой, берёт минимум из доступного и не ныряет туда, где как раз рождается нормальная спецификация.
Меня это зацепило не потому, что ответ был «плохой». Хуже другое: в промпте фаза research была расписана очень подробно, то есть я не просил модель «сходи куда-нибудь и подумай». Я дал ей почти рельсы, а она всё равно пошла по короткому маршруту.
По сухим параметрам картина тоже складывается. Claude 3 Opus это модель марта 2024 года с контекстом около 200K и старым knowledge cutoff. GPT-5.4 xhigh, который вышел в марте 2026, живёт уже в другом классе задач: контекст сильно больше, агентный режим стабильнее, и на длинных связных цепочках это чувствуется не в теории, а в поведении.
Я потыкал спецификации и публичные сравнения, и меня больше всего зацепило не число токенов само по себе, а устойчивость внимания по шагам. Opus быстро схлопывает исследование до «достаточно похоже на правду». GPT-5.4 xhigh дольше держит нить задачи и реже пытается срезать углы.
Есть и вторая ловушка. Если давать Opus более экшенебл-критику, он правда начинает исправляться. Но тут же появляется другой режим поломки: модель уходит в длинную серию итераций, где каждое исправление рождает ещё один слой фиксов. Не бесконечный цикл в буквальном смысле, но очень близко к тому, чтобы сжечь бюджет и время команды.
При этом я не скажу, что GPT-5.4 идеален. На моей задаче он справился целиком, но дизайн выдал так себе. Зато архитектурно он не развалил пайплайн. А это для продакшна важнее, чем красивая обёртка на первом проходе.
Что это меняет для бизнеса и автоматизации
Если у вас пайплайн одношаговый, Opus ещё можно терпеть. Но как только у вас появляется каскад из research, synthesis, critique и rewrite, поверхностный первый этап ломает всё ниже по цепочке. Дальше система не думает, а просто аккуратно полирует слабую базу.
Именно тут многие недооценивают цену ошибки. Кажется, что модель дешевле или привычнее, значит можно дожать промптингом. Я на таких историях уже видел обратное: вы экономите на модели, а потом платите инженером, ревью, ручным ресерчем и лишними циклами проверки.
Для меня вывод простой. Если задача упирается в глубокий разбор спецификаций, архитектуру требований и устойчивую работу в несколько фаз, GPT-5.4 сейчас выглядит безопаснее. Если же очень хочется оставить Opus, то его лучше ставить не как центральный движок пайплайна, а в более узкую роль с жёсткими проверками и внешним контролем качества.
На практике это уже вопрос не «какая модель умнее», а как вы строите AI-архитектуру. Я бы закладывал отдельный валидатор research-слоя, лимит на число циклов критики и явный trigger на эскалацию в более сильную модель. Иначе ИИ автоматизация начинает буксовать в самом дорогом месте, где команда думает, что процесс уже автоматизирован.
Мы в Nahornyi AI Lab как раз на таком и работаем: не просто подбираем модную модель, а собираем архитектуру ИИ-решений так, чтобы она переживала реальные продакшн-сценарии. Внедрение искусственного интеллекта почти всегда ломается не на демо, а на второй-третьей фазе процесса, когда нужен не «красивый ответ», а стабильная глубина.
Кто выигрывает от такого сдвига? Команды, которые считают стоимость полного цикла, а не цену одного запроса. Кто проигрывает? Те, кто пытается сделать ИИ автоматизацию на старой модели без маршрутизации, критериального контроля и права системы сказать: «этот этап я не вытягиваю, переключи меня».
Этот разбор сделал я, Вадим Нагорный из Nahornyi AI Lab. Я руками собираю и чиню продакшн-пайплайны, где ИИ интеграция должна работать под нагрузкой, а не только в презентации. Если хотите обсудить ваш кейс, модельный стек или внедрение ИИ в конкретный процесс, напишите мне — вместе разберём, где у вас узкое место и как его нормально закрыть.