Claude Code Opus 4.7 начал проседать

MarginLab запустила независимый ежедневный трекер Claude Code на contamination-resistant подмножестве SWE-Bench-Pro и зафиксировала статистически значимую просадку Opus 4.7 с 22 мая. Для AI automation это важный сигнал: если у вас кодовые пайплайны завязаны на Opus, их уже нужно перепроверять.

Технический контекст

Я люблю такие штуки не за драму, а за полезность: MarginLab подняла независимый ежедневный трекер Claude Code и смотрит не на маркетинговый слайд, а на деградации во времени. Для AI automation это почти идеальный early-warning, особенно если у вас Opus 4.7 сидит в кодогенерации, ревью или агентных пайплайнах.

Я посмотрел, как они это формулируют: трекинг идет по contamination-resistant подмножеству SWE-Bench-Pro, плюс они отдельно акцентируют statistically significant деградации, а не шум одного неудачного дня. И вот это мне нравится больше всего: не «модель стала хуже, все пропало», а нормальный мониторинг со сдержанным порогом тревоги.

Сигнал у них один конкретный: с 22 мая пошла статистически значимая просадка Claude Code Opus 4.7. Это не обязательно означает, что релиз изначально был слабым. Наоборот, у Anthropic в релизных материалах была позиция, что Opus 4.7 прибавил на SWE-bench Verified и Pro даже после исключения задач с риском memorization.

То есть картина у меня такая: стартовые цифры могли быть честно сильными, а вот поведение модели после запуска уже дрейфует. И именно тут независимый трекер полезнее пресс-релиза, потому что пресс-релиз фиксирует момент запуска, а прод живет неделями и месяцами.

Влияние на бизнес и автоматизацию

Если я строю AI integration вокруг Claude Code, такой сигнал нельзя игнорировать. Первый риск простой: автоматические code-fix и PR-агенты начинают тратить больше токенов и итераций на те же задачи, а команда замечает это слишком поздно.

Второй удар идет по архитектуре. Если у вас нет fallback-модели, replay-наборов и ежедневной проверки качества, любая скрытая деградация превращает AI implementation в лотерею.

Выигрывают те, кто уже держит eval-обвязку и не влюбляется в одного вендора. Проигрывают команды, которые построили automation with AI по принципу «вчера работало, значит и завтра будет». Мы в Nahornyi AI Lab как раз такие вещи и собираем для клиентов: мониторинг, страховки, маршрутизацию между моделями.

Если у вас Claude Code сидит в критичном контуре, я бы не спорил в комментариях, а быстро прогнал свои контрольные задачи с датой до и после 22 мая. А если нужно спокойно разобрать, где у вас течет качество и как перестроить AI solutions architecture без остановки команды, приходите в Nahornyi AI Lab: с Vadym Nahornyi я обычно начинаю с диагностики пайплайна, а не с продажи волшебной кнопки.

Ранее мы подробно анализировали графики производительности и особенности архитектуры предыдущей версии Claude Opus 4.6. Понимание того, как менялись базовые метрики и затраты на контекст, позволяет более объективно оценивать причины текущей деградации модели.

Поделиться статьёй

Twitter/X LinkedIn Telegram

Claude Code Opus 4.7 начал проседать

Технический контекст

Влияние на бизнес и автоматизацию

Ещё новости

Gemma 4 стала заметно практичнее на edge

364M параметров и новый шанс для on-device AI