Технический контекст
Я люблю такие штуки не за драму, а за полезность: MarginLab подняла независимый ежедневный трекер Claude Code и смотрит не на маркетинговый слайд, а на деградации во времени. Для AI automation это почти идеальный early-warning, особенно если у вас Opus 4.7 сидит в кодогенерации, ревью или агентных пайплайнах.
Я посмотрел, как они это формулируют: трекинг идет по contamination-resistant подмножеству SWE-Bench-Pro, плюс они отдельно акцентируют statistically significant деградации, а не шум одного неудачного дня. И вот это мне нравится больше всего: не «модель стала хуже, все пропало», а нормальный мониторинг со сдержанным порогом тревоги.
Сигнал у них один конкретный: с 22 мая пошла статистически значимая просадка Claude Code Opus 4.7. Это не обязательно означает, что релиз изначально был слабым. Наоборот, у Anthropic в релизных материалах была позиция, что Opus 4.7 прибавил на SWE-bench Verified и Pro даже после исключения задач с риском memorization.
То есть картина у меня такая: стартовые цифры могли быть честно сильными, а вот поведение модели после запуска уже дрейфует. И именно тут независимый трекер полезнее пресс-релиза, потому что пресс-релиз фиксирует момент запуска, а прод живет неделями и месяцами.
Влияние на бизнес и автоматизацию
Если я строю AI integration вокруг Claude Code, такой сигнал нельзя игнорировать. Первый риск простой: автоматические code-fix и PR-агенты начинают тратить больше токенов и итераций на те же задачи, а команда замечает это слишком поздно.
Второй удар идет по архитектуре. Если у вас нет fallback-модели, replay-наборов и ежедневной проверки качества, любая скрытая деградация превращает AI implementation в лотерею.
Выигрывают те, кто уже держит eval-обвязку и не влюбляется в одного вендора. Проигрывают команды, которые построили automation with AI по принципу «вчера работало, значит и завтра будет». Мы в Nahornyi AI Lab как раз такие вещи и собираем для клиентов: мониторинг, страховки, маршрутизацию между моделями.
Если у вас Claude Code сидит в критичном контуре, я бы не спорил в комментариях, а быстро прогнал свои контрольные задачи с датой до и после 22 мая. А если нужно спокойно разобрать, где у вас течет качество и как перестроить AI solutions architecture без остановки команды, приходите в Nahornyi AI Lab: с Vadym Nahornyi я обычно начинаю с диагностики пайплайна, а не с продажи волшебной кнопки.