Технічний контекст
Я люблю такі речі не за драму, а за корисність: MarginLab підняла незалежний щоденний трекер Claude Code і дивиться не на маркетинговий слайд, а на деградацію з часом. Для AI automation це майже ідеальний early-warning, особливо якщо у вас Opus 4.7 сидить у кодогенерації, рев'ю або агентних пайплайнах.
Я подивився, як вони це формулюють: трекінг йде по contamination-resistant підмножині SWE-Bench-Pro, плюс вони окремо акцентують на statistically significant деградації, а не на шумі одного невдалого дня. І ось це мені подобається найбільше: не «модель стала гіршою, все пропало», а нормальний моніторинг зі стриманим порогом тривоги.
Сигнал у них один конкретний: з 22 травня пішла статистично значуща просадка Claude Code Opus 4.7. Це не обов'язково означає, що реліз від початку був слабким. Навпаки, в матеріалах релізу Anthropic була позиція, що Opus 4.7 додав на SWE-bench Verified і Pro навіть після виключення завдань з ризиком memorization.
Тобто картина в мене така: стартові цифри могли бути чесно сильними, а ось поведінка моделі після запуску вже дрейфує. І саме тут незалежний трекер корисніший за пресреліз, бо пресреліз фіксує момент запуску, а прод живе тижнями й місяцями.
Вплив на бізнес та автоматизацію
Якщо я будую AI integration навколо Claude Code, такий сигнал не можна ігнорувати. Перший ризик простий: автоматичні code-fix і PR-агенти починають витрачати більше токенів та ітерацій на ті ж самі завдання, а команда помічає це занадто пізно.
Другий удар йде по архітектурі. Якщо у вас немає fallback-моделі, replay-наборів та щоденної перевірки якості, будь-яка прихована деградація перетворює AI implementation на лотерею.
Виграють ті, хто вже тримає eval-обв'язку і не закохується в одного вендора. Програють команди, які побудували automation with AI за принципом «вчора працювало, отже і завтра буде». Ми в Nahornyi AI Lab якраз такі речі й збираємо для клієнтів: моніторинг, страховки, маршрутизацію між моделями.
Якщо у вас Claude Code сидить у критичному контурі, я б не сперечався в коментарях, а швидко прогнав свої контрольні завдання з датою до і після 22 травня. А якщо потрібно спокійно розібрати, де у вас тече якість і як перебудувати AI solutions architecture без зупинки команди, приходьте в Nahornyi AI Lab: з Vadym Nahornyi я зазвичай починаю з діагностики пайплайну, а не з продажу чарівної кнопки.