Claude Code Opus 4.7 почав просідати

MarginLab запустила незалежний щоденний трекер Claude Code на contamination-resistant підмножині SWE-Bench-Pro та зафіксувала статистично значущу просадку Opus 4.7 з 22 травня. Для AI automation це важливий сигнал: якщо ваші кодові пайплайни зав'язані на Opus, їх вже потрібно перевіряти.

Технічний контекст

Я люблю такі речі не за драму, а за корисність: MarginLab підняла незалежний щоденний трекер Claude Code і дивиться не на маркетинговий слайд, а на деградацію з часом. Для AI automation це майже ідеальний early-warning, особливо якщо у вас Opus 4.7 сидить у кодогенерації, рев'ю або агентних пайплайнах.

Я подивився, як вони це формулюють: трекінг йде по contamination-resistant підмножині SWE-Bench-Pro, плюс вони окремо акцентують на statistically significant деградації, а не на шумі одного невдалого дня. І ось це мені подобається найбільше: не «модель стала гіршою, все пропало», а нормальний моніторинг зі стриманим порогом тривоги.

Сигнал у них один конкретний: з 22 травня пішла статистично значуща просадка Claude Code Opus 4.7. Це не обов'язково означає, що реліз від початку був слабким. Навпаки, в матеріалах релізу Anthropic була позиція, що Opus 4.7 додав на SWE-bench Verified і Pro навіть після виключення завдань з ризиком memorization.

Тобто картина в мене така: стартові цифри могли бути чесно сильними, а ось поведінка моделі після запуску вже дрейфує. І саме тут незалежний трекер корисніший за пресреліз, бо пресреліз фіксує момент запуску, а прод живе тижнями й місяцями.

Вплив на бізнес та автоматизацію

Якщо я будую AI integration навколо Claude Code, такий сигнал не можна ігнорувати. Перший ризик простий: автоматичні code-fix і PR-агенти починають витрачати більше токенів та ітерацій на ті ж самі завдання, а команда помічає це занадто пізно.

Другий удар йде по архітектурі. Якщо у вас немає fallback-моделі, replay-наборів та щоденної перевірки якості, будь-яка прихована деградація перетворює AI implementation на лотерею.

Виграють ті, хто вже тримає eval-обв'язку і не закохується в одного вендора. Програють команди, які побудували automation with AI за принципом «вчора працювало, отже і завтра буде». Ми в Nahornyi AI Lab якраз такі речі й збираємо для клієнтів: моніторинг, страховки, маршрутизацію між моделями.

Якщо у вас Claude Code сидить у критичному контурі, я б не сперечався в коментарях, а швидко прогнав свої контрольні завдання з датою до і після 22 травня. А якщо потрібно спокійно розібрати, де у вас тече якість і як перебудувати AI solutions architecture без зупинки команди, приходьте в Nahornyi AI Lab: з Vadym Nahornyi я зазвичай починаю з діагностики пайплайну, а не з продажу чарівної кнопки.

Раніше ми детально аналізували графіки продуктивності та особливості архітектури попередньої версії Claude Opus 4.6. Розуміння того, як змінювалися базові метрики та витрати на контекст, дозволяє більш об'єктивно оцінювати причини поточної деградації моделі.

Поділитися статтею

Twitter/X LinkedIn Telegram

Claude Code Opus 4.7 почав просідати

Технічний контекст

Вплив на бізнес та автоматизацію

Ще новини

Gemma 4 стала помітно практичнішою на edge

364M параметрів і новий шанс для ШІ на пристроях