Технічний контекст
Я подивився на свіжі обговорення навколо SWE-bench Verified і, чесно, сюрпризу тут уже мало. Топові моделі у 2026 році крутяться біля 80% вирішених завдань, а це для такого бенчмарку вже запах насичення. Якщо ви будуєте AI automation для розробки, то дивитися тільки на цей відсоток вже небезпечно.
Сам бенчмарк корисний: реальні GitHub issues, виправлення коду, прогін тестів, перевірка, що баг реально закрито. Тобто це не іграшковий pass@1 на одному файлі, а хоч якийсь сурогат справжньої інженерної роботи. Але саме тому в нього швидко з'являється стеля: датасет скінченний, патерни повторюються, а ризик контамінації лише зростає.
Темп також показовий. Ще нещодавно 30 з чимось відсотків здавалися сильним результатом, а зараз лідери вже сперечаються не за прорив, а за кілька пунктів зверху. Зазвичай це і є момент, коли бенчмарк перестає бути добрим компасом для AI integration у реальних командах.
І ось тут мені сподобалася репліка про COBOL у банку та переписування на Rust так, щоб клієнти не помітили підміни. Так, звучить жорстко. Але це якраз правильний стрес-тест: не «виріши issue в open-source», а «збережи поведінку системи 70-х, не впусти транзакції, не зламай аудит, викоти без даунтайму».
Там уже спливають речі, яких SWE-bench майже не торкається: прихована бізнес-логіка, дивні batch-процеси, стан між системами, сумісність за даними, регресії на рідкісних гілках. І ще головне: еквівалентність поведінки важливіша за красу коду. Для мене це набагато чесніший benchmark на зрілість AI coding-агентів.
Вплив на бізнес та автоматизацію
Хто виграє? Команди, які не купуються на магію лідербордів, а будують AI solutions for business навколо перевірки, відкату та спостережуваності. Їм важливий не рекорд, а передбачуваний pipeline: згенерував, прогнав дифф-тести, порівняв семантику, розкотив через shadow traffic.
Хто програє? Ті, хто очікує, що високий бал на SWE-bench автоматично означає готовність до legacy-міграції. На практиці bottleneck майже завжди не в генерації коду, а у валідації та безпечному введенні в прод.
Я б уже зараз ставив нові внутрішні метрики: zero-regression migration rate, час до доказової паритетності, вартість human review на тисячу рядків змін. Ми в Nahornyi AI Lab якраз у таких місцях і працюємо з клієнтами: не сперечаємося про хайпові відсотки, а збираємо AI solution development під реальні обмеження системи.
Якщо у вас лежить легасі, яке всі бояться чіпати, це якраз гарний момент перестати чекати на чарівну модель. Можна спокійно розібрати архітектуру, вибрати шматок для пілота і побудувати migration flow без театру. Якщо хочете, я в Nahornyi AI Lab допоможу спроєктувати таку AI automation, щоб бізнес отримав швидкість, а не нове джерело ризику.