SWE-bench впирається у стелю. І це нормально.

SWE-bench Verified у 2026 році вже досяг близько 80%, і ринок серйозно обговорює, чи не насититься метрика за рік-два. Для бізнесу це простий сигнал: впровадження AI час вимірювати не красивими балами, а здатністю безпечно переписувати застарілі системи без ризику.

Технічний контекст

Я подивився на свіжі обговорення навколо SWE-bench Verified і, чесно, сюрпризу тут уже мало. Топові моделі у 2026 році крутяться біля 80% вирішених завдань, а це для такого бенчмарку вже запах насичення. Якщо ви будуєте AI automation для розробки, то дивитися тільки на цей відсоток вже небезпечно.

Сам бенчмарк корисний: реальні GitHub issues, виправлення коду, прогін тестів, перевірка, що баг реально закрито. Тобто це не іграшковий pass@1 на одному файлі, а хоч якийсь сурогат справжньої інженерної роботи. Але саме тому в нього швидко з'являється стеля: датасет скінченний, патерни повторюються, а ризик контамінації лише зростає.

Темп також показовий. Ще нещодавно 30 з чимось відсотків здавалися сильним результатом, а зараз лідери вже сперечаються не за прорив, а за кілька пунктів зверху. Зазвичай це і є момент, коли бенчмарк перестає бути добрим компасом для AI integration у реальних командах.

І ось тут мені сподобалася репліка про COBOL у банку та переписування на Rust так, щоб клієнти не помітили підміни. Так, звучить жорстко. Але це якраз правильний стрес-тест: не «виріши issue в open-source», а «збережи поведінку системи 70-х, не впусти транзакції, не зламай аудит, викоти без даунтайму».

Там уже спливають речі, яких SWE-bench майже не торкається: прихована бізнес-логіка, дивні batch-процеси, стан між системами, сумісність за даними, регресії на рідкісних гілках. І ще головне: еквівалентність поведінки важливіша за красу коду. Для мене це набагато чесніший benchmark на зрілість AI coding-агентів.

Вплив на бізнес та автоматизацію

Хто виграє? Команди, які не купуються на магію лідербордів, а будують AI solutions for business навколо перевірки, відкату та спостережуваності. Їм важливий не рекорд, а передбачуваний pipeline: згенерував, прогнав дифф-тести, порівняв семантику, розкотив через shadow traffic.

Хто програє? Ті, хто очікує, що високий бал на SWE-bench автоматично означає готовність до legacy-міграції. На практиці bottleneck майже завжди не в генерації коду, а у валідації та безпечному введенні в прод.

Я б уже зараз ставив нові внутрішні метрики: zero-regression migration rate, час до доказової паритетності, вартість human review на тисячу рядків змін. Ми в Nahornyi AI Lab якраз у таких місцях і працюємо з клієнтами: не сперечаємося про хайпові відсотки, а збираємо AI solution development під реальні обмеження системи.

Якщо у вас лежить легасі, яке всі бояться чіпати, це якраз гарний момент перестати чекати на чарівну модель. Можна спокійно розібрати архітектуру, вибрати шматок для пілота і побудувати migration flow без театру. Якщо хочете, я в Nahornyi AI Lab допоможу спроєктувати таку AI automation, щоб бізнес отримав швидкість, а не нове джерело ризику.

Пов'язана частина цієї дискусії — зростаюче занепокоєння щодо того, як ШІ в розробці може ненавмисно погіршити якість коду. Раніше ми розглядали аналіз цієї «кризи неякісного коду» та її наслідки для збільшення загальної вартості володіння.

Поділитися статтею

Twitter/X LinkedIn Telegram

SWE-bench впирається у стелю. І це нормально.

Технічний контекст

Вплив на бізнес та автоматизацію

Ще новини

Страхування від помилок AI-агентів

Codex EU Patcher вийшов у паблік