Технический контекст
Я посмотрел на свежие обсуждения вокруг SWE-bench Verified и, честно, сюрприза тут уже мало. Топовые модели в 2026 году крутятся возле 80% решенных задач, а это для такого бенча уже запах насыщения. Если вы строите AI automation для разработки, то смотреть только на этот процент уже опасно.
Сам бенч полезный: реальные GitHub issues, правка кода, прогон тестов, проверка, что баг реально закрыт. То есть это не игрушечный pass@1 на одном файле, а хоть какой-то суррогат настоящей инженерной работы. Но ровно поэтому у него быстро появляется потолок: датасет конечный, паттерны повторяются, а риск контаминации только растет.
Темп тоже показательный. Еще недавно 30 с чем-то процентов казались сильным результатом, а сейчас лидеры уже спорят не за прорыв, а за пару пунктов сверху. Обычно это и есть момент, когда бенч перестает быть хорошим компасом для AI integration в реальных командах.
И вот тут мне понравилась реплика про COBOL в банке и переписывание на Rust так, чтобы клиенты не заметили подмены. Да, звучит жестко. Но это как раз правильный стресс-тест: не «реши issue в open-source», а «сохрани поведение системы 70-х, не урони транзакции, не сломай аудит, выкати без даунтайма».
Там уже всплывают вещи, которые SWE-bench почти не трогает: скрытая бизнес-логика, странные batch-процессы, состояние между системами, совместимость по данным, регрессии на редких ветках. И еще главное: эквивалентность поведения важнее красоты кода. Для меня это гораздо честнее как benchmark на зрелость AI coding-агентов.
Влияние на бизнес и автоматизацию
Кто выигрывает? Команды, которые не покупаются на leaderboard-магии, а строят AI solutions for business вокруг проверки, отката и наблюдаемости. Им важен не рекорд, а предсказуемый pipeline: сгенерировал, прогнал дифф-тесты, сравнил семантику, раскатил через shadow traffic.
Кто проигрывает? Те, кто ожидает, что высокий балл на SWE-bench автоматически означает готовность к legacy-миграции. На практике bottleneck почти всегда не в генерации кода, а в валидации и безопасном вводе в прод.
Я бы уже сейчас ставил новые внутренние метрики: zero-regression migration rate, время до доказуемого parity, стоимость human review на тысячу строк изменений. Мы в Nahornyi AI Lab ровно на таких местах и работаем с клиентами: не спорим о хайповых процентах, а собираем AI solution development под реальные ограничения системы.
Если у вас лежит легаси, которое все боятся трогать, это как раз хороший момент перестать ждать волшебную модель. Можно спокойно разобрать архитектуру, выбрать кусок для пилота и построить migration flow без театра. Если хотите, я в Nahornyi AI Lab помогу спроектировать такую AI automation так, чтобы бизнес получил скорость, а не новый источник риска.