SWE-bench упирается в потолок. И это нормально

SWE-bench Verified в 2026 году уже уперся примерно в 80%, и рынок всерьез обсуждает, не насытится ли метрика за год-два. Для бизнеса это сигнал простой: AI implementation пора мерить не красивыми баллами, а способностью безопасно переписывать legacy-системы.

Технический контекст

Я посмотрел на свежие обсуждения вокруг SWE-bench Verified и, честно, сюрприза тут уже мало. Топовые модели в 2026 году крутятся возле 80% решенных задач, а это для такого бенча уже запах насыщения. Если вы строите AI automation для разработки, то смотреть только на этот процент уже опасно.

Сам бенч полезный: реальные GitHub issues, правка кода, прогон тестов, проверка, что баг реально закрыт. То есть это не игрушечный pass@1 на одном файле, а хоть какой-то суррогат настоящей инженерной работы. Но ровно поэтому у него быстро появляется потолок: датасет конечный, паттерны повторяются, а риск контаминации только растет.

Темп тоже показательный. Еще недавно 30 с чем-то процентов казались сильным результатом, а сейчас лидеры уже спорят не за прорыв, а за пару пунктов сверху. Обычно это и есть момент, когда бенч перестает быть хорошим компасом для AI integration в реальных командах.

И вот тут мне понравилась реплика про COBOL в банке и переписывание на Rust так, чтобы клиенты не заметили подмены. Да, звучит жестко. Но это как раз правильный стресс-тест: не «реши issue в open-source», а «сохрани поведение системы 70-х, не урони транзакции, не сломай аудит, выкати без даунтайма».

Там уже всплывают вещи, которые SWE-bench почти не трогает: скрытая бизнес-логика, странные batch-процессы, состояние между системами, совместимость по данным, регрессии на редких ветках. И еще главное: эквивалентность поведения важнее красоты кода. Для меня это гораздо честнее как benchmark на зрелость AI coding-агентов.

Влияние на бизнес и автоматизацию

Кто выигрывает? Команды, которые не покупаются на leaderboard-магии, а строят AI solutions for business вокруг проверки, отката и наблюдаемости. Им важен не рекорд, а предсказуемый pipeline: сгенерировал, прогнал дифф-тесты, сравнил семантику, раскатил через shadow traffic.

Кто проигрывает? Те, кто ожидает, что высокий балл на SWE-bench автоматически означает готовность к legacy-миграции. На практике bottleneck почти всегда не в генерации кода, а в валидации и безопасном вводе в прод.

Я бы уже сейчас ставил новые внутренние метрики: zero-regression migration rate, время до доказуемого parity, стоимость human review на тысячу строк изменений. Мы в Nahornyi AI Lab ровно на таких местах и работаем с клиентами: не спорим о хайповых процентах, а собираем AI solution development под реальные ограничения системы.

Если у вас лежит легаси, которое все боятся трогать, это как раз хороший момент перестать ждать волшебную модель. Можно спокойно разобрать архитектуру, выбрать кусок для пилота и построить migration flow без театра. Если хотите, я в Nahornyi AI Lab помогу спроектировать такую AI automation так, чтобы бизнес получил скорость, а не новый источник риска.

Связанная часть этой дискуссии — растущая обеспокоенность тем, как ИИ в разработке может непреднамеренно снизить качество кода. Ранее мы рассматривали анализ этого «кризиса некачественного кода» и его последствий для увеличения общей стоимости владения.

Поделиться статьёй

Twitter/X LinkedIn Telegram

SWE-bench упирается в потолок. И это нормально

Технический контекст

Влияние на бизнес и автоматизацию

Ещё новости

Страховка от ошибок AI-агентов

Codex EU Patcher вышел в паблик