Технический контекст
Я сразу залип на KillBench, потому что он проверяет ровно то, на чем чаще всего сыпется AI automation в разработке: самоуверенная выдумка. Не синтетический задачник, не очередной polished eval, а набор из 1250 задач, где модели подсовывают мутные спеки, ловушки с несуществующими API и баги из живых репозиториев.
И вот это уже похоже на реальную жизнь. Когда я делаю AI integration в инженерные процессы, проблема почти никогда не в том, что модель не знает синтаксис. Проблема в том, что она слишком охотно придумывает то, чего нет.
По данным WhiteCircle, KillBench вышел в феврале 2026 вместе с техрепортом и open-source репозиторием. У бенчмарка есть live leaderboard, публичные сабмиты и вполне внятный CLI, вплоть до формата вроде killbench submit --model claude-4-sonnet.
Сама структура у них злая, и это хорошо. 30% задач про неоднозначные требования, 25% про adversarial inputs, 20% про многошаговые агентные цепочки, 15% это чистые hallucination traps, и еще 10% это реальные bug hunts из GitHub.
Мне особенно понравилось, что они не остановились на одном Pass@1. Они добавили hallucination score, quality index и агентный протокол с лимитом по времени, доступом к bash, git и web search, плюс требованием к self-critique перед финальной сдачей.
Именно тут я притормозил. Потому что большинство старых бенчмарков все еще меряют «умеет ли модель решить задачу», а KillBench меряет «умеет ли агент не нести чушь под давлением».
На середину апреля 2026 в лидерах Claude 4 Opus с Pass@1 на уровне 28.4%, затем Grok-3-Agent и o1-Pro. Цифры выглядят почти унизительно низкими, но в этом и смысл: если топовые системы на таком наборе еле выходят за 20%, значит продакшен-команды давно были правы, когда не доверяли красивым демо.
Отдельно сильный ход это Kill Shots, 50 сверхтяжелых задач, где лучшие модели прошлого поколения падают ниже 10% Pass@1. Такой набор не льстит никому и быстро показывает, где у агента нет верификации, а есть только уверенный тон.
Влияние на бизнес и автоматизацию
Для меня главный вывод простой: архитектура AI-агента без слоя проверки дальше будет выглядеть как игрушка. Если модель хорошо пишет код на чистом бенчмарке, но валится на неоднозначности, я не поставлю ее в цепочку, где она трогает CI, миграции, инфраструктуру или клиентские данные.
KillBench подталкивает к более взрослой AI solutions architecture. Не один большой умный агент, а связка из генерации, проверки, повторной постановки задачи, тестового запуска и ограничения по инструментам.
Выигрывают команды, которые уже строят verifier loops, trace logging и нормальные sandbox-окружения. Проигрывают те, кто все еще продает идею «подключили модель к IDE, и теперь она сама пилит продукт».
Еще один неприятный, но полезный сигнал: quality index и hallucination score важнее голого pass rate. Я уже видел, как агент выдает рабочий код, который проходит тест, но тянет фейковую библиотеку, ломает читаемость или зашивает скрытый риск в прод. KillBench хотя бы пытается это наказывать.
При этом я бы не делал из нового бенчмарка религию. У WhiteCircle есть спорное место: часть hallucination detection опирается на LLM-as-judge, да еще и с Claude 4 как oracle. Для исследований это нормально, но если вы сравниваете поставщиков для бизнеса, я бы обязательно прогонял еще свои внутренние eval-наборы на собственных сценариях.
Собственно, мы в Nahornyi AI Lab так и делаем для клиентов: не верим ни маркетингу модели, ни одному leaderboard. Я всегда смотрю, как агент ведет себя на реальных задачах команды, где есть грязные данные, кривые постановки и дорогая цена ошибки.
Если коротко, KillBench полезен не потому, что назвал победителя. Он полезен потому, что наконец-то делает видимой настоящую стоимость галлюцинаций в coding agents.
Если у вас разработка, поддержка или внутренние инженерные процессы уже буксуют на таких сбоях, давайте разложим это по шагам. В Nahornyi AI Lab я могу помочь выстроить AI automation так, чтобы агент не просто «что-то генерировал», а реально экономил время команды без лишнего риска для продакшена.