Технічний контекст
Я одразу «залип» на KillBench, бо він перевіряє саме те, на чому найчастіше сиплеться AI-автоматизація в розробці: самовпевнена вигадка. Не синтетичний задачник, не черговий polished eval, а набір з 1250 завдань, де моделі підсовують нечіткі специфікації, пастки з неіснуючими API та баги з живих репозиторіїв.
І ось це вже схоже на реальне життя. Коли я впроваджую AI в інженерні процеси, проблема майже ніколи не в тому, що модель не знає синтаксису. Проблема в тому, що вона занадто охоче вигадує те, чого немає.
За даними WhiteCircle, KillBench вийшов у лютому 2026 року разом з техзвітом та open-source репозиторієм. У бенчмарку є live-лідерборд, публічні сабміти та цілком зрозумілий CLI, аж до формату на кшталт killbench submit --model claude-4-sonnet.
Сама структура у них жорстка, і це добре. 30% завдань про неоднозначні вимоги, 25% про adversarial inputs, 20% про багатокрокові агентські ланцюжки, 15% — це чисті пастки на галюцинації, і ще 10% — це реальні полювання на баги з GitHub.
Мені особливо сподобалося, що вони не зупинилися на одному Pass@1. Вони додали hallucination score, quality index та агентний протокол з лімітом часу, доступом до bash, git та вебпошуку, плюс вимогою до самокритики перед фінальною здачею.
Саме тут я пригальмував. Тому що більшість старих бенчмарків все ще вимірюють «чи вміє модель вирішити задачу», а KillBench вимірює «чи вміє агент не нести нісенітниць під тиском».
На середину квітня 2026 року в лідерах Claude 4 Opus з Pass@1 на рівні 28.4%, потім Grok-3-Agent та o1-Pro. Цифри виглядають майже принизливо низькими, але в цьому й сенс: якщо топові системи на такому наборі ледве виходять за 20%, значить продакшен-команди давно мали рацію, коли не довіряли красивим демо.
Окремо сильний хід — це Kill Shots, 50 надважких завдань, де найкращі моделі минулого покоління падають нижче 10% Pass@1. Такий набір нікому не лестить і швидко показує, де в агента немає верифікації, а є лише впевнений тон.
Вплив на бізнес та автоматизацію
Для мене головний висновок простий: архітектура AI-агента без шару перевірки й надалі виглядатиме як іграшка. Якщо модель добре пише код на чистому бенчмарку, але валиться на неоднозначності, я не поставлю її в ланцюжок, де вона торкається CI, міграцій, інфраструктури чи клієнтських даних.
KillBench підштовхує до більш дорослої архітектури AI-рішень. Не один великий розумний агент, а зв'язка з генерації, перевірки, повторної постановки задачі, тестового запуску та обмеження за інструментами.
Виграють команди, які вже будують verifier loops, trace logging та нормальні sandbox-середовища. Програють ті, хто все ще продає ідею «підключили модель до IDE, і тепер вона сама пиляє продукт».
Ще один неприємний, але корисний сигнал: quality index та hallucination score важливіші за голий pass rate. Я вже бачив, як агент видає робочий код, що проходить тест, але тягне фейкову бібліотеку, ламає читабельність або зашиває прихований ризик у прод. KillBench хоча б намагається це карати.
При цьому я б не робив з нового бенчмарку релігію. У WhiteCircle є спірне місце: частина hallucination detection спирається на LLM-as-judge, та ще й з Claude 4 як oracle. Для досліджень це нормально, але якщо ви порівнюєте постачальників для бізнесу, я б обов'язково проганяв ще свої внутрішні eval-набори на власних сценаріях.
Власне, ми в Nahornyi AI Lab так і робимо для клієнтів: не віримо ні маркетингу моделі, ні одному лідерборду. Я завжди дивлюся, як агент поводиться на реальних завданнях команди, де є брудні дані, криві постановки та дорога ціна помилки.
Якщо коротко, KillBench корисний не тому, що назвав переможця. Він корисний тому, що нарешті робить видимою справжню вартість галюцинацій у кодинг-агентах.
Якщо у вас розробка, підтримка або внутрішні інженерні процеси вже буксують на таких збоях, давайте розкладемо це по кроках. У Nahornyi AI Lab я можу допомогти вибудувати AI-автоматизацію так, щоб агент не просто «щось генерував», а реально економив час команди без зайвого ризику для продакшену.