KillBench показав, де насправді ламаються кодинг-агенти

WhiteCircle випустила KillBench, новий бенчмарк для AI-агентів, що оцінює не красиві демо, а галюцинації, неоднозначні ТЗ та реальні баги. Для бізнесу це важливо, оскільки впровадження ШІ в розробку тепер можна оцінювати в умовах, близьких до реальних, а не на стерильних тестерах.

Технічний контекст

Я одразу «залип» на KillBench, бо він перевіряє саме те, на чому найчастіше сиплеться AI-автоматизація в розробці: самовпевнена вигадка. Не синтетичний задачник, не черговий polished eval, а набір з 1250 завдань, де моделі підсовують нечіткі специфікації, пастки з неіснуючими API та баги з живих репозиторіїв.

І ось це вже схоже на реальне життя. Коли я впроваджую AI в інженерні процеси, проблема майже ніколи не в тому, що модель не знає синтаксису. Проблема в тому, що вона занадто охоче вигадує те, чого немає.

За даними WhiteCircle, KillBench вийшов у лютому 2026 року разом з техзвітом та open-source репозиторієм. У бенчмарку є live-лідерборд, публічні сабміти та цілком зрозумілий CLI, аж до формату на кшталт killbench submit --model claude-4-sonnet.

Сама структура у них жорстка, і це добре. 30% завдань про неоднозначні вимоги, 25% про adversarial inputs, 20% про багатокрокові агентські ланцюжки, 15% — це чисті пастки на галюцинації, і ще 10% — це реальні полювання на баги з GitHub.

Мені особливо сподобалося, що вони не зупинилися на одному Pass@1. Вони додали hallucination score, quality index та агентний протокол з лімітом часу, доступом до bash, git та вебпошуку, плюс вимогою до самокритики перед фінальною здачею.

Саме тут я пригальмував. Тому що більшість старих бенчмарків все ще вимірюють «чи вміє модель вирішити задачу», а KillBench вимірює «чи вміє агент не нести нісенітниць під тиском».

На середину квітня 2026 року в лідерах Claude 4 Opus з Pass@1 на рівні 28.4%, потім Grok-3-Agent та o1-Pro. Цифри виглядають майже принизливо низькими, але в цьому й сенс: якщо топові системи на такому наборі ледве виходять за 20%, значить продакшен-команди давно мали рацію, коли не довіряли красивим демо.

Окремо сильний хід — це Kill Shots, 50 надважких завдань, де найкращі моделі минулого покоління падають нижче 10% Pass@1. Такий набір нікому не лестить і швидко показує, де в агента немає верифікації, а є лише впевнений тон.

Вплив на бізнес та автоматизацію

Для мене головний висновок простий: архітектура AI-агента без шару перевірки й надалі виглядатиме як іграшка. Якщо модель добре пише код на чистому бенчмарку, але валиться на неоднозначності, я не поставлю її в ланцюжок, де вона торкається CI, міграцій, інфраструктури чи клієнтських даних.

KillBench підштовхує до більш дорослої архітектури AI-рішень. Не один великий розумний агент, а зв'язка з генерації, перевірки, повторної постановки задачі, тестового запуску та обмеження за інструментами.

Виграють команди, які вже будують verifier loops, trace logging та нормальні sandbox-середовища. Програють ті, хто все ще продає ідею «підключили модель до IDE, і тепер вона сама пиляє продукт».

Ще один неприємний, але корисний сигнал: quality index та hallucination score важливіші за голий pass rate. Я вже бачив, як агент видає робочий код, що проходить тест, але тягне фейкову бібліотеку, ламає читабельність або зашиває прихований ризик у прод. KillBench хоча б намагається це карати.

При цьому я б не робив з нового бенчмарку релігію. У WhiteCircle є спірне місце: частина hallucination detection спирається на LLM-as-judge, та ще й з Claude 4 як oracle. Для досліджень це нормально, але якщо ви порівнюєте постачальників для бізнесу, я б обов'язково проганяв ще свої внутрішні eval-набори на власних сценаріях.

Власне, ми в Nahornyi AI Lab так і робимо для клієнтів: не віримо ні маркетингу моделі, ні одному лідерборду. Я завжди дивлюся, як агент поводиться на реальних завданнях команди, де є брудні дані, криві постановки та дорога ціна помилки.

Якщо коротко, KillBench корисний не тому, що назвав переможця. Він корисний тому, що нарешті робить видимою справжню вартість галюцинацій у кодинг-агентах.

Якщо у вас розробка, підтримка або внутрішні інженерні процеси вже буксують на таких збоях, давайте розкладемо це по кроках. У Nahornyi AI Lab я можу допомогти вибудувати AI-автоматизацію так, щоб агент не просто «щось генерував», а реально економив час команди без зайвого ризику для продакшену.

Поділитися статтею

Twitter/X LinkedIn Telegram

KillBench показав, де насправді ламаються кодинг-агенти

Технічний контекст

Вплив на бізнес та автоматизацію

Ще новини

LFM2.5-8B-A1B: як реально позбутися зациклення

Твіт Альтмана є, а релізу поки не видно