Bullshit-benchmark: як виміряти “красиву” галюцинацію LLM

На GitHub з'явився bullshit-benchmark — простий тест, що ловить не фактичні помилки, а “красиву нісенітницю” у відповідях LLM. Це надзвичайно критично для бізнесу: такі галюцинації непомітно псують аналітику, регламенти та автоматизацію, створюючи величезний ризик ухвалення рішень на абсолютно вигаданих і хибних підставах.

Технічний контекст

Я подивився на репозиторій petergpt/bullshit-benchmark і мені сподобалася сама постановка завдання: тестувати не «неправильний факт», а схильність моделі впевнено продовжувати розмову, коли запит містить внутрішню нісенітницю. Це інший клас ризику, ніж типові hallucination-бенчмарки для RAG, де можна звірити відповідь із джерелом.

Механіка зрозуміла: у датасеті є питання і явно відзначений «безглуздий елемент» (наприклад, “еластичність співвідношення сторін оргчарта”). По суті, модель повинна зробити одне з двох: або прямо сказати, що частина запиту некоректна і попросити уточнення, або акуратно перефразувати завдання в осмислений вигляд. Провал — коли модель починає будувати псевдо-аналітику на неіснуючих сутностях.

Мені окремо імпонує, що такий тест неможливо «виграти» лише ерудицією. Тут перевіряється дисципліна відповіді: вміння зупинитися, визнати невизначеність і не генерувати переконливе сміття.

У вихідних даних, які мені надали, є твердження, що Gemini 3 Flash на цьому тесті «показово фейлиться», а Anthropic та Qwen виглядають краще. Я не можу підтвердити це цифрами без відтворюваного прогону і зафіксованих логів, але як інженер з AI-архітектури я бачу, чому така різниця взагалі можлива: різні політики відмови, різні налаштування safety/quality, різні штрафи за «сміливі» твердження.

Вплив на бізнес та автоматизацію

Для бізнесу «красива нісенітниця» набагато небезпечніша за звичайну помилку факту. Факт можна спіймати верифікацією або RAG-цитатами, а ось безглуздий фрейм запиту може пройти в документ, презентацію, техзавдання і запустити ланцюжок дорогих рішень.

У проєктах із впровадження ШІ я частіше бачу цю проблему не в чатах, а в автоматизованих пайплайнах: генерація KPI-дерева, нормалізація вимог, автоопис процесів, класифікація звернень. Якщо модель не вміє «зупинятися», вона буде впевнено вигадувати визначення, метрики та причинно-наслідкові зв'язки — і ваша ШІ автоматизація почне масштабувати помилку.

Хто виграє від подібних бенчмарків? Команди, які будують LLM як компонент системи, а не як «голову, що розмовляє». Програють ті, хто обирає модель тільки за ціною токена і швидкістю, а потім дивується, чому звіти «розумні», але не операційні.

У моєму підході в Nahornyi AI Lab це безпосередньо впливає на архітектурні рішення: я закладаю обов'язковий шар “nonsense detection” до критичних дій, політику відмови/ескалації та тестовий контур із такими питаннями в CI. Модель — не джерело істини; вона компонент, який повинен вміти сказати «ні».

Стратегічне бачення та глибокий розбір

Мій прогноз: у 2026 році ринок почне чітко розділяти «LLM для генерації» та «LLM для керування процесом». Другі виграватимуть не від максимальної балакучості, а від передбачуваності: коректно ставити уточнювальні запитання, маркувати невалідні передумови, уникати хибної строгості.

Я вже бачив патерн: чим ближче модель до операційних рішень (планування закупівель, маршрутизація заявок, комплаєнс-відповіді), тим дорожче обходиться не галюцинація факту, а галюцинація структури. Безглузда сутність у питанні породжує безглузду таблицю, потім безглуздий дашборд, потім — реальні дії людей.

Тому в архітектурі ШІ-рішень, яку я проектую, я не обмежуюся «вибором моделі». Я проектую контури контролю: (1) валідатор вхідних передумов, (2) обмеження стилю відповіді (коротше, менше «води»), (3) перевірки на самоузгодженість і повторний запит до користувача при виявленні нісенітниці, (4) спостережливість — логування причин відмови та класів помилок.

Якщо ви зараз порівнюєте моделі для впровадження, я б додав bullshit-benchmark (або аналогічний набір) у ваш shortlist-тест. Це дешевий спосіб заздалегідь побачити, як поведе себе агент у ситуації, де більшість промптів у реальному бізнесі й живе: у напівформальних, суперечливих і погано визначених запитах.

Що я пропоную зробити у вашій компанії

Цей розбір підготував Вадим Нагорний — провідний практик Nahornyi AI Lab з AI-автоматизації та побудови AI-архітектури в реальному секторі. Я не продаю “чат-ботів заради чат-ботів”: я збираю системи, які вимірювано знижують ризик і вартість помилок.

Якщо ви плануєте впровадження LLM у процеси (служба підтримки, продажі, аналітика, документообіг, планування), напишіть мені в Nahornyi AI Lab. Я проведу швидкий аудит сценаріїв, зберу тестовий контур (включаючи анти-нісенітницю) і запропоную архітектуру впровадження зі зрозумілими SLA, метриками якості та контуром контролю.

Поділитися статтею

Twitter/X LinkedIn Telegram

Bullshit-benchmark: як виміряти “красиву” галюцинацію LLM

Технічний контекст

Вплив на бізнес та автоматизацію

Стратегічне бачення та глибокий розбір

Що я пропоную зробити у вашій компанії

Ще новини

Gemma 3n E4B вловила тон. І це важливий сигнал

EML: один оператор замість цілого калькулятора