Що тут насправді цікаво з технічної точки зору
У цій історії мене зачепив не Guinness і не сам інфопривід. Мене зачепило те, що хтось узяв голосового AI-агента, дав йому дуже приземлене завдання і випустив у справжній офлайн-хаос: дзвінки в паби, шум, акценти, зайняті люди, короткі відповіді, скидання дзвінків.
За фактами картина така: Рейчел обдзвонила понад 3000 пабів по всій Ірландії у вікенд до Дня святого Патрика 2024 року і змогла зібрати ціни у понад 1000 закладів. Тобто приблизно третина дзвінків конвертувалася в корисну структуровану відповідь. Для демо в лабораторії це було б «ну, окей». Для реального польового збору даних — це вже дуже жива цифра.
Я спеціально подивився, чи є нормальний технічний розбір стеку. Поки що немає. Не розкрито ані модель, ані TTS/STT, ані схему оркестрації, ані обробку відмов. Це трохи дратує, бо найсмачніше тут якраз у пайплайні: розпізнати мову, утримати контекст, витягти ціну, не зламатися на акценті, а потім перетворити розмову на чистий запис для бази даних.
І ось тут починається інженерна правда. Голосовий агент — це не «одна розумна модель». Це зв'язка з телефонії, ASR, діалогового рушія, TTS, логіки повторних спроб, маршрутизації статусів дзвінка та постобробки результату. Якщо хоча б один шар шкутильгає, вся магія перетворюється на кашу з недочутих цифр і дивних транскриптів.
У Рейчел, судячи з результату, базова робоча архітектура точно була. Інакше 1000+ валідних відповідей з такого обсягу не зібрати. Але відсутність даних щодо точності мене б збентежила, якби я хотів використати такий кейс як прямий бенчмарк для бізнесу.
Що це змінює для бізнесу, а що — поки ні
Я бачу тут дуже прикладний сигнал: голосові агенти вже годяться не тільки для завдань «зателефонуйте і нагадайте клієнту», а й для масового збору польових даних. Це корисно там, де форми ніхто не заповнює, API немає, а інформацію, як і раніше, тримає людина на іншому кінці лінії.
Одразу спадають на думку сценарії: моніторинг цін у партнерів, перевірка наявності товару, опитування філій, кваліфікація вхідних лідів, первинний обдзвін підрядників. Така ШІ-автоматизація особливо сильна там, де вартість одного контакту низька, а обсяг великий. Не потрібно робити дзвінок ідеальним. Потрібно робити його достатньо хорошим і дешевим.
Але я б не романтизував цей кейс. Якщо з 3000 дзвінків успішними виявилися близько 1000, це означає, що дві третини пішли в шум: не відповіли, кинули слухавку, не зрозуміли, були зайняті або агент не дотиснув сценарій. Для медіа це кумедна цифра. Для операційного директора це вже питання економіки моделі: скільки коштує один корисний запис, скільки потрібно спроб, як перевіряти якість.
Саме тому впровадження штучного інтелекту в телефонію не можна зводити до вибору «який голос звучить натуральніше». Потрібна нормальна AI-архітектура: черги викликів, правила ескалації, видобування сутностей, human-in-the-loop для спірних кейсів, дешеве логування помилок. Ми в Nahornyi AI Lab якраз у такі місця зазвичай і ліземо — не в красиву оболонку, а в те, чому система реально працює в продакшені.
Хто виграє? Команди продажів, дослідників, франчайзингові мережі, маркетплейси, сервісні компанії з купою однотипних контактів. Хто програє? Ті, хто чекає від голосового агента магії рівня людини без налаштування процесу та контролю якості.
Мені взагалі подобається цей кейс своєю чесністю. Він не виглядає як стерильна презентація з 98% success rate. Він показує реальність: автономний агент уже може бути корисним, але тільки якщо ви рахуєте воронку, розумієте обмеження і робите інтеграцію штучного інтелекту в процес, а не поруч із процесом.
Цей розбір зробив я, Вадим Нагорний з Nahornyi AI Lab. Я займаюся ШІ-рішеннями для бізнесу руками: проєктую голосових агентів, автоматизацію за допомогою ШІ та архітектуру продових пайплайнів, де важливий не вау-ефект, а результат. Якщо хочете приміряти такий сценарій на ваш проєкт — пишіть, разом подивимося, де тут буде реальна користь, а де краще не витрачати бюджет.