Skip to main content
voice aiai automationrestaurants

Голосовий AI вже самостійно бронює столики

З'явився рідкісний production-like приклад: голосовий AI-агент сам зателефонував у ресторан і довів бронювання до підтвердження, попри збій розпізнавання. Для бізнесу це сигнал: AI-автоматизація в телефонії вже працює за центи, але впирається в детекцію черги розмови (turn detection) та якість STT.

Технічний контекст

Я люблю такі речі не за хайп, а за їхню приземленість: не демо з ідеальним звуком, а реальний дзвінок в іспанський ресторан. І ось тут AI-автоматизація вже виглядає не як іграшка, а як нормальна заготовка для робочої телефонії для бізнесу.

В опублікованому PoC агент зателефонував, поговорив іспанською і забронював столик на трьох на 20:00. Найцікавіше не в тому, що він «щось сказав», а в тому, що він дійшов до підтвердження бронювання, хоча STT дорогою спіткнувся і розпізнав шум як дивну фразу на кшталт «¿Qué tipo de escándalos hay acá?».

Стек технологій також показовий. Для голосу використали 11labs (TTS/STT), телефонію віддали Zadarma, а мозком був Gemini 1.5 Flash. Вартість дзвінка склала приблизно 15-20 центів за півтори хвилини, і це вже той рівень, де я починаю дивитися на це не як на експеримент, а як на кандидата для інтеграції штучного інтелекту (artificial intelligence integration) в операційні процеси.

Мені окремо сподобалася дрібниця, яка зазвичай вбиває пів дня на зневадження: в API поле називається message, а не text. Хто збирав голосові пайплайни вручну, той знає, скільки часу забирає така дурниця, особливо коли все навколо виглядає «майже правильно».

Пізніше автор показав і другий дзвінок, уже до печери Pozalagua. Там спостереження ще цікавіше: коротке Hola! на старті працює краще, ніж довший захід. Це дуже життєво. У voice-агентах перші 2-3 секунди часто вирішують усе: людина зрозуміла, що відбувається, чи кинула слухавку.

Наступний крок автора, судячи з нотаток, це повністю локальний ASR/TTS. І я його розумію. Щойно ти виходиш із пісочниці, одразу виринають затримки, приватність, вартість у масштабі та контроль над якістю для конкретної мови й акценту.

Вплив на бізнес та автоматизацію

Якщо дивитися не очима ентузіаста, а очима власника бізнесу, сигнал тут простий: телефонні сценарії починають автоматизуватися по-справжньому. Бронювання, підтвердження запису, перенесення візиту, відповіді на типові питання, збір базових даних клієнта — все це вже можна збирати в робочу розробку AI-рішень (AI solution development), а не лише в презентацію для інвестора.

Але я б не робив хибний висновок, що головну проблему тепер вирішено. На мій погляд, найболючіше місце тут не TTS і навіть не LLM. Головна міна, як і зазначили в обговоренні, це детекція черги розмови (turn detection): коли говорити, коли мовчати, коли не можна перебивати, а коли пауза вже означає, що хід знову в агента.

Саме turn detection створює різницю між «вау, він сам подзвонив» і «боже, вимкніть це». На папері діалог може бути розумним, але якщо агент втручається в мову співрозмовника або зависає після очевидної відповіді, користувацький досвід руйнується за секунди.

Хто виграє від таких систем першим? Ресторани, клініки, салони, локальний сервіс, туризм — тобто всі, у кого вхідний потік досі живе в телефоні. А хто програє? Ті, хто думає, що можна просто прикрутити модель до SIP і отримати готового співробітника без налаштування сценаріїв, таймінгів, fallback-логіки та моніторингу.

Я в таких кейсах завжди дивлюся на архітектуру в цілому: телефонія, розпізнавання, управління ходом діалогу, пам'ять сесії, правила ескалації на людину, логування помилок і вартість хвилини. Ми в Nahornyi AI Lab якраз вирішуємо для клієнтів такі завдання AI-впровадження (AI implementation) на стику бізнесу та інженерії, де важливий не сам факт «у нас є агент», а щоб він реально знімав навантаження з команди.

Мій висновок простий: голосові агенти вже вийшли зі стадії циркового трюку. Але перемагатимуть не «найрозумніші» голоси, а ті системи, де акуратно зібрана AI-архітектура, враховані помилки STT і відточений ритм розмови. Якщо ваш бізнес втрачає заявки у дзвінках або люди витрачають години на однотипні розмови, давайте розберемо ваш потік спокійно і по суті: в Nahornyi AI Lab я можу допомогти побудувати AI-автоматизацію (build AI automation) так, щоб агент не дратував клієнтів, а реально закривав рутину і звільняв людей для нормальної роботи.

Поділитися статтею