Технический контекст
Я люблю такие штуки не за хайп, а за приземленность: не демо с идеальным звуком, а реальный звонок в испанский ресторан. И вот тут AI automation уже выглядит не как игрушка, а как нормальная заготовка под рабочую телефонию для бизнеса.
В опубликованном PoC агент позвонил, поговорил на испанском и забронировал столик на троих на 20:00. Самое вкусное не в том, что он «что-то сказал», а в том, что он доехал до подтверждения брони, хотя STT по дороге споткнулся и распознал шум как странную фразу в духе «¿Qué tipo de escándalos hay acá?».
Стек тоже показательный. На голосе использовали 11labs для TTS/STT, телефонию отдали Zadarma, а мозгом был Gemini 1.5 Flash. Стоимость звонка вышла примерно 15-20 центов за полторы минуты, и это уже тот уровень, где я начинаю смотреть не как на эксперимент, а как на кандидата для artificial intelligence integration в операционные процессы.
Мне отдельно понравилась мелочь, которая обычно ломает полдня отладки: в API поле называется message, а не text. Кто собирал голосовые пайплайны руками, тот знает, сколько времени убивает такая ерунда, особенно когда все вокруг выглядит «почти правильно».
Позже автор показал и второй звонок, уже в пещеру Pozalagua. Там наблюдение еще интереснее: короткое Hola! на старте работает лучше, чем более длинный заход. Это очень жизненно. В voice-агентах первые 2-3 секунды часто решают вообще все: человек понял, что происходит, или повесил трубку.
Следующий шаг у автора, судя по заметкам, это полностью локальный ASR/TTS. И я его понимаю. Как только ты выходишь из песочницы, сразу всплывают задержки, приватность, стоимость на масштабе и контроль над качеством для конкретного языка и акцента.
Влияние на бизнес и автоматизацию
Если смотреть не глазами энтузиаста, а глазами владельца бизнеса, сигнал тут простой: телефонные сценарии начинают автоматизироваться по-настоящему. Бронирование, подтверждение записи, перенос визита, ответы на типовые вопросы, сбор базовых данных клиента, все это уже можно собирать в рабочую AI solution development, а не только в презентацию для инвестора.
Но я бы не делал ложный вывод, что главная проблема теперь решена. На мой взгляд, самое больное место здесь не TTS и даже не LLM. Главная мина, как и отметили в обсуждении, это turn detection: когда говорить, когда молчать, когда перебивать нельзя, а когда пауза уже означает, что ход снова у агента.
Именно turn detection делает разницу между «вау, он сам позвонил» и «господи, выключите это». На бумаге диалог может быть умным, но если агент лезет в речь собеседника или зависает после очевидного ответа, пользовательский опыт разваливается за секунды.
Кто выигрывает от таких систем первым? Рестораны, клиники, салоны, локальный сервис, туризм, то есть все, у кого входящий поток до сих пор живет в телефоне. Кто проигрывает? Те, кто думает, что можно просто прикрутить модель к SIP и получить готового сотрудника без настройки сценариев, таймингов, fallback-логики и мониторинга.
Я в таких кейсах всегда смотрю на архитектуру целиком: телефония, распознавание, управление ходом диалога, память сессии, правила эскалации на человека, логирование ошибок и стоимость минуты. Мы в Nahornyi AI Lab как раз решаем для клиентов такие задачи AI implementation на стыке бизнеса и инженерии, где важен не сам факт «у нас есть агент», а чтобы он реально снимал нагрузку с команды.
Мой вывод простой: голосовые агенты уже вышли из стадии циркового трюка. Но побеждать будут не самые «умные» голоса, а те системы, где аккуратно собрана AI architecture, учтены ошибки STT и вылизан ритм разговора. Если у вас бизнес теряет заявки в звонках или люди тратят часы на однотипные разговоры, давайте разберем ваш поток спокойно и по делу: в Nahornyi AI Lab я могу помочь build AI automation так, чтобы агент не раздражал клиентов, а реально закрывал рутину и освобождал людей для нормальной работы.