Технічний контекст
Я поліз у документацію Liquid AI не заради красивого демо, а тому що такі штуки безпосередньо впливають на AI automation на стороні клієнта. І тут є що помацати руками: ASR, TTS і навіть interleaved conversations крутяться цілком у браузері, без серверного інференсу.
Стек у них цілком приземлений: WebGPU, ONNX Runtime Web і квантована модель LFM2.5-Audio-1.5B, заздалегідь переведена в ONNX. Запуск теж без магії: репозиторій cookbook, npm install, npm run dev. Заявлено підтримку для Chrome та Edge 113+.
Ось де я зупинився і сказав собі: окей, це вже не лабораторна іграшка. Коли аудіо залишається на пристрої, зникає мережевий round-trip, а разом з ним частина затримки та зайві питання про конфіденційність. Для сценаріїв, де artificial intelligence integration впирається в юридичні ризики та UX, це дуже вагомий аргумент.
Але ілюзій тут бути не повинно. «Працює в браузері» не означає «літає у всіх». Реальна швидкість впиратиметься в драйвери, реалізацію WebGPU, пропускну здатність пам'яті, розмір кешу моделі та в те, де саме витрачається час: препроцесинг, генерація токенів чи постобробка аудіо.
Liquid у документації робить акцент на самому факті локального виконання, а не на красивих benchmark-таблицях. І це чесно: для практики мені важливіший не абстрактний score, а те, чи можна взагалі винести голосовий пайплайн у клієнт і не тримати для кожної репліки сервер із GPU.
Що це змінює для бізнесу та автоматизації
Перший виграш очевидний: дешевшає архітектура. Якщо частина голосових завдань переїжджає в браузер, можна різати серверне навантаження і будувати AI solutions for business без постійної плати за інференс кожного аудіозапиту.
Другий момент тонший: приватність перестає бути лише юридичним слайдом у презентації. Для внутрішніх помічників, голосових форм, сервісних кабінетів та медицини локальна обробка аудіо може значно спростити AI implementation.
Програють тут старі ноутбуки, слабкі GPU та команди, які думають, що достатньо «підключити модель». Насправді потрібно акуратно збирати AI architecture: кешування, graceful fallback на CPU або сервер, контроль пам'яті, UX на першому запуску.
Ми в Nahornyi AI Lab якраз вирішуємо такі приземлені завдання для клієнтів: не просто вставляємо модний AI, а збираємо робочий контур під обмеження продукту, заліза та комплаєнсу. Якщо ваш голосовий сценарій впирається в затримку, вартість або приватність, давайте розберемо ваш процес і подивимося, де тут реально спрацює AI solution development, а де краще не обманювати себе демо-ефектом.