Liquid AI перенесла аудіо-ШІ прямо в браузер

Liquid AI показала WebGPU-демо, де ASR і TTS працюють прямо в браузері на квантованій LFM2.5-Audio-1.5B через ONNX Runtime Web. Для бізнесу це важливий сигнал: AI integration переходить на клієнтський пристрій, значно знижуючи затримку, серверні витрати та ризики щодо приватності аудіоданих.

Технічний контекст

Я поліз у документацію Liquid AI не заради красивого демо, а тому що такі штуки безпосередньо впливають на AI automation на стороні клієнта. І тут є що помацати руками: ASR, TTS і навіть interleaved conversations крутяться цілком у браузері, без серверного інференсу.

Стек у них цілком приземлений: WebGPU, ONNX Runtime Web і квантована модель LFM2.5-Audio-1.5B, заздалегідь переведена в ONNX. Запуск теж без магії: репозиторій cookbook, npm install, npm run dev. Заявлено підтримку для Chrome та Edge 113+.

Ось де я зупинився і сказав собі: окей, це вже не лабораторна іграшка. Коли аудіо залишається на пристрої, зникає мережевий round-trip, а разом з ним частина затримки та зайві питання про конфіденційність. Для сценаріїв, де artificial intelligence integration впирається в юридичні ризики та UX, це дуже вагомий аргумент.

Але ілюзій тут бути не повинно. «Працює в браузері» не означає «літає у всіх». Реальна швидкість впиратиметься в драйвери, реалізацію WebGPU, пропускну здатність пам'яті, розмір кешу моделі та в те, де саме витрачається час: препроцесинг, генерація токенів чи постобробка аудіо.

Liquid у документації робить акцент на самому факті локального виконання, а не на красивих benchmark-таблицях. І це чесно: для практики мені важливіший не абстрактний score, а те, чи можна взагалі винести голосовий пайплайн у клієнт і не тримати для кожної репліки сервер із GPU.

Що це змінює для бізнесу та автоматизації

Перший виграш очевидний: дешевшає архітектура. Якщо частина голосових завдань переїжджає в браузер, можна різати серверне навантаження і будувати AI solutions for business без постійної плати за інференс кожного аудіозапиту.

Другий момент тонший: приватність перестає бути лише юридичним слайдом у презентації. Для внутрішніх помічників, голосових форм, сервісних кабінетів та медицини локальна обробка аудіо може значно спростити AI implementation.

Програють тут старі ноутбуки, слабкі GPU та команди, які думають, що достатньо «підключити модель». Насправді потрібно акуратно збирати AI architecture: кешування, graceful fallback на CPU або сервер, контроль пам'яті, UX на першому запуску.

Ми в Nahornyi AI Lab якраз вирішуємо такі приземлені завдання для клієнтів: не просто вставляємо модний AI, а збираємо робочий контур під обмеження продукту, заліза та комплаєнсу. Якщо ваш голосовий сценарій впирається в затримку, вартість або приватність, давайте розберемо ваш процес і подивимося, де тут реально спрацює AI solution development, а де краще не обманювати себе демо-ефектом.

У контексті автономної роботи моделей ми раніше розбирали Rust LocalGPT — інструмент для локального запуску ШІ-асистента без прив'язки до сторонніх API. Подібні рішення, як і інференс на базі WebGPU, наочно демонструють актуальний тренд на перенесення обчислень ближче до кінцевого користувача.

Поділитися статтею

Twitter/X LinkedIn Telegram

Liquid AI перенесла аудіо-ШІ прямо в браузер

Технічний контекст

Що це змінює для бізнесу та автоматизації

Ще новини

Gemma 4 стала помітно практичнішою на edge

364M параметрів і новий шанс для ШІ на пристроях