Liquid AI перенесла аудио‑ИИ прямо в браузер

Liquid AI показала WebGPU-демо, где ASR и TTS работают прямо в браузере на квантизованной LFM2.5-Audio-1.5B через ONNX Runtime Web. Для бизнеса это важный сигнал: AI integration уходит на клиентское устройство, снижая задержку, серверные расходы и риски по приватности аудио.

Технический контекст

Я полез в документацию Liquid AI не ради красивого демо, а потому что такие штуки напрямую влияют на AI automation на клиентской стороне. И здесь есть что потрогать руками: ASR, TTS и даже interleaved conversations крутятся целиком в браузере, без серверного инференса.

Стек у них вполне приземлённый: WebGPU, ONNX Runtime Web и квантизованная модель LFM2.5-Audio-1.5B, заранее переведённая в ONNX. Запуск тоже без магии: репозиторий cookbook, npm install, npm run dev. Поддержка заявлена для Chrome и Edge 113+.

Вот где я остановился и сказал себе: окей, это уже не лабораторная игрушка. Когда аудио остаётся на устройстве, исчезает сетевой round-trip, а вместе с ним часть задержки и лишние вопросы про конфиденциальность. Для сценариев, где artificial intelligence integration упирается в юрриски и UX, это очень сильный аргумент.

Но иллюзий тут быть не должно. “Работает в браузере” не значит “летает у всех”. Реальная скорость упрётся в драйверы, реализацию WebGPU, пропускную способность памяти, размер кэша модели и в то, где именно тратится время: препроцессинг, генерация токенов или постобработка аудио.

Liquid в документации делает акцент на самом факте локального исполнения, а не на красивых benchmark-таблицах. И это честно: для практики мне важнее не абстрактный score, а то, можно ли вообще вынести голосовой пайплайн в клиент и не держать для каждой реплики сервер с GPU.

Что это меняет для бизнеса и автоматизации

Первый выигрыш очевиден: дешевеет архитектура. Если часть голосовых задач уезжает в браузер, можно резать серверную нагрузку и строить AI solutions for business без постоянной платы за инференс каждого аудиозапроса.

Второй момент тоньше: приватность перестаёт быть только юридическим слайдом в презентации. Для внутренних помощников, голосовых форм, сервисных кабинетов и медицины локальная обработка аудио может сильно упростить AI implementation.

Проиграют тут старые ноутбуки, слабые GPU и команды, которые думают, что достаточно “подключить модель”. На деле нужно аккуратно собирать AI architecture: кэширование, graceful fallback на CPU или сервер, контроль памяти, UX на первом запуске.

Мы в Nahornyi AI Lab как раз решаем такие приземлённые задачи для клиентов: не просто вставляем модный AI, а собираем рабочий контур под ограничения продукта, железа и комплаенса. Если у вас голосовой сценарий упирается в задержку, стоимость или приватность, давайте разберём ваш процесс и посмотрим, где здесь реально сработает AI solution development, а где лучше не обманывать себя демо-эффектом.

В контексте автономной работы моделей мы ранее разбирали устройство Rust LocalGPT — инструмента для локального запуска ИИ-ассистента без привязки к сторонним API. Подобные решения, как и инференс на базе WebGPU, наглядно демонстрируют актуальный тренд на перенос вычислений ближе к конечному пользователю.

Поделиться статьёй

Twitter/X LinkedIn Telegram

Liquid AI перенесла аудио‑ИИ прямо в браузер

Технический контекст

Что это меняет для бизнеса и автоматизации

Ещё новости

Gemma 4 стала заметно практичнее на edge

364M параметров и новый шанс для on-device AI