Pocket TTS от Kyutai: TTS без GPU и лишнего шума

Kyutai Labs открыла Pocket TTS, легкую TTS-модель на 100 млн параметров, которая работает локально на CPU, стримит аудио и умеет клонировать голос. Для бизнеса это важно, так как AI integration в устройства, браузер и локальные сервисы становится дешевле и проще.

Технический контекст

Я полез в репозиторий Pocket TTS и сразу понял, почему релиз интересен не только энтузиастам. Это как раз тот случай, когда AI integration в продукт не требует отдельного GPU-сервера, тяжелого стека и танцев вокруг внешнего API.

Kyutai выложили open-source TTS-модель на 100 млн параметров. Она заточена под CPU, работает с PyTorch 2.5+, не просит GPU-сборок и дает первый аудиочанк примерно за 200 мс. Для локального синтеза речи это уже очень рабочий режим, а не демка для README.

Еще один момент, где я реально остановился: заявленная скорость около 6x real-time на MacBook Air M4 лишь на двух CPU-ядрах. Если это подтверждается в вашем пайплайне, можно строить голосовые фичи для встроенных систем, терминалов, офлайн-ассистентов и браузерных сценариев без отдельной инфраструктуры.

Есть voice cloning с аудиосемпла, локальная генерация, CLI и нормальный Python API. Плюс модель умеет работать с очень длинными текстами, а в новейших обновлениях уже есть не только английский: добавили немецкий, испанский, португальский, а французский доступен в менее дистиллированном варианте. Важная мелочь: для части языков есть облегченные 6-layer версии, то есть Kyutai явно думают не только о качестве, но и о реальном развертывании.

Мне еще нравится сам вектор релиза. Это побочный инструмент из экосистемы Moshi, который не оставили внутри лаборатории, а довели до состояния, где его можно взять и вмонтировать в продукт уже сегодня.

Влияние на бизнес и автоматизацию

Тут выигрывают те, кому нужен голос, но не нужен счет за API на каждую секунду аудио. Киоски, embedded-устройства, внутренние корпоративные инструменты, голосовые агенты на edge-железе, локальные accessibility-решения.

Проигрывают разве что сценарии, где нужно максимально студийное качество в десятках языков прямо сейчас. Pocket TTS похож не на замену всем TTS-сервисам, а на очень сильный вариант там, где важны контроль, приватность, цена и скорость интеграции.

В таких кейсах самая большая ошибка не в модели, а в архитектуре вокруг нее: буферизация, стриминг, кеш голосов, латентность, fallback-логика. Мы в Nahornyi AI Lab как раз решаем эти узкие места для клиентов, когда нужна не просто модель, а рабочая AI automation внутри продукта. Если видите, что ваш сервис просит локальный TTS без зависимости от облака, могу с Vadym Nahornyi и командой быстро собрать для вас AI solution development под конкретное железо, нагрузку и UX.

Мы уже рассматривали тему практической реализации ИИ-решений, работающих локально без значительных аппаратных требований. Этот подход к эффективному, локализованному развертыванию ИИ отлично дополняет принципы создания компактных моделей, подобных pocket-tts, разработанных для доступного использования на бюджетных устройствах.

Поделиться статьёй

Twitter/X LinkedIn Telegram

Pocket TTS от Kyutai: TTS без GPU и лишнего шума

Технический контекст

Влияние на бизнес и автоматизацию

Ещё новости

Meta content2brain: полезный тул или тепловизор?

Warp vs iTerm: когда AI в терминале реально нужен