Skip to main content
TTSopen-sourceembedded-ai

Pocket TTS від Kyutai: TTS без GPU та зайвого шуму

Kyutai Labs відкрила Pocket TTS, легку TTS-модель на 100 млн параметрів, яка працює локально на CPU, стрімить аудіо й уміє клонувати голос. Для бізнесу це важливо, бо AI integration у пристрої, браузер і локальні сервіси стає дешевшою та простішою.

Технічний контекст

Я заглибився в репозиторій Pocket TTS і відразу зрозумів, чому цей реліз цікавий не лише ентузіастам. Це саме той випадок, коли AI integration у продукт не вимагає окремого GPU-сервера, важкого стеку й танців навколо зовнішнього API.

Kyutai виклали open-source TTS-модель на 100 млн параметрів. Вона заточена під CPU, працює з PyTorch 2.5+, не вимагає GPU-збірок і видає перший аудіочанк приблизно за 200 мс. Для локального синтезу мовлення це вже дуже робочий режим, а не демка для README.

Ще один момент, на якому я справді зупинився: заявлена швидкість близько 6x real-time на MacBook Air M4 лише на двох CPU-ядрах. Якщо це підтверджується у вашому пайплайні, можна будувати голосові фічі для вбудованих систем, терміналів, офлайн-асистентів і браузерних сценаріїв без окремої інфраструктури.

Є voice cloning з аудіосемплу, локальна генерація, CLI та нормальний Python API. Плюс модель вміє працювати з дуже довгими текстами, а в новіших оновленнях уже є не тільки англійська: додали німецьку, іспанську, португальську, а французька доступна в менш дистильованому варіанті. Важлива дрібниця: для частини мов є полегшені 6-layer версії, тобто Kyutai явно думають не лише про якість, а й про реальне розгортання.

Мені ще подобається сам вектор релізу. Це побічний інструмент з екосистеми Moshi, який не залишили всередині лабораторії, а довели до стану, де його можна взяти й вмонтувати в продукт уже сьогодні.

Вплив на бізнес та автоматизацію

Тут виграють ті, кому потрібен голос, але не потрібен рахунок за API на кожну секунду аудіо. Кіоски, embedded-пристрої, внутрішні корпоративні інструменти, голосові агенти на edge-залізі, локальні accessibility-рішення.

Програють хіба що сценарії, де потрібна максимально студійна якість у десятках мов прямо зараз. Pocket TTS схожий не на заміну всім TTS-сервісам, а на дуже сильний варіант там, де важливі контроль, приватність, ціна та швидкість інтеграції.

У таких кейсах найбільша помилка не в моделі, а в архітектурі навколо неї: буферизація, стрімінг, кеш голосів, латентність, fallback-логіка. Ми в Nahornyi AI Lab якраз розв’язуємо ці вузькі місця для клієнтів, коли потрібна не просто модель, а робоча AI automation всередині продукту. Якщо бачите, що ваш сервіс просить локальний TTS без залежності від хмари, можу з Vadym Nahornyi та командою швидко зібрати для вас AI solution development під конкретне залізо, навантаження й UX.

Ми вже розглядали тему практичної реалізації ШІ-рішень, які працюють локально без значних апаратних вимог. Цей підхід до ефективного, локалізованого розгортання ШІ чудово доповнює принципи створення компактних моделей, подібних до pocket-tts, розроблених для доступного використання на бюджетних пристроях.

Поділитися статтею