Технічний контекст
Я заглибився в репозиторій Pocket TTS і відразу зрозумів, чому цей реліз цікавий не лише ентузіастам. Це саме той випадок, коли AI integration у продукт не вимагає окремого GPU-сервера, важкого стеку й танців навколо зовнішнього API.
Kyutai виклали open-source TTS-модель на 100 млн параметрів. Вона заточена під CPU, працює з PyTorch 2.5+, не вимагає GPU-збірок і видає перший аудіочанк приблизно за 200 мс. Для локального синтезу мовлення це вже дуже робочий режим, а не демка для README.
Ще один момент, на якому я справді зупинився: заявлена швидкість близько 6x real-time на MacBook Air M4 лише на двох CPU-ядрах. Якщо це підтверджується у вашому пайплайні, можна будувати голосові фічі для вбудованих систем, терміналів, офлайн-асистентів і браузерних сценаріїв без окремої інфраструктури.
Є voice cloning з аудіосемплу, локальна генерація, CLI та нормальний Python API. Плюс модель вміє працювати з дуже довгими текстами, а в новіших оновленнях уже є не тільки англійська: додали німецьку, іспанську, португальську, а французька доступна в менш дистильованому варіанті. Важлива дрібниця: для частини мов є полегшені 6-layer версії, тобто Kyutai явно думають не лише про якість, а й про реальне розгортання.
Мені ще подобається сам вектор релізу. Це побічний інструмент з екосистеми Moshi, який не залишили всередині лабораторії, а довели до стану, де його можна взяти й вмонтувати в продукт уже сьогодні.
Вплив на бізнес та автоматизацію
Тут виграють ті, кому потрібен голос, але не потрібен рахунок за API на кожну секунду аудіо. Кіоски, embedded-пристрої, внутрішні корпоративні інструменти, голосові агенти на edge-залізі, локальні accessibility-рішення.
Програють хіба що сценарії, де потрібна максимально студійна якість у десятках мов прямо зараз. Pocket TTS схожий не на заміну всім TTS-сервісам, а на дуже сильний варіант там, де важливі контроль, приватність, ціна та швидкість інтеграції.
У таких кейсах найбільша помилка не в моделі, а в архітектурі навколо неї: буферизація, стрімінг, кеш голосів, латентність, fallback-логіка. Ми в Nahornyi AI Lab якраз розв’язуємо ці вузькі місця для клієнтів, коли потрібна не просто модель, а робоча AI automation всередині продукту. Якщо бачите, що ваш сервіс просить локальний TTS без залежності від хмари, можу з Vadym Nahornyi та командою швидко зібрати для вас AI solution development під конкретне залізо, навантаження й UX.