Технічний контекст
Я люблю такі добірки за одну річ: одразу видно, де у нас TTS, а де STT, і де люди часто змішують два різні шари системи. Якщо я роблю AI automation з голосом, мені майже завжди потрібні обидва контури: розпізнавання мовлення на вході та озвучення на виході.
На Supertonic-3 я окремо зупинився. Це TTS-модель від Supertone, і її сильна сторона не в «красивому демо», а в тому, що вона реально працює в браузері через WebGPU і може виконуватися повністю on-device. Для AI implementation це дуже практична штука: менше мережевої затримки, менше метушні з приватністю, менше залежності від хмари.
За доступними даними, модель компактна, близько 66M параметрів, з хорошою швидкістю генерації та офлайн-режимом. Для edge-сценаріїв, кіосків, внутрішніх веб-інструментів та low-resource середовищ це вже не іграшка, а робочий компонент.
З іншого боку, Whisper, NVIDIA Parakeet та ElevenLabs STT вирішують зворотну задачу: переводять мовлення в текст. Whisper я багато разів бачив як дефолтний вибір, коли потрібна передбачуваність і нормальна екосистема. Parakeet цікавий як свіжіший варіант, особливо якщо важливі швидкість та сучасний стек NVIDIA.
ElevenLabs STT я б розглядав скоріше як хмарний сервісний шар, коли важливі швидкий старт і менше інженерної збірки. Але тут уже треба дивитися на ціну, маршрут даних і те, наскільки вам взагалі можна виносити голос назовні.
Що це змінює для бізнесу та автоматизації
Перше: вхідний поріг сильно впав. Я вже можу зібрати голосовий інтерфейс без важкого фронтенд-зоопарку: локальний TTS у браузері плюс STT у хмарі або локально, залежно від вимог.
Друге: архітектура стала гнучкішою. Чутливі дані можна тримати на пристрої або всередині контуру компанії, а менш критичні етапи віддавати назовні. Це особливо корисно там, де AI integration впирається не в модель, а в безпеку та затримку.
Виграють команди, яким потрібен швидкий прототип або дешевий запуск голосових сценаріїв. Програють ті, хто за звичкою тягне весь пайплайн в одну хмару і потім дивується рахункам і latency.
Якраз такі компроміси я і збираю для клієнтів у Nahornyi AI Lab: де залишити локальний inference, де підключити API, а де краще одразу build AI automation під конкретний процес, щоб голосовий шар не виглядав іграшкою, а реально економив час людям. Якщо у вас вибір зупинився між браузерним TTS, локальним STT та хмарним сервісом, можна просто взяти ваш кейс і розкласти його по нормальній AI architecture без зайвих витрат.