Технический контекст
Я люблю такие подборки за одну вещь: сразу видно, где у нас TTS, а где STT, и где люди часто смешивают два разных слоя системы. Если я делаю AI automation с голосом, мне почти всегда нужны оба контура: распознавание речи на входе и озвучка на выходе.
С Supertonic-3 я отдельно остановился. Это TTS-модель от Supertone, и ее сильная сторона не в «красивом демо», а в том, что она реально работает в браузере через WebGPU и может крутиться полностью on-device. Для AI implementation это очень практичная штука: меньше сетевой задержки, меньше возни с приватностью, меньше зависимости от облака.
По доступным данным, модель компактная, около 66M параметров, с хорошей скоростью генерации и офлайн-режимом. Для edge-сценариев, киосков, внутренних веб-инструментов и low-resource окружений это уже не игрушка, а рабочий компонент.
С другой стороны, Whisper, NVIDIA Parakeet и ElevenLabs STT решают обратную задачу: переводят речь в текст. Whisper я много раз видел как дефолтный выбор, когда нужна предсказуемость и нормальная экосистема. Parakeet интересен как более свежий вариант, особенно если важны скорость и современный стек NVIDIA.
ElevenLabs STT я бы рассматривал скорее как облачный сервисный слой, когда важны быстрый старт и меньше инженерной сборки. Но тут уже надо смотреть на цену, маршрут данных и то, насколько вам вообще можно выносить голос наружу.
Что это меняет для бизнеса и автоматизации
Первое: входной порог сильно упал. Я уже могу собрать голосовой интерфейс без тяжелого фронтенд-зоопарка: локальный TTS в браузере плюс STT в облаке или локально, в зависимости от требований.
Второе: архитектура стала гибче. Чувствительные данные можно держать на устройстве или внутри контура компании, а менее критичные этапы отдавать наружу. Это особенно полезно там, где AI integration упирается не в модель, а в безопасность и задержку.
Выигрывают команды, которым нужен быстрый прототип или дешевый запуск голосовых сценариев. Проигрывают те, кто по привычке тащит весь пайплайн в одно облако и потом удивляется счетам и latency.
Я как раз такие компромиссы и собираю для клиентов в Nahornyi AI Lab: где оставить локальный inference, где подключить API, а где лучше сразу build AI automation под конкретный процесс, чтобы голосовой слой не выглядел игрушкой, а реально экономил время людям. Если у вас уперлось в выбор между браузерным TTS, локальным STT и облачным сервисом, можно просто взять ваш кейс и разложить его по нормальной AI architecture без лишних затрат.