Що я побачив у специфікації та де Cohere зіграла чесно
Я люблю такі релізи не за красиві графіки, а за момент, коли вендор не ховає слабкі місця під килим. У Cohere з Transcribe саме цей випадок: модель відкрита, приблизно на 2B параметрів, підтримує 14 мов і при цьому відразу каже, де її межі.
За цифрами історія виглядає бадьоро. У публічних бенчмарках модель показує близько 5.42% середнього WER, а Whisper Large v3 там же йде помітно вище, близько 7.44%. На AMI та VoxPopuli розрив теж неприємний для Whisper, і тут я, чесно, вже перестав сприймати його як безумовний стандарт для продакшн STT.
Швидкість також не декоративна. Заявлено до 525 хвилин аудіо за хвилину обробки, і якщо це хоча б близько до реальних self-host сценаріїв, то для масової ШІ-автоматизації дзвінків, інтерв'ю та сапорту це вже не іграшка, а робочий двигун.
Але найкорисніше в релізі не лідерборд. Cohere прямо пише: одна сесія, одна заздалегідь задана мова; автоматичного language detection немає; code-switching дає нестабільний результат.
І це, на мій погляд, чудова інженерна чесність. Якщо у вас кол-центр, де оператор перескакує з української на англійську, або користувач змішує іспанську з англійською, магії не буде.
Друга жорстка межа: немає timestamps та speaker diarization. Тобто модель хороша саме як швидкий і точний ASR-шар, але якщо вам потрібно розуміти, хто говорив, коли перебив і де почалася ключова репліка, доведеться добудовувати пайплайн окремо.
Третя деталь мені особливо сподобалася, бо вона дуже життєва. Transcribe охоче намагається розпізнати навіть шум і тишу, тому Cohere радить ставити noise gate або VAD перед інференсом. Я таке бачу постійно: без нормального voice activity detection будь-яка STT-модель рано чи пізно починає «чути» привидів у фоновому шумі.
Що це змінює в продакшені і чому Whisper більше не відповідь за замовчуванням
Якщо дивитися очима архітектора, реліз зміщує акцент з «яку модель взяти» на «як зібрати нормальний контур навколо моделі». Раніше багато хто брав Whisper просто тому, що він всюди є. Тепер у мене вже інше питання: а навіщо брати важчий default, якщо можна зібрати швидший стек і виграти у вартості обробки?
Виграють команди, які вміють не просто смикнути API, а робити архітектуру ШІ-рішень цілком. Потрібен роутинг за мовою до ASR, потрібен VAD до транскрибації, потрібен окремий шар для діарізації, якщо це контакт-центр, і потрібен постпроцесинг з нормалізацією тексту. Ось тоді Cohere Transcribe починає виглядати дуже раціонально.
Програють ті, хто чекає на «одну кнопку». Якщо потрібен багатомовний потік без попередньої класифікації, таймкоди, спікери і ще бажано real-time streaming з коробки, то тут доведеться доінвестувати в пайплайн. Сама модель сильна, але це не комбайн на всі випадки життя.
Для бізнесу це, до речі, хороша новина, а не погана. Коли обмеження названі заздалегідь, впровадження штучного інтелекту стає більш передбачуваним: можна порахувати вартість, підібрати GPU під self-hosting, зрозуміти, де ставити VAD, і не ловити сюрпризи через місяць після запуску.
Я б особливо дивився на Transcribe у чотирьох кейсах:
- масова розшифровка дзвінків та зустрічей без жорсткої потреби в speaker diarization
- офлайн або приватні контури, де self-hosting важливіший за хмарний API
- голосові архіви, де ціна та швидкість обробки вирішують
- ШІ-рішення для бізнесу, де ASR це тільки перший блок перед сумаризацією, QA або вилученням сутностей
Ми в Nahornyi AI Lab якраз так і підходимо до впровадження ШІ: не сперечаємося, яка модель «найкраща взагалі», а збираємо зв'язку під конкретний процес. Десь перемагає Whisper через екосистему, а десь Cohere Transcribe вже виглядає як більш тверезий вибір за точністю, швидкістю та ціною володіння.
Цей розбір я написав сам, Вадим Нагорний з Nahornyi AI Lab. Я руками збираю AI-архітектуру, тестую STT/TTS/LLM-ланцюжки і дивлюся, як вони поводяться не на демо, а в бойових процесах. Якщо хочете зробити ШІ-інтеграцію в дзвінки, сапорт або внутрішні голосові пайплайни, напишіть мені, і я допоможу прикинути стек під ваш кейс без маркетингового туману.