Skip to main content
OpenAIvoice AIrealtime API

GPT-Realtime 2: голосовий API став справді робочим

OpenAI випустила нові голосові моделі та production-версію gpt-realtime-2 через API для WebRTC, WebSocket і SIP. Для бізнесу це важливий зсув: інтеграція штучного інтелекту в голосові інтерфейси стала швидшою, дешевшою та ближчою до реальних дзвінків, а не просто демонстраційних версій.

Технічний контекст

Я заглибився у специфікації gpt-realtime-2 з практичним питанням: чи можна на цьому нарешті робити нормальну AI-автоматизацію для дзвінків, підтримки та голосових асистентів, а не черговий красивий прототип? Коротка відповідь: так, уже можна. Це саме той випадок, коли OpenAI знизили затримку (latency) до рівня, на якому діалог більше не розвалюється.

Модель приймає текст, аудіо та зображення, а віддає текст і голос. Підключення відбувається через WebRTC, WebSocket або SIP, тобто браузер, сервер і телефонія покриваються без зайвих трюків. Контекст 32k, максимум відповіді 4096 токенів, а база знань обмежена жовтнем 2023 року.

Що мені справді сподобалося: це не просто STT плюс LLM плюс TTS, склеєні з трьох сервісів. Тут потік speech-to-speech працює в єдиному realtime-контурі з коректною обробкою перебивань. Для живої розмови це критично: людина втрутилася, а модель не тупить і не чекає кінця репліки, як автовідповідач з 2014-го.

Щодо цифр, OpenAI заявляють про 48% приріст у виконанні інструкцій та 34% у виклику інструментів порівняно з preview-версією. Для продакшену вони прямо радять `reasoning.effort: low`, і це логічно: в голосі зайві сотні мілісекунд б'ють болючіше, ніж трохи менш глибокі міркування.

З корисного для розробки систем я відзначив інструменти MCP, введення зображень, окремі realtime-сценарії для перекладу та потокової транскрипції, а також `session.update` для автоматичного підключення інструментів. Ціна теж стала адекватнішою: $4 за мільйон вхідних токенів і $16 за мільйон вихідних, що приблизно на 20% дешевше за preview.

Але без рожевих окулярів. Голоси поки що обмежені, кастомних голосових профілів та SSML немає. Тому для специфічних брендів, акцентів чи локалізованої подачі я б досі розглядав зовнішній TTS-ланцюжок.

Що це змінює для бізнесу та автоматизації

Перший, хто виграє, — це голосовий сапорт. Якщо раніше впровадження штучного інтелекту в телефонії часто розбивалося об затримки та некоректну обробку перебивань, то тепер можна зібрати агента, який звучить не ідеально по-людськи, але вже не дратує користувача після другої фрази.

Другий кейс — це realtime-інтерфейси в додатках: запис на послугу, диспетчеризація, внутрішні голосові помічники для команд. Архітектура спрощується, бо стає менше окремих вузлів, менше синхронізації між STT, LLM та TTS, і менше місць, де все може впасти вночі.

Програють у цій історії ті, хто побудував свій продукт навколо старої каскадної схеми та вважав її єдиним варіантом. Вона нікуди не зникне, але тепер її доведеться виправдовувати кастомізацією, а не просто фактом існування.

Я б все одно не запускав це в продакшн без нормального тестування на шум, перебивання, вартість хвилини та реальну телефонію. У Nahornyi AI Lab ми якраз такі речі й створюємо для клієнтів: не просто прикручуємо API, а доводимо інтеграцію ШІ до стану, коли система економить час, а не створює новий шар хаосу. Якщо ваші голосові процеси вже гальмують команду, давайте подивимось, де тут можна зібрати робоче рішення на базі ШІ без зайвої магії.

Оскільки організації все частіше впроваджують потужні інструменти, як-от нові моделі GPT від OpenAI та покращений Voice API, розуміння наслідків для безпеки є вирішальним для безпечної інтеграції та відповідності вимогам. Раніше ми розповідали, як безпека OpenAI API викликає сповіщення для власників акаунтів, підкреслюючи необхідність суворого дотримання правил, логування та розділення середовищ для ефективного зниження ризиків.

Поділитися статтею