Технічний контекст
Я заглибився у специфікації gpt-realtime-2 з практичним питанням: чи можна на цьому нарешті робити нормальну AI-автоматизацію для дзвінків, підтримки та голосових асистентів, а не черговий красивий прототип? Коротка відповідь: так, уже можна. Це саме той випадок, коли OpenAI знизили затримку (latency) до рівня, на якому діалог більше не розвалюється.
Модель приймає текст, аудіо та зображення, а віддає текст і голос. Підключення відбувається через WebRTC, WebSocket або SIP, тобто браузер, сервер і телефонія покриваються без зайвих трюків. Контекст 32k, максимум відповіді 4096 токенів, а база знань обмежена жовтнем 2023 року.
Що мені справді сподобалося: це не просто STT плюс LLM плюс TTS, склеєні з трьох сервісів. Тут потік speech-to-speech працює в єдиному realtime-контурі з коректною обробкою перебивань. Для живої розмови це критично: людина втрутилася, а модель не тупить і не чекає кінця репліки, як автовідповідач з 2014-го.
Щодо цифр, OpenAI заявляють про 48% приріст у виконанні інструкцій та 34% у виклику інструментів порівняно з preview-версією. Для продакшену вони прямо радять `reasoning.effort: low`, і це логічно: в голосі зайві сотні мілісекунд б'ють болючіше, ніж трохи менш глибокі міркування.
З корисного для розробки систем я відзначив інструменти MCP, введення зображень, окремі realtime-сценарії для перекладу та потокової транскрипції, а також `session.update` для автоматичного підключення інструментів. Ціна теж стала адекватнішою: $4 за мільйон вхідних токенів і $16 за мільйон вихідних, що приблизно на 20% дешевше за preview.
Але без рожевих окулярів. Голоси поки що обмежені, кастомних голосових профілів та SSML немає. Тому для специфічних брендів, акцентів чи локалізованої подачі я б досі розглядав зовнішній TTS-ланцюжок.
Що це змінює для бізнесу та автоматизації
Перший, хто виграє, — це голосовий сапорт. Якщо раніше впровадження штучного інтелекту в телефонії часто розбивалося об затримки та некоректну обробку перебивань, то тепер можна зібрати агента, який звучить не ідеально по-людськи, але вже не дратує користувача після другої фрази.
Другий кейс — це realtime-інтерфейси в додатках: запис на послугу, диспетчеризація, внутрішні голосові помічники для команд. Архітектура спрощується, бо стає менше окремих вузлів, менше синхронізації між STT, LLM та TTS, і менше місць, де все може впасти вночі.
Програють у цій історії ті, хто побудував свій продукт навколо старої каскадної схеми та вважав її єдиним варіантом. Вона нікуди не зникне, але тепер її доведеться виправдовувати кастомізацією, а не просто фактом існування.
Я б все одно не запускав це в продакшн без нормального тестування на шум, перебивання, вартість хвилини та реальну телефонію. У Nahornyi AI Lab ми якраз такі речі й створюємо для клієнтів: не просто прикручуємо API, а доводимо інтеграцію ШІ до стану, коли система економить час, а не створює новий шар хаосу. Якщо ваші голосові процеси вже гальмують команду, давайте подивимось, де тут можна зібрати робоче рішення на базі ШІ без зайвої магії.