GPT-Realtime 2: голосовой API стал реально рабочим

OpenAI вывели в API новые голосовые модели и production-версию gpt-realtime-2 для WebRTC, WebSocket и SIP. Для бизнеса это важный сдвиг: artificial intelligence integration в голосовые интерфейсы стала быстрее, дешевле и ближе к реальным звонкам, а не к демо.

Технический контекст

Я полез в спецификации gpt-realtime-2 сразу с практичным вопросом: можно ли на этом уже делать нормальную AI automation для звонков, саппорта и голосовых ассистентов, а не очередной красивый прототип. Короткий ответ: да, уже можно, и это как раз тот случай, где OpenAI поджали latency до уровня, когда диалог перестает разваливаться.

Модель принимает текст, аудио и изображения, а отдает текст и голос. Подключение идет через WebRTC, WebSocket или SIP, то есть браузер, сервер и телефония закрываются без акробатики. Контекст 32k, максимум ответа 4096 токенов, knowledge cutoff у них October 2023.

Что мне реально понравилось: это не просто STT плюс LLM плюс TTS, склеенные из трех сервисов. Здесь speech-to-speech поток идет в одном realtime-контуре, с нормальной обработкой перебиваний. Для живого разговора это критично: человек вклинился, модель не тупит и не ждет конца реплики как автоответчик из 2014-го.

По цифрам OpenAI заявляют 48% прирост по instruction following и 34% по tool calling относительно preview. Для production они прямо советуют reasoning.effort: low, и это логично: в голосе лишние сотни миллисекунд бьют больнее, чем чуть менее глубокое рассуждение.

Из полезного для сборки систем я отметил MCP tools, image input, отдельные realtime-сценарии для translation и streaming transcription, плюс session.update для автоматического подключения инструментов. Цена тоже стала адекватнее: $4 за миллион input tokens и $16 за миллион output, примерно на 20% дешевле preview.

Но без розовых очков. Голоса пока ограничены, кастомных voice profiles и SSML нет, так что для специфических брендов, акцентов или локализованной подачи я бы все еще рассматривал внешнюю TTS-цепочку.

Что это меняет для бизнеса и автоматизации

Первый выигравший здесь это голосовой саппорт. Если раньше artificial intelligence implementation в телефонии часто ломалась о задержки и кривые перебивания, то теперь можно собрать агента, который звучит не идеально человечно, но уже не бесит пользователя после второй фразы.

Второй кейс это realtime-интерфейсы в приложениях: запись на услугу, диспетчеризация, внутренние голосовые помощники для команд. Архитектура упрощается, потому что меньше отдельных узлов, меньше синхронизации между STT, LLM и TTS, меньше мест, где все падает ночью.

Проигрывают в этой истории те, кто построил продукт вокруг старой каскадной схемы и считал ее единственным вариантом. Она никуда не исчезнет, но теперь ее придется оправдывать кастомизацией, а не просто фактом существования.

Я бы все равно не тащил это в прод без нормального теста на шум, перебивания, стоимость минут и реальную телефонию. Мы в Nahornyi AI Lab как раз такие вещи и собираем для клиентов: не просто прикручиваем API, а доводим AI integration до состояния, где система экономит время, а не создает новый слой хаоса. Если у вас голосовые процессы уже тормозят команду, давайте посмотрим, где здесь можно собрать рабочее AI solution development без лишней магии.

Поскольку организации все активнее внедряют мощные инструменты, такие как новые модели GPT от OpenAI и улучшенный Voice API, понимание последствий для безопасности становится критически важным для безопасной интеграции и соответствия требованиям. Ранее мы рассказывали, как безопасность OpenAI API вызывает оповещения для владельцев аккаунтов, подчеркивая необходимость строгого соблюдения правил, логирования и разделения сред для эффективного снижения рисков.

Поделиться статьёй

Twitter/X LinkedIn Telegram

GPT-Realtime 2: голосовой API стал реально рабочим

Технический контекст

Что это меняет для бизнеса и автоматизации

Ещё новости

Робот-монах Gabi и новый уровень доверия к машинам

Herdr.dev оказался не тем, чем кажется