Технический контекст
Я полез в спецификации gpt-realtime-2 сразу с практичным вопросом: можно ли на этом уже делать нормальную AI automation для звонков, саппорта и голосовых ассистентов, а не очередной красивый прототип. Короткий ответ: да, уже можно, и это как раз тот случай, где OpenAI поджали latency до уровня, когда диалог перестает разваливаться.
Модель принимает текст, аудио и изображения, а отдает текст и голос. Подключение идет через WebRTC, WebSocket или SIP, то есть браузер, сервер и телефония закрываются без акробатики. Контекст 32k, максимум ответа 4096 токенов, knowledge cutoff у них October 2023.
Что мне реально понравилось: это не просто STT плюс LLM плюс TTS, склеенные из трех сервисов. Здесь speech-to-speech поток идет в одном realtime-контуре, с нормальной обработкой перебиваний. Для живого разговора это критично: человек вклинился, модель не тупит и не ждет конца реплики как автоответчик из 2014-го.
По цифрам OpenAI заявляют 48% прирост по instruction following и 34% по tool calling относительно preview. Для production они прямо советуют reasoning.effort: low, и это логично: в голосе лишние сотни миллисекунд бьют больнее, чем чуть менее глубокое рассуждение.
Из полезного для сборки систем я отметил MCP tools, image input, отдельные realtime-сценарии для translation и streaming transcription, плюс session.update для автоматического подключения инструментов. Цена тоже стала адекватнее: $4 за миллион input tokens и $16 за миллион output, примерно на 20% дешевле preview.
Но без розовых очков. Голоса пока ограничены, кастомных voice profiles и SSML нет, так что для специфических брендов, акцентов или локализованной подачи я бы все еще рассматривал внешнюю TTS-цепочку.
Что это меняет для бизнеса и автоматизации
Первый выигравший здесь это голосовой саппорт. Если раньше artificial intelligence implementation в телефонии часто ломалась о задержки и кривые перебивания, то теперь можно собрать агента, который звучит не идеально человечно, но уже не бесит пользователя после второй фразы.
Второй кейс это realtime-интерфейсы в приложениях: запись на услугу, диспетчеризация, внутренние голосовые помощники для команд. Архитектура упрощается, потому что меньше отдельных узлов, меньше синхронизации между STT, LLM и TTS, меньше мест, где все падает ночью.
Проигрывают в этой истории те, кто построил продукт вокруг старой каскадной схемы и считал ее единственным вариантом. Она никуда не исчезнет, но теперь ее придется оправдывать кастомизацией, а не просто фактом существования.
Я бы все равно не тащил это в прод без нормального теста на шум, перебивания, стоимость минут и реальную телефонию. Мы в Nahornyi AI Lab как раз такие вещи и собираем для клиентов: не просто прикручиваем API, а доводим AI integration до состояния, где система экономит время, а не создает новый слой хаоса. Если у вас голосовые процессы уже тормозят команду, давайте посмотрим, где здесь можно собрать рабочее AI solution development без лишней магии.