10 июня 2026 г.3 мин чтения

Gemini Live 3.5 теперь внутри Google Translate

GoogleGemini Liveперевод речи

Google добавила Gemini Live 3.5 в Google Translate и вывела живой speech-to-speech перевод ближе к реальному разговору. Для бизнеса это важный шаг к practical AI integration, но полевой фидбек уже показывает: в шуме и при нескольких спикерах скорость всё ещё решает всё.

Технический контекст

Я посмотрел, что именно Google выкатил: Gemini Live 3.5 теперь крутит живой перевод речи прямо в Google Translate, то есть модель слушает, понимает поток и отдает перевод почти на лету. Для меня это уже не просто красивая демка, а очень близкий к продовой AI integration сценарий, который можно примерять на саппорт, медицину, travel и внутренние международные созвоны.

По заявлению Google, система переводит ещё пока человек говорит, а отставание держится в пределах нескольких секунд. Плюс обещают лучшую работу с идиомами, разговорной речью и фоновым шумом. На бумаге выглядит сильно, и да, это тот случай, когда Google не просто обновила модель, а дотащила мультимодальный стек до массового продукта.

Но тут я сразу тормознул на реальном фидбеке. В спокойном диалоге один на один люди пишут, что перевод ощущается почти магическим. А вот в сценарии вроде приема у врача, где говорят несколько человек и вокруг шумно, начинается то, что я вижу постоянно в голосовых системах: задержка, потеря очередности реплик и просадка по удобству.

Это не значит, что релиз слабый. Это значит, что реальная сложность не в самом переводе, а в стриминговой оркестрации: VAD, diarization, шумоподавление, буферизация, компромисс между контекстом и latency. В пресс-релизах это обычно прячется за словом “real-time”, но инженерно там как раз самое мясо.

Влияние на бизнес и автоматизацию

Я вижу тут три практических вывода. Первый: для одиночных диалогов и нестрессовых сценариев порог входа в automation with AI резко падает, потому что теперь не нужно собирать кастомный голосовой стек с нуля.

Второй: для шумных процессов и многоголосых встреч коробочное решение пока не заменяет продуманную AI architecture. Если ошибка стоит денег или здоровья, нужен слой контроля, маршрутизация по уверенности модели и нормальный fallback.

Третий: выигрывают команды, которым нужен быстрый мультиязычный UX без собственной R&D-инфраструктуры. Проигрывают те, кто поверит маркетингу “почти как человек” и не прогонит систему через свой реальный процесс.

Мы в Nahornyi AI Lab такие вещи обычно не оцениваем по промо-видео. Я сначала вшиваю их в реальный поток задач, смотрю, где ломается скорость, где теряется смысл, и только потом советую AI solution development или кастомную обвязку.

Если у вас упирается международный саппорт, клиники, продажи или полевые команды, можно не гадать по обзорам. Приходите с вашим сценарием, и мы с Nahornyi AI Lab разложим, где хватит готового Translate, а где уже стоит build AI automation под ваш процесс без лишней магии в презентации.

Мы ранее разбирали, как Gemini применяется для автоматического создания резюме встреч в Google Meet. Теперь та же технология открывает возможности синхронного перевода в Google Translate.

Twitter/X LinkedIn Telegram

← К новостям

Gemini Live 3.5 теперь внутри Google Translate

Технический контекст

Влияние на бизнес и автоматизацию

Ещё почитать

PerceptionBench: Moonshot проверяет, видит ли ИИ

Kimi K3: open weights и уже не 50B active