Skip to main content
GoogleGemmaAI automation

DiffusionGemma: Google ускоряет генерацию текста

Google показала DiffusionGemma — модель, где текст генерируется не по одному токену, а параллельно через итеративное уточнение шумного черновика. Для бизнеса это важно из-за меньшей задержки и потенциально более дешёвой AI automation в задачах кода, редактуры и быстрых ассистентов, что может изменить пользовательские интерфейсы.

Технический контекст

Я внимательно посмотрел, что именно Google выкатила, и тут реально интересный сдвиг в AI architecture. Вместо привычной авторегрессии, где модель мучительно предсказывает следующий токен по одному, DiffusionGemma уточняет сразу целый блок текста через несколько шагов денойзинга.

Для AI implementation это звучит не как академическая игрушка, а как попытка убрать главное узкое место инференса: последовательную генерацию. Если модель может работать с несколькими позициями параллельно, задержка в реальных продуктах падает заметно сильнее, чем от мелких оптимизаций декодинга.

Google в связанных материалах по Gemini Diffusion пишет о скорости 1479 токенов в секунду без учёта overhead и около 0.84 секунды накладных расходов. Я бы здесь не путал брендинг: в публичных материалах есть некоторая каша между DiffusionGemma и Gemini Diffusion, и это тот момент, где я бы не делал слишком смелых выводов без отдельной документации именно по DiffusionGemma.

Но сама идея понятна. Модель стартует не с первого токена, а с шумного наброска, потом несколько раз переписывает его целиком или частями. На задачах редактирования, математики и кода это особенно логично: можно не только продолжать текст, но и исправлять уже сгенерированное по ходу.

По бенчмаркам картина тоже любопытная. В кодовых тестах Google показывает результаты, которые местами сопоставимы с более крупными моделями и близки к Gemini 2.0 Flash-Lite. Не везде победа, но сам факт, что диффузионная схема уже выглядит не экзотикой, а рабочим вариантом, меня зацепил.

Что это меняет для бизнеса и автоматизации

Я вижу тут три прямых последствия. Первое: быстрее станут интерфейсы, где пользователю важны первые 1-2 секунды ответа. Второе: вырастет качество сценариев, где текст нужно не просто дописать, а пересобрать, например в code review, правке договоров или генерации SQL.

Выиграют команды, которые строят AI solutions for business с жёсткими требованиями к latency. Проиграют те, кто уже закопался в пайплайнах под чисто авторегрессионные модели и не хочет пересматривать AI integration на уровне маршрутизации, батчинга и UX.

Я бы пока не обещал магическое снижение стоимости инференса во всех кейсах. Тут всё упрётся в реальную цену, поддержку в стеке и то, насколько хорошо модель ведёт себя вне демо. Мы в Nahornyi AI Lab как раз решаем такие вещи руками: где оставить обычный LLM, где включить AI automation на диффузионной модели, а где гибрид даст лучший результат.

Если у вас уже упираются в задержки чат, code или editing-сценарии, давайте посмотрим на архитектуру вместе. Иногда достаточно точечной artificial intelligence integration, а иногда имеет смысл собрать новый контур, и в Nahornyi AI Lab я могу помочь спроектировать это без лишней теории и дорогих экспериментов вслепую.

Ранее мы рассказывали, как OpenAI запустила Codex в ChatGPT на Android, сделав кодогенерацию доступной на мобильных устройствах. Теперь Google ускоряет текстовую генерацию с помощью Diffusion Gemma, продолжая гонку нейросетевых релизов.

Поделиться статьёй