Технический контекст
Я внимательно посмотрел, что именно Google выкатила, и тут реально интересный сдвиг в AI architecture. Вместо привычной авторегрессии, где модель мучительно предсказывает следующий токен по одному, DiffusionGemma уточняет сразу целый блок текста через несколько шагов денойзинга.
Для AI implementation это звучит не как академическая игрушка, а как попытка убрать главное узкое место инференса: последовательную генерацию. Если модель может работать с несколькими позициями параллельно, задержка в реальных продуктах падает заметно сильнее, чем от мелких оптимизаций декодинга.
Google в связанных материалах по Gemini Diffusion пишет о скорости 1479 токенов в секунду без учёта overhead и около 0.84 секунды накладных расходов. Я бы здесь не путал брендинг: в публичных материалах есть некоторая каша между DiffusionGemma и Gemini Diffusion, и это тот момент, где я бы не делал слишком смелых выводов без отдельной документации именно по DiffusionGemma.
Но сама идея понятна. Модель стартует не с первого токена, а с шумного наброска, потом несколько раз переписывает его целиком или частями. На задачах редактирования, математики и кода это особенно логично: можно не только продолжать текст, но и исправлять уже сгенерированное по ходу.
По бенчмаркам картина тоже любопытная. В кодовых тестах Google показывает результаты, которые местами сопоставимы с более крупными моделями и близки к Gemini 2.0 Flash-Lite. Не везде победа, но сам факт, что диффузионная схема уже выглядит не экзотикой, а рабочим вариантом, меня зацепил.
Что это меняет для бизнеса и автоматизации
Я вижу тут три прямых последствия. Первое: быстрее станут интерфейсы, где пользователю важны первые 1-2 секунды ответа. Второе: вырастет качество сценариев, где текст нужно не просто дописать, а пересобрать, например в code review, правке договоров или генерации SQL.
Выиграют команды, которые строят AI solutions for business с жёсткими требованиями к latency. Проиграют те, кто уже закопался в пайплайнах под чисто авторегрессионные модели и не хочет пересматривать AI integration на уровне маршрутизации, батчинга и UX.
Я бы пока не обещал магическое снижение стоимости инференса во всех кейсах. Тут всё упрётся в реальную цену, поддержку в стеке и то, насколько хорошо модель ведёт себя вне демо. Мы в Nahornyi AI Lab как раз решаем такие вещи руками: где оставить обычный LLM, где включить AI automation на диффузионной модели, а где гибрид даст лучший результат.
Если у вас уже упираются в задержки чат, code или editing-сценарии, давайте посмотрим на архитектуру вместе. Иногда достаточно точечной artificial intelligence integration, а иногда имеет смысл собрать новый контур, и в Nahornyi AI Lab я могу помочь спроектировать это без лишней теории и дорогих экспериментов вслепую.