Технічний контекст
Я уважно подивився, що саме випустила Google, і це справді цікавий зсув у архітектурі AI. Замість звичної авторегресії, де модель болісно передбачає наступний токен по одному, DiffusionGemma уточнює одразу цілий блок тексту через кілька кроків денойзингу.
Для AI implementation це звучить не як академічна іграшка, а як спроба усунути головне вузьке місце інференсу: послідовну генерацію. Якщо модель може працювати з кількома позиціями паралельно, затримка в реальних продуктах падає значно сильніше, ніж від дрібних оптимізацій декодингу.
У пов’язаних матеріалах про Gemini Diffusion Google пише про швидкість 1479 токенів за секунду без урахування overhead і близько 0,84 секунди накладних витрат. Я б тут не плутав брендинг: у публічних матеріалах є певна плутанина між DiffusionGemma і Gemini Diffusion, і це той момент, де я б не робив надто сміливих висновків без окремої документації саме по DiffusionGemma.
Але сама ідея зрозуміла. Модель стартує не з першого токена, а з шумного начерку, потім кілька разів переписує його цілком або частинами. На задачах редагування, математики та коду це особливо логічно: можна не лише продовжувати текст, а й виправляти вже згенероване під час роботи.
По бенчмарках картина також цікава. У кодових тестах Google показує результати, які місцями порівнянні з більшими моделями та близькі до Gemini 2.0 Flash-Lite. Не скрізь перемога, але сам факт, що дифузійна схема вже виглядає не екзотикою, а робочим варіантом, мене зачепив.
Що це змінює для бізнесу та автоматизації
Я бачу тут три прямі наслідки. Перше: швидшими стануть інтерфейси, де користувачу важливі перші 1-2 секунди відповіді. Друге: зросте якість сценаріїв, де текст потрібно не просто дописати, а перезібрати, наприклад у code review, правці договорів або генерації SQL.
Виграють команди, які будують AI solutions for business із жорсткими вимогами до latency. Програють ті, хто вже закопалися в пайплайнах під чисто авторегресійні моделі й не хочуть переглядати AI integration на рівні маршрутизації, батчингу та UX.
Я б поки що не обіцяв магічного зниження вартості інференсу у всіх кейсах. Тут усе упреться в реальну ціну, підтримку в стеку та те, наскільки добре модель поводиться поза демо. Ми в Nahornyi AI Lab якраз вирішуємо такі речі руками: де залишити звичайний LLM, де увімкнути AI automation на дифузійній моделі, а де гібрид дасть найкращий результат.
Якщо у вас вже упираються в затримки чат, code або editing-сценарії, давайте подивимося на архітектуру разом. Іноді достатньо точкової artificial intelligence integration, а іноді має сенс зібрати новий контур, і в Nahornyi AI Lab я можу допомогти спроектувати це без зайвої теорії та дорогих експериментів наосліп.