Технический контекст
Я полез в анонс Google не ради красивой формулировки про эффективность, а потому что такие вещи напрямую влияют на AI automation в проде. Если модель можно ужать без заметной деградации, то внезапно становятся реальными сценарии, где раньше все упиралось в VRAM, задержку и цену железа.
Суть новости простая: Google выложила для Gemma 4 официальные QAT-чекпоинты. QAT, то есть Quantization-Aware Training, отличается от обычного пост-квантования тем, что модель во время обучения уже "живет" с будущими потерями точности и подстраивается под них заранее.
И вот это важный момент. После обычного PTQ я часто вижу знакомую картину: модель формально стала легче, а на сложных ответах начинает плыть. С QAT шанс сохранить качество заметно выше, потому что компромисс закладывается еще на этапе тренировки, а не прикручивается сверху в последний момент.
Google выпустила как минимум два направления: Q4_0-чекпоинты и мобильный формат. Для vLLM это выглядит вполне приземленно: квантование подхватывается из самого чекпоинта, без отдельной магии в конфиге.
По цифрам самое интересное такое: Gemma 4 31B в QAT W4A16 может сжаться примерно с 59 ГБ до 19.8 ГБ. Это около 66% экономии памяти, и на таких цифрах я уже перестаю воспринимать новость как "еще один релиз для разработчиков".
Мобильный вариант тоже не для галочки. Google отдельно пишет про статические активации и точечное 2-битное квантование decode-слоев, а для Gemma 4 E2B заявлен memory footprint около 1 ГБ. Для edge это уже не теория, а нормальная инженерная опция.
Влияние на бизнес и автоматизацию
Выигрывают те, кто хочет тащить inference ближе к устройству: mobile, on-device copilots, локальные ассистенты, privacy-sensitive сценарии. Проигрывают, как обычно, ленивые пайплайны, где модель выбрали по бенчмарку, а про реальное развертывание подумали потом.
На практике это дает три вещи. Ниже требования к памяти, дешевле инфраструктура, проще AI implementation там, где раньше приходилось либо резать функциональность, либо отправлять все в облако.
Но я бы не продавал это как универсальную замену всем FP16 и BF16 сетапам. Нужно смотреть на конкретную архитектуру, длину контекста, KV cache, тип нагрузки и поведение модели после интеграции в продукт. Мы в Nahornyi AI Lab как раз решаем такие вещи руками, а не по слайдам.
Если у вас упирается запуск локальной модели в память, задержку или стоимость железа, это уже хороший момент пересобрать AI architecture под реальную задачу. Можем вместе посмотреть ваш кейс и собрать AI solution development так, чтобы модель не просто запускалась, а приносила пользу без лишних серверных расходов.