Gemma 4 26B на MLX ускорилась до 115 токенов/с

Появился сильный бенчмарк для Gemma 4 26B-A4B-it-mlx-lm-4bit: около 115 токенов/с на Apple MLX. Для бизнеса это важно, потому что AI automation и локальный инференс больших моделей становятся реально быстрыми без облака и лишних задержек.

Технический контекст

Я зацепился за цифру 115 tok/sec не из-за красивого скриншота, а потому что это уже похоже на нормальную рабочую скорость для AI automation на Mac, а не на лабораторный аттракцион. Речь про gemma-4-26B-A4B-it-mlx-lm-4bit, то есть 26B MoE-модель, где на токен активны примерно 4B параметров.

Это важный нюанс. На бумаге модель большая, но по факту нагрузка на инференс заметно мягче, чем у плотной 26B или 30B-модели. Именно поэтому связка Gemma 4 + MLX на Apple Silicon сейчас выглядит не как компромисс, а как вполне практичная AI integration для локальных сценариев.

Официального бенчмарка от Google именно на этот сетап я не видел. Источник тут по сути комьюнити: MLX-LM, 4-битная сборка под Apple, оптимизации вроде TurboQuant и замеры от людей, которые гоняют это на M-серии вживую. Важная часть новости в том, что 115 tok/sec заметно выше того, что многие раньше видели через кривые пайплайны или через fallback-режимы.

И вот тут я бы не смешивал всё в одну корзину. Ollama, llama.cpp, сырой MLX-LM, длина контекста, prefill и decode дают очень разные цифры. Если кто-то видел 2 tok/sec на 26B MoE и решил, что модель «не тянется локально», этот бенчмарк как раз показывает обратное: проблема часто была не в модели, а в стеке.

Ещё один практический момент: 4-битный MLX-вариант укладывается примерно в 14 ГБ, но для нормальной жизни всё равно нужен запас по unified memory. На 24 ГБ уже можно играться без боли, а на старших M-чипах это превращается в действительно комфортный локальный инференс без облака, с хорошим контекстом и без вечного ожидания ответа.

Что это меняет для бизнеса и автоматизации

Для меня вывод простой: локальные агенты на Mac перестают быть игрушкой. Если модель реально держит такой decode, я уже могу строить приватные пайплайны для документов, саппорта, внутреннего поиска и аналитики без обязательной отправки данных наружу.

Выигрывают команды, которым важны скорость, приватность и предсказуемая себестоимость. Проигрывают в первую очередь облачные сценарии, где маленькие запросы гоняют через дорогой внешний API просто по инерции.

Но тут есть подвох, который я регулярно вижу в клиентских задачах: сам по себе быстрый бенчмарк ещё не означает хорошую систему. Нужны нормальная AI architecture, маршрутизация задач, контроль контекста, кеширование и понимание, где локальная модель сильна, а где лучше подключить внешний сервис. Мы в Nahornyi AI Lab как раз собираем такие штуки под реальные процессы, а не под красивые демо.

Если у вас уже назрела AI implementation без облачной зависимости, я бы посмотрел на ваш стек трезво: что можно увести локально, где сократить задержки и как из этого собрать рабочую автоматизацию. В Nahornyi AI Lab я обычно начинаю именно с этого, потому что Vadym Nahornyi не любит продавать магию там, где бизнесу нужен просто надёжный результат.

Эта впечатляющая скорость и эффективность, часто достигаемая с помощью таких техник, как 4-битное квантование, подчеркивает решающую роль продуманной конфигурации в развертывании ИИ. Ранее мы исследовали, как оптимизировать AI-архитектуру для результатов в бизнес-автоматизации, акцентируя внимание на необходимости понимать характеристики моделей и управлять операционными затратами.

Поделиться статьёй

Twitter/X LinkedIn Telegram

Gemma 4 26B на MLX ускорилась до 115 токенов/с

Технический контекст

Что это меняет для бизнеса и автоматизации

Ещё новости

Qwen 3.6 27B и 51 tok/s: уже похоже на дело

ASUS Ascent GX10 внезапно стал очень интересным