Технический контекст
Я зацепился за цифру 115 tok/sec не из-за красивого скриншота, а потому что это уже похоже на нормальную рабочую скорость для AI automation на Mac, а не на лабораторный аттракцион. Речь про gemma-4-26B-A4B-it-mlx-lm-4bit, то есть 26B MoE-модель, где на токен активны примерно 4B параметров.
Это важный нюанс. На бумаге модель большая, но по факту нагрузка на инференс заметно мягче, чем у плотной 26B или 30B-модели. Именно поэтому связка Gemma 4 + MLX на Apple Silicon сейчас выглядит не как компромисс, а как вполне практичная AI integration для локальных сценариев.
Официального бенчмарка от Google именно на этот сетап я не видел. Источник тут по сути комьюнити: MLX-LM, 4-битная сборка под Apple, оптимизации вроде TurboQuant и замеры от людей, которые гоняют это на M-серии вживую. Важная часть новости в том, что 115 tok/sec заметно выше того, что многие раньше видели через кривые пайплайны или через fallback-режимы.
И вот тут я бы не смешивал всё в одну корзину. Ollama, llama.cpp, сырой MLX-LM, длина контекста, prefill и decode дают очень разные цифры. Если кто-то видел 2 tok/sec на 26B MoE и решил, что модель «не тянется локально», этот бенчмарк как раз показывает обратное: проблема часто была не в модели, а в стеке.
Ещё один практический момент: 4-битный MLX-вариант укладывается примерно в 14 ГБ, но для нормальной жизни всё равно нужен запас по unified memory. На 24 ГБ уже можно играться без боли, а на старших M-чипах это превращается в действительно комфортный локальный инференс без облака, с хорошим контекстом и без вечного ожидания ответа.
Что это меняет для бизнеса и автоматизации
Для меня вывод простой: локальные агенты на Mac перестают быть игрушкой. Если модель реально держит такой decode, я уже могу строить приватные пайплайны для документов, саппорта, внутреннего поиска и аналитики без обязательной отправки данных наружу.
Выигрывают команды, которым важны скорость, приватность и предсказуемая себестоимость. Проигрывают в первую очередь облачные сценарии, где маленькие запросы гоняют через дорогой внешний API просто по инерции.
Но тут есть подвох, который я регулярно вижу в клиентских задачах: сам по себе быстрый бенчмарк ещё не означает хорошую систему. Нужны нормальная AI architecture, маршрутизация задач, контроль контекста, кеширование и понимание, где локальная модель сильна, а где лучше подключить внешний сервис. Мы в Nahornyi AI Lab как раз собираем такие штуки под реальные процессы, а не под красивые демо.
Если у вас уже назрела AI implementation без облачной зависимости, я бы посмотрел на ваш стек трезво: что можно увести локально, где сократить задержки и как из этого собрать рабочую автоматизацию. В Nahornyi AI Lab я обычно начинаю именно с этого, потому что Vadym Nahornyi не любит продавать магию там, где бизнесу нужен просто надёжный результат.