Gemma 4 31B против Claude на ревью API-доков

Я сравнил локальную Gemma 4 31B и Claude Sonnet на задаче ревью API-документации с заранее внесёнными ошибками. Итог простой: по качеству Claude пока впереди, но MLX на Apple Silicon резко меняет экономику локального запуска и делает такие сценарии уже практичными для бизнеса.

Что я увидел в тесте

Я взял вполне приземлённую задачу: дал моделям API-документацию, в которую заранее подмешал несколько ошибок, и посмотрел, кто их поймает без лишней фантазии. Ответы потом прогнал через GPT в роли судьи. Не идеальный эталон, но для быстрого прикладного сравнения это нормальный рабочий способ.

В моём тесте было два лагеря. С одной стороны Gemma 4 31B IT локально, с другой Claude Sonnet 4.6 Extended Thinking. По итоговой оценке картина такая: первый ответ получил 4/10, второй 7.5/10.

Тут есть важная деталь: локальный запуск Gemma у меня был не в одном варианте. Я отдельно смотрел Gemma 4 31B IT в MLX 4-bit и в Ollama 4-bit. И вот здесь железо и бэкенд влияют не меньше, чем сама модель.

Где меня реально зацепил не ответ, а инфраструктура

По памяти разница получилась почти неприличная. Ollama у меня съела около 43 GB, а MLX на M4 показал peak memory 19.994 GB. Для одной и той же идеи запускать 31B локально это уже не косметика, а разница между «живёт на машине» и «машина начинает страдать».

Я как раз люблю такие моменты, потому что они сразу бьют по AI-архитектуре. На бумаге у вас «локальная open model», а на практике один стек помещается в разумный лимит unified memory, а второй превращает ноутбук в обогреватель. Если вы строите ИИ интеграцию под команду, это уже вопрос не вкуса, а стоимости владения.

MLX на Apple Silicon сейчас выглядит заметно взрослее для таких задач. Не потому что магия, а потому что стек ближе к железу и меньше теряет на накладных расходах. Когда 31B-модель можно держать локально в районе 20 GB, разговор про приватные пайплайны, внутренний code review и офлайн-проверку документации становится предметным.

По качеству Gemma пока не добивает, но уже не выглядит игрушкой

Сами ответы я бы описал так: Claude лучше держит структуру ревью, увереннее отделяет реальные дефекты от второстепенных замечаний и меньше мажет по приоритетам. Gemma 4 31B в моём тесте была полезной, но сыроватой именно как ревьюер документации. Она не развалилась, но и не показала тот уровень, на который можно без оглядки повесить критичный workflow.

И всё же списывать локальные модели рано. Если пару лет назад такой прогон был скорее развлечением для энтузиастов, то сейчас это уже рабочая заготовка для ИИ автоматизации в закрытом контуре. Особенно там, где нельзя светить внутренние API, схемы интеграций или служебную документацию в облако.

Я бы сформулировал жёстко: Claude сейчас выигрывает в качестве, MLX выигрывает в экономике локального запуска, а Gemma 4 31B уже стоит в той точке, где её надо не обсуждать в вакууме, а встраивать в реальные цепочки и смотреть на результат.

Кому это выгодно прямо сейчас

Больше всех выигрывают команды, у которых есть много рутинной инженерной проверки: API-доки, SDK-гайды, changelog, внутренние регламенты, migration notes. Там можно сделать ИИ автоматизацию в несколько проходов: локальная модель ищет очевидные несоответствия, а сильная облачная добивает сложные места или спорные кейсы.

Проигрывают те, кто ждёт универсального серебряного патрона. Если просто взять локальную модель, кинуть ей документацию и надеяться на уровень senior reviewer, будет разочарование. Нужны нормальные промпты, этапы валидации, иногда judge-модель, иногда rule-based проверки поверх текста.

Мы в Nahornyi AI Lab как раз такие штуки и собираем руками: не «вот вам чатик», а архитектура ИИ-решений под процесс. Где локальная модель отвечает за приватность и дешёвый первый проход, а облачная подключается только там, где её качество действительно отбивает цену. Именно так внедрение искусственного интеллекта перестаёт быть игрушкой и начинает экономить время команды.

Мой вывод без прикрас

Если мне нужен лучший результат на ревью API-документации прямо сегодня, я беру Claude. Если мне нужен контролируемый локальный контур на Apple Silicon, я очень серьёзно смотрю в сторону Gemma 4 31B через MLX, а не через тяжёлый бэкенд с лишним аппетитом к памяти.

Я, Вадим Нагорный из Nahornyi AI Lab, такие сравнения делаю не ради табличек, а чтобы потом из этого собирать живые ИИ решения для бизнеса. Если хотите обсудить ваш кейс, заказать ИИ автоматизацию, создать ИИ агента или собрать n8n-сценарий с локальными и облачными моделями, пишите мне. Разберём, что у вас реально стоит запускать локально, а что лучше оставить в API.

Поделиться статьёй

Twitter/X LinkedIn Telegram

Gemma 4 31B против Claude на ревью API-доков

Что я увидел в тесте

Где меня реально зацепил не ответ, а инфраструктура

По качеству Gemma пока не добивает, но уже не выглядит игрушкой

Кому это выгодно прямо сейчас

Мой вывод без прикрас

Ещё новости

LFM2.5-8B-A1B: что реально помогает от циклов

Твит Альтмана есть, а релиза пока не видно