Gemma 4 31B проти Claude на рев'ю API-доків

Я порівняв локальну Gemma 4 31B та Claude Sonnet на завданні з рев'ю API-документації із заздалегідь доданими помилками. Висновок простий: за якістю Claude поки що попереду, але MLX на Apple Silicon різко змінює економіку локального запуску та робить такі сценарії вже практичними для бізнесу.

Що я побачив у тесті

Я взяв цілком приземлене завдання: дав моделям API-документацію, в яку заздалегідь додав кілька помилок, і подивився, хто їх спіймає без зайвих фантазій. Відповіді потім прогнав через GPT у ролі судді. Не ідеальний еталон, але для швидкого прикладного порівняння це нормальний робочий спосіб.

У моєму тесті було два табори. З одного боку Gemma 4 31B IT локально, з іншого Claude Sonnet 4.6 Extended Thinking. За підсумковою оцінкою картина така: перша відповідь отримала 4/10, друга 7.5/10.

Тут є важлива деталь: локальний запуск Gemma у мене був не в одному варіанті. Я окремо дивився Gemma 4 31B IT в MLX 4-bit та в Ollama 4-bit. І ось тут залізо та бекенд впливають не менше, ніж сама модель.

Де мене реально зачепила не відповідь, а інфраструктура

Щодо пам'яті різниця вийшла майже непристойною. Ollama у мене з'їла близько 43 GB, а MLX на M4 показав пікове значення 19.994 GB. Для однієї й тієї ж ідеї запускати 31B локально це вже не косметика, а різниця між «живе на машині» та «машина починає страждати».

Я якраз люблю такі моменти, бо вони одразу б'ють по AI-архітектурі. На папері у вас «локальна open model», а на практиці один стек вміщується в розумний ліміт unified memory, а другий перетворює ноутбук на обігрівач. Якщо ви будуєте ШІ-інтеграцію під команду, це вже питання не смаку, а вартості володіння.

MLX на Apple Silicon зараз виглядає помітно дорослішим для таких завдань. Не тому що магія, а тому що стек ближчий до заліза і менше втрачає на накладних витратах. Коли 31B-модель можна тримати локально в районі 20 GB, розмова про приватні пайплайни, внутрішній code review та офлайн-перевірку документації стає предметною.

За якістю Gemma ще не дотягує, але вже не схожа на іграшку

Самі відповіді я б описав так: Claude краще тримає структуру рев'ю, впевненіше відокремлює реальні дефекти від другорядних зауважень і менше помиляється в пріоритетах. Gemma 4 31B у моєму тесті була корисною, але сируватою саме як рецензент документації. Вона не розвалилася, але й не показала той рівень, на який можна без вагань повісити критичний workflow.

Та все ж списувати локальні моделі з рахунків зарано. Якщо кілька років тому такий прогін був скоріше розвагою для ентузіастів, то зараз це вже робоча заготовка для ШІ-автоматизації в закритому контурі. Особливо там, де не можна світити внутрішні API, схеми інтеграцій чи службову документацію в хмару.

Я б сформулював жорстко: Claude зараз виграє в якості, MLX виграє в економіці локального запуску, а Gemma 4 31B вже стоїть у тій точці, де її треба не обговорювати у вакуумі, а вбудовувати в реальні ланцюжки й дивитися на результат.

Кому це вигідно просто зараз

Найбільше виграють команди, у яких є багато рутинної інженерної перевірки: API-доки, SDK-гайди, changelog, внутрішні регламенти, migration notes. Там можна зробити ШІ-автоматизацію в кілька проходів: локальна модель шукає очевидні невідповідності, а сильна хмарна добиває складні місця або спірні кейси.

Програють ті, хто чекає на універсальну срібну кулю. Якщо просто взяти локальну модель, кинути їй документацію і сподіватися на рівень senior reviewer, буде розчарування. Потрібні нормальні промпти, етапи валідації, іноді judge-модель, іноді rule-based перевірки поверх тексту.

Ми в Nahornyi AI Lab якраз такі штуки й збираємо руками: не «ось вам чатик», а архітектура ШІ-рішень під процес. Де локальна модель відповідає за приватність і дешевий перший прохід, а хмарна підключається тільки там, де її якість дійсно відбиває ціну. Саме так впровадження штучного інтелекту перестає бути іграшкою і починає економити час команди.

Мій висновок без прикрас

Якщо мені потрібен найкращий результат на рев'ю API-документації просто сьогодні, я беру Claude. Якщо мені потрібен контрольований локальний контур на Apple Silicon, я дуже серйозно дивлюся в бік Gemma 4 31B через MLX, а не через важкий бекенд із надмірним апетитом до пам'яті.

Я, Вадим Нагорний з Nahornyi AI Lab, такі порівняння роблю не заради табличок, а щоб потім з цього збирати живі ШІ-рішення для бізнесу. Якщо хочете обговорити ваш кейс, замовити ШІ-автоматизацію, створити ШІ-агента або зібрати n8n-сценарій з локальними та хмарними моделями, пишіть мені. Розберемо, що у вас реально варто запускати локально, а що краще залишити в API.

Поділитися статтею

Twitter/X LinkedIn Telegram

Gemma 4 31B проти Claude на рев'ю API-доків

Що я побачив у тесті

Де мене реально зачепила не відповідь, а інфраструктура

За якістю Gemma ще не дотягує, але вже не схожа на іграшку

Кому це вигідно просто зараз

Мій висновок без прикрас

Ще новини

LFM2.5-8B-A1B: як реально позбутися зациклення

Твіт Альтмана є, а релізу поки не видно