Технічний контекст
Я люблю такі тести не за красиві графіки, а за приземлене питання: чи можна зібрати нормальну AI automation локально, не купуючи окремий сервер під кожну дрібницю. Тут якраз перевірили маленькі відкриті моделі 3B-9B на трьох завданнях, які не соромно дати реальному розробнику.
Сценарії були правильні: додати дрібні фічі у фронтенд і бекенд, знайти дані в інтернеті, відфільтрувати та зберегти в JSON, а потім окремо перевірити tool calling. І ось на третьому пункті зазвичай і ламаються всі розмови про «локальних агентів на мінімалках».
Щодо VRAM картина обнадійлива: в обговоренні з'ясувалося, що частина таких моделей вкладається приблизно в 4 ГБ максимум, особливо в 4-bit квантизації. Для 3B це взагалі вже робочий діапазон, якщо не роздувати контекст і не навантажувати зверху громіздкий агентний цикл з купою інструментів.
Щодо моделей я б дивився в бік сімейства на кшталт SmolLM3-3B, Gemma 3 4B та деяких 7B-9B варіантів, тільки якщо ви дуже ретельно рахуєте пам'ять. На простому коді та обробці даних маленькі моделі вже не виглядають іграшкою. Але tool calling у них все ще примхливий: на простих інструментах вони тримаються, на багатокроковій логіці швидко починають вигадувати маршрут.
Саме тут я б не плутав «вміє викликати функцію» і «вміє стабільно жити в agentic workflow». Це дві дуже різні планки.
Вплив на бізнес та автоматизацію
Перший висновок простий: локальна AI integration стала реальнішою для вузьких завдань. Якщо вам потрібно парсити дані, фільтрувати, перекладати в JSON, робити дрібні developer-операції або внутрішні утиліти, маленька модель під 4 ГБ VRAM вже може бути дешевшою та зручнішою за хмару.
Другий момент менш приємний: якщо процес зав'язаний на надійний tool calling, особливо з кількома кроками та перевіркою результату, маленькі моделі поки що небезпечно ставити без страховки. Я б додавав жорсткі валідатори, retry-логіку та маршрутизацію на сильнішу модель.
Виграють команди, яким потрібен on-device режим, приватність та низька вартість запуску. Програють ті, хто сподівається замінити production-агента однією «легкою» моделлю без інженерної обв'язки.
Ми в Nahornyi AI Lab якраз вирішуємо такі межові завдання для клієнтів: де вистачить локальної моделі, а де потрібна нормальна AI architecture з гібридним маршрутом. Якщо ваші процеси вже впираються в ручну рутину або дорогі API-виклики, я з командою можу допомогти зібрати AI solution development без зайвої магії та зі зрозумілою економікою.