Маленькі LLM та локальні агенти: вже можна?

У новому порівнянні малі відкриті моделі 3B-9B перевірили на коді, веб-пошуку зі збереженням у JSON та tool calling. Для бізнесу це важливо: стало зрозуміліше, де AI-автоматизацію вже можна запускати локально в межах 4 ГБ VRAM, а де краще не економити. Це показує межі практичного застосування.

Технічний контекст

Я люблю такі тести не за красиві графіки, а за приземлене питання: чи можна зібрати нормальну AI automation локально, не купуючи окремий сервер під кожну дрібницю. Тут якраз перевірили маленькі відкриті моделі 3B-9B на трьох завданнях, які не соромно дати реальному розробнику.

Сценарії були правильні: додати дрібні фічі у фронтенд і бекенд, знайти дані в інтернеті, відфільтрувати та зберегти в JSON, а потім окремо перевірити tool calling. І ось на третьому пункті зазвичай і ламаються всі розмови про «локальних агентів на мінімалках».

Щодо VRAM картина обнадійлива: в обговоренні з'ясувалося, що частина таких моделей вкладається приблизно в 4 ГБ максимум, особливо в 4-bit квантизації. Для 3B це взагалі вже робочий діапазон, якщо не роздувати контекст і не навантажувати зверху громіздкий агентний цикл з купою інструментів.

Щодо моделей я б дивився в бік сімейства на кшталт SmolLM3-3B, Gemma 3 4B та деяких 7B-9B варіантів, тільки якщо ви дуже ретельно рахуєте пам'ять. На простому коді та обробці даних маленькі моделі вже не виглядають іграшкою. Але tool calling у них все ще примхливий: на простих інструментах вони тримаються, на багатокроковій логіці швидко починають вигадувати маршрут.

Саме тут я б не плутав «вміє викликати функцію» і «вміє стабільно жити в agentic workflow». Це дві дуже різні планки.

Вплив на бізнес та автоматизацію

Перший висновок простий: локальна AI integration стала реальнішою для вузьких завдань. Якщо вам потрібно парсити дані, фільтрувати, перекладати в JSON, робити дрібні developer-операції або внутрішні утиліти, маленька модель під 4 ГБ VRAM вже може бути дешевшою та зручнішою за хмару.

Другий момент менш приємний: якщо процес зав'язаний на надійний tool calling, особливо з кількома кроками та перевіркою результату, маленькі моделі поки що небезпечно ставити без страховки. Я б додавав жорсткі валідатори, retry-логіку та маршрутизацію на сильнішу модель.

Виграють команди, яким потрібен on-device режим, приватність та низька вартість запуску. Програють ті, хто сподівається замінити production-агента однією «легкою» моделлю без інженерної обв'язки.

Ми в Nahornyi AI Lab якраз вирішуємо такі межові завдання для клієнтів: де вистачить локальної моделі, а де потрібна нормальна AI architecture з гібридним маршрутом. Якщо ваші процеси вже впираються в ручну рутину або дорогі API-виклики, я з командою можу допомогти зібрати AI solution development без зайвої магії та зі зрозумілою економікою.

Досліджуючи можливості малих моделей в агентних сценаріях та використанні інструментів, важливо враховувати й властиві їм виклики безпеки. Раніше ми розповідали, як омогліфи Unicode можуть обманювати ШІ-агентів, змушуючи їх виконувати фішингові чи шкідливі команди — це важливий аспект для надійної автоматизації з ШІ та впровадження інструментів.

Поділитися статтею

Twitter/X LinkedIn Telegram

Маленькі LLM та локальні агенти: вже можна?

Технічний контекст

Вплив на бізнес та автоматизацію

Ще новини

У Codex зник Fast Mode, а відповіді прискорилися

MiniMax M3 виглядає небезпечно сильною для агентських задач