Маленькие LLM и локальные агенты: уже можно?

В свежем сравнении малые открытые модели 3B-9B проверили на коде, веб-поиске с сохранением в JSON и tool calling. Для бизнеса это важно: стало понятнее, где AI automation уже можно запускать локально в пределах 4 ГБ VRAM, а где лучше не экономить.

Технический контекст

Я люблю такие тесты не за красивые графики, а за приземлённый вопрос: можно ли собрать нормальную AI automation локально, не покупая отдельный сервер под каждый чих. Здесь как раз проверили маленькие открытые модели 3B-9B на трёх задачах, которые не стыдно дать реальному разработчику.

Сценарии были правильные: добавить мелкие фичи во фронтенд и бэкенд, найти данные в интернете, отфильтровать и сохранить в JSON, а потом отдельно проверить tool calling. И вот на третьем пункте обычно и ломаются все разговоры про «локальных агентов на минималках».

По VRAM картина обнадёживающая: в обсуждении всплыло, что часть таких моделей укладывается примерно в 4 ГБ максимум, особенно в 4-bit квантизации. Для 3B это вообще уже рабочий диапазон, если не раздувать контекст и не вешать сверху жирный агентный цикл с кучей инструментов.

По моделям я бы смотрел в сторону семейства вроде SmolLM3-3B, Gemma 3 4B и некоторых 7B-9B вариантов только если вы очень аккуратно считаете память. На простом коде и обработке данных маленькие модели уже не выглядят игрушкой. Но tool calling у них всё ещё капризный: на простых инструментах они держатся, на многошаговой логике быстро начинают фантазировать маршрут.

Именно тут я бы не путал «умеет вызвать функцию» и «умеет стабильно жить в agentic workflow». Это две очень разные планки.

Влияние на бизнес и автоматизацию

Первый вывод простой: локальная AI integration стала реальнее для узких задач. Если вам нужно парсить данные, фильтровать, перекладывать в JSON, делать мелкие developer-операции или внутренние утилиты, маленькая модель под 4 ГБ VRAM уже может быть дешевле и удобнее облака.

Второй момент менее приятный: если процесс завязан на надёжный tool calling, особенно с несколькими шагами и проверкой результата, маленькие модели пока опасно ставить без страховки. Я бы добавлял жёсткие валидаторы, retry-логику и маршрутизацию на более сильную модель.

Выигрывают команды, которым нужен on-device режим, приватность и низкая стоимость запуска. Проигрывают те, кто надеется заменить production-агента одной «лёгкой» моделью без инженерной обвязки.

Мы в Nahornyi AI Lab как раз решаем такие пограничные задачи для клиентов: где хватит локальной модели, а где нужна нормальная AI architecture с гибридным маршрутом. Если у вас процессы уже упираются в ручную рутину или дорогие API-вызовы, я с командой могу помочь собрать AI solution development без лишней магии и с понятной экономикой.

По мере того как мы исследуем возможности небольших моделей в агентских рабочих процессах и использовании инструментов, крайне важно также учитывать присущие им проблемы безопасности. Мы ранее рассматривали, как гомоглифы Unicode могут обманывать ИИ-агентов, приводя к фишингу или выполнению вредоносных команд, что является важным руководством по безопасности для надежной автоматизации ИИ и реализации использования инструментов.

Поделиться статьёй

Twitter/X LinkedIn Telegram

Маленькие LLM и локальные агенты: уже можно?

Технический контекст

Влияние на бизнес и автоматизацию

Ещё новости

В Codex исчез Fast Mode, а ответы ускорились

MiniMax M3 выглядит опасно сильной для агентских задач