Self-Assist: сначала цель, потом tool calling

В свежей работе Self-Assist авторы показали: если перед выбором инструмента заставить модель сначала сформулировать цель, точность tool calling заметно растет. Для AI automation это важно, потому что агенты начинают реже дергать лишние тулзы и лучше проходят многошаговые сценарии.

Технический контекст

Я люблю такие работы не за красивый график, а за то, что их можно сразу примерить на AI automation в бою. Здесь идея очень приземленная: не просить модель мгновенно выбрать тул из сырого запроса, а сначала вынудить ее понять цель пользователя.

В paper это называется Self-Assist. По сути, схема двухшаговая: сначала ретривер отдает top-k кандидатов, потом LLM разбирает запрос, описания инструментов и сами кандидаты, и уже после этого выбирает, чем действовать.

Мне здесь понравилось не название, а инженерная логика. Когда агент прыгает прямо из фразы пользователя в tool call, он часто цепляется за ключевые слова. А когда я добавляю промежуточный шаг с явной формулировкой задачи, выбор становится менее дерганым и более осмысленным.

Авторы пишут о росте точности выбора инструментов вплоть до 97% против 80% у базового подхода. Важно не переобобщать: судя по обсуждению, основной эффект смотрели на больших моделях, в том числе на Claude Opus 4.x уровня, а вот для маленьких моделей такой промпт легко превращается в мусор в контексте.

И вот тут я как раз не удивлен. Маленькая модель нередко начинает либо галлюцинировать обоснование, либо наоборот дергать тул даже тогда, когда можно ответить без него. Дополнительное рассуждение для нее не помощь, а лишняя когнитивная нагрузка.

Что это меняет в проде

Первое: если вы делаете агента с 20-100 инструментами, goal-first шаг может быть дешевле, чем чинить хаос после неверных вызовов. Особенно там, где ошибка ведет не к плохому тексту, а к лишнему API-запросу, записи в CRM или запуску процесса.

Второе: архитектура агента становится понятнее. Я бы выносил анализ цели в отдельный узел пайплайна, а не прятал это в один гигантский system prompt. Так проще дебажить и измерять, где именно агент ломается.

Проигрывают тут в основном те, кто надеется одной и той же схемой покрыть и мощные модели, и локальные мелкие. Это так не работает. Для artificial intelligence integration приходится подбирать глубину рассуждения под класс модели, иначе стоимость и шум съедят весь выигрыш.

Мы в Nahornyi AI Lab решаем такие штуки на практике: где нужен явный этап цели, где хватит хорошего роутинга, а где лучше вообще убрать tool calling. Если у вас агент уже живет в CRM, саппорте или внутренних операциях и ведет себя непредсказуемо, я с командой могу собрать AI solution development без магии, с нормальной архитектурой и измеримой пользой для бизнеса.

Мы ранее рассказывали, как измерить надёжность LLM-судьи с помощью метрик IRT, чтобы снизить риски автоматизации и обеспечить стабильный контроль качества. Этот подход к оценке точности моделей напрямую связан с тем, как правильно сформулировать промпт для максимальной точности выбора инструментов.

Поделиться статьёй

Twitter/X LinkedIn Telegram

Self-Assist: сначала цель, потом tool calling

Технический контекст

Что это меняет в проде

Ещё новости

Gemma 4 в браузере без сервера

Почему Gemma 4 12B Coder выстрелила на Hugging Face