Технический контекст
Я люблю такие работы не за красивый график, а за то, что их можно сразу примерить на AI automation в бою. Здесь идея очень приземленная: не просить модель мгновенно выбрать тул из сырого запроса, а сначала вынудить ее понять цель пользователя.
В paper это называется Self-Assist. По сути, схема двухшаговая: сначала ретривер отдает top-k кандидатов, потом LLM разбирает запрос, описания инструментов и сами кандидаты, и уже после этого выбирает, чем действовать.
Мне здесь понравилось не название, а инженерная логика. Когда агент прыгает прямо из фразы пользователя в tool call, он часто цепляется за ключевые слова. А когда я добавляю промежуточный шаг с явной формулировкой задачи, выбор становится менее дерганым и более осмысленным.
Авторы пишут о росте точности выбора инструментов вплоть до 97% против 80% у базового подхода. Важно не переобобщать: судя по обсуждению, основной эффект смотрели на больших моделях, в том числе на Claude Opus 4.x уровня, а вот для маленьких моделей такой промпт легко превращается в мусор в контексте.
И вот тут я как раз не удивлен. Маленькая модель нередко начинает либо галлюцинировать обоснование, либо наоборот дергать тул даже тогда, когда можно ответить без него. Дополнительное рассуждение для нее не помощь, а лишняя когнитивная нагрузка.
Что это меняет в проде
Первое: если вы делаете агента с 20-100 инструментами, goal-first шаг может быть дешевле, чем чинить хаос после неверных вызовов. Особенно там, где ошибка ведет не к плохому тексту, а к лишнему API-запросу, записи в CRM или запуску процесса.
Второе: архитектура агента становится понятнее. Я бы выносил анализ цели в отдельный узел пайплайна, а не прятал это в один гигантский system prompt. Так проще дебажить и измерять, где именно агент ломается.
Проигрывают тут в основном те, кто надеется одной и той же схемой покрыть и мощные модели, и локальные мелкие. Это так не работает. Для artificial intelligence integration приходится подбирать глубину рассуждения под класс модели, иначе стоимость и шум съедят весь выигрыш.
Мы в Nahornyi AI Lab решаем такие штуки на практике: где нужен явный этап цели, где хватит хорошего роутинга, а где лучше вообще убрать tool calling. Если у вас агент уже живет в CRM, саппорте или внутренних операциях и ведет себя непредсказуемо, я с командой могу собрать AI solution development без магии, с нормальной архитектурой и измеримой пользой для бизнеса.