Self-Assist: спочатку мета, потім tool calling

У новій роботі Self-Assist автори показали: якщо перед вибором інструменту змусити модель спочатку сформулювати мету, точність tool calling помітно зростає. Для AI-автоматизації це важливо, оскільки агенти починають рідше викликати зайві інструменти та краще справляються з багатокроковими сценаріями, зменшуючи ризик помилок.

Технічний контекст

Мені такі роботи подобаються не за гарні графіки, а за те, що їх можна одразу застосувати в AI-автоматизації на практиці. Ідея дуже приземлена: не просити модель миттєво обрати інструмент із сирого запиту, а спочатку змусити її зрозуміти мету користувача.

У статті це називається Self-Assist. По суті, схема двокрокова: спочатку ретривер видає top-k кандидатів, потім LLM аналізує запит, описи інструментів і самих кандидатів, і лише після цього вирішує, чим діяти.

Мені тут сподобалася не назва, а інженерна логіка. Коли агент стрибає прямо з фрази користувача до виклику інструменту, він часто чіпляється за ключові слова. А коли я додаю проміжний крок із явним формулюванням завдання, вибір стає менш рваним і більш осмисленим.

Автори повідомляють про зростання точності вибору інструментів до 97% проти 80% у базового підходу. Важливо не переузагальнювати: основний ефект спостерігали на великих моделях, включно з Claude Opus 4.x рівня, а для малих моделей такий промпт легко перетворюється на шум у контексті.

І тут я не здивований. Мала модель нерідко починає або галюцинувати обґрунтування, або навпаки викликає інструмент навіть тоді, коли можна відповісти без нього. Додаткове міркування для неї — не допомога, а зайве когнітивне навантаження.

Що це змінює у продакшені

Перше: якщо ви створюєте агента з 20–100 інструментами, крок із явною метою може бути дешевшим, ніж усувати хаос після неправильних викликів. Особливо там, де помилка призводить не до поганого тексту, а до зайвого API-запиту, запису в CRM або запуску процесу.

Друге: архітектура агента стає зрозумілішою. Я б виносив аналіз мети в окремий вузол пайплайну, а не ховав це в одному гігантському system prompt. Так простіше налагоджувати й вимірювати, де саме агент ламається.

Програють тут переважно ті, хто сподівається однією схемою охопити і потужні моделі, і локальні малі. Так не працює. Для інтеграції штучного інтелекту доводиться підбирати глибину міркування під клас моделі, інакше вартість і шум з'їдять увесь виграш.

Ми в Nahornyi AI Lab вирішуємо такі речі на практиці: де потрібен явний етап мети, де вистачить хорошого маршрутизації, а де краще взагалі відмовитися від tool calling. Якщо ваш агент уже працює в CRM, підтримці або внутрішніх операціях і поводиться непередбачувано, я з командою можу побудувати розробку AI-рішень без магії, з нормальною архітектурою та вимірюваною користю для бізнесу.

Ми раніше розповідали, як виміряти надійність LLM-судді за допомогою метрик IRT, щоб знизити ризики автоматизації та забезпечити стабільний контроль якості. Цей підхід до оцінки точності моделей безпосередньо пов'язаний з тим, як правильно сформулювати промпт для максимальної точності вибору інструментів.

Поділитися статтею

Twitter/X LinkedIn Telegram

Self-Assist: спочатку мета, потім tool calling

Технічний контекст

Що це змінює у продакшені

Ще новини

Gemma 4 в браузері без сервера

Чому Gemma 4 12B Coder вистрілила на Hugging Face