Технічний контекст
Мені такі роботи подобаються не за гарні графіки, а за те, що їх можна одразу застосувати в AI-автоматизації на практиці. Ідея дуже приземлена: не просити модель миттєво обрати інструмент із сирого запиту, а спочатку змусити її зрозуміти мету користувача.
У статті це називається Self-Assist. По суті, схема двокрокова: спочатку ретривер видає top-k кандидатів, потім LLM аналізує запит, описи інструментів і самих кандидатів, і лише після цього вирішує, чим діяти.
Мені тут сподобалася не назва, а інженерна логіка. Коли агент стрибає прямо з фрази користувача до виклику інструменту, він часто чіпляється за ключові слова. А коли я додаю проміжний крок із явним формулюванням завдання, вибір стає менш рваним і більш осмисленим.
Автори повідомляють про зростання точності вибору інструментів до 97% проти 80% у базового підходу. Важливо не переузагальнювати: основний ефект спостерігали на великих моделях, включно з Claude Opus 4.x рівня, а для малих моделей такий промпт легко перетворюється на шум у контексті.
І тут я не здивований. Мала модель нерідко починає або галюцинувати обґрунтування, або навпаки викликає інструмент навіть тоді, коли можна відповісти без нього. Додаткове міркування для неї — не допомога, а зайве когнітивне навантаження.
Що це змінює у продакшені
Перше: якщо ви створюєте агента з 20–100 інструментами, крок із явною метою може бути дешевшим, ніж усувати хаос після неправильних викликів. Особливо там, де помилка призводить не до поганого тексту, а до зайвого API-запиту, запису в CRM або запуску процесу.
Друге: архітектура агента стає зрозумілішою. Я б виносив аналіз мети в окремий вузол пайплайну, а не ховав це в одному гігантському system prompt. Так простіше налагоджувати й вимірювати, де саме агент ламається.
Програють тут переважно ті, хто сподівається однією схемою охопити і потужні моделі, і локальні малі. Так не працює. Для інтеграції штучного інтелекту доводиться підбирати глибину міркування під клас моделі, інакше вартість і шум з'їдять увесь виграш.
Ми в Nahornyi AI Lab вирішуємо такі речі на практиці: де потрібен явний етап мети, де вистачить хорошого маршрутизації, а де краще взагалі відмовитися від tool calling. Якщо ваш агент уже працює в CRM, підтримці або внутрішніх операціях і поводиться непередбачувано, я з командою можу побудувати розробку AI-рішень без магії, з нормальною архітектурою та вимірюваною користю для бізнесу.