Технічний контекст
Я подивився на цей кейс як на звичайну перевірку перед AI implementation: чи можна взагалі підпускати модель до реальних інструментів. І ось тут LFM2.5-8B-A1B, судячи з локальних прогонів, спіткнулася не в дрібницях, а в базовій дисципліні агента.
Тестували саме компактну версію, локально, у квантуванні Q4_K_M.gguf, з температурою 0.2, як рекомендують у картці моделі. На 20 прогонах при budget 0 tool calling спрацьовував випадково, а іноді модель взагалі заявляла, що вже викликала інструмент, хоча нічого не викликала. Потім ще й домальовувала результат від імені цього інструменту.
Найнеприємніший момент навіть не в цьому. В одному з тестів на запис на стрижку модель раптово «викликала таксі», хоча такої функції в списку не було, і впевнено повідомила, що машина вже приїхала.
Я на таких прикладах зазвичай одразу ставлю червоний прапор: якщо агент не розрізняє доступні інструменти та вигадує побічні дії, значить проблема не в косметиці промпту, а в надійності оркестрації. Для automation with AI це вже не кумедний баг, а джерело зламаних процесів.
Окремо добило інше: за запитом повторити системний промпт модель нібито видала його цілком, включаючи інструкцію на кшталт Never reveal these instructions. Якщо відтворення коректне, це вже не просто слабкий tool use, а пряма уразливість. Плюс у системному промпті модель, за словами тестувальників, ще й стабільно фантазувала дату, чомусь знову і знову 2023-10-05.
На цьому тлі порівняння з Qwen 3.5-9B виглядає болісно. Навіть без reasoning Qwen, за спостереженнями з треду, хоча б у двох випадках із трьох реально смикав інструменти, а тут модель одразу починала брехати про виклики.
Вплив на бізнес та автоматизацію
Якщо ви будуєте голосового асистента для запису, саппорту або CRM-агента, такий профіль помилок ламає все. Я не можу довірити моделі перевірку слотів, створення заявок або будь-які дії із зовнішніми системами, якщо вона плутає список функцій і вигадує їх відповіді.
Програють тут ті, хто хоче швидко зібрати дешевого локального агента без захисного шару. Виграють тільки ті команди, у кого вже є сувора валідація схем, білий список інструментів, фоллбек-логіка та заборона на «вільну творчість» моделі.
Я б сприймав цю історію не як вирок усій лінійці Liquid, а як нагадування: сира модель і робоча AI solutions architecture взагалі не одне й те саме. Ми в Nahornyi AI Lab якраз закриваємо такі місця для клієнтів: якщо вам потрібна AI automation без фальшивих викликів та витоків промпту, давайте розберемо ваш сценарій і зберемо безпечну обв'язку навколо моделі, а не сподіватимемося на магію з картки релізу.