Чому локальні AI-агенти на vision дорогі та крихкі

Проблема локальних AI-агентів на базі vision у тому, що керування через координати ламається при скролінгу та читанні. Це вимагає постійних скріншотів та OCR, що збільшує затримки й витрати бізнесу. Набагато надійніше будувати автоматизацію через Accessibility API або DOM-структури, забезпечуючи стабільність та швидкість.

Технічний контекст

Я регулярно бачу один і той самий запит: «хочу локального агента, який впевнено керує десктопом без хмари». І майже завжди перша ідея — взяти SotA мультимодальну LLM, годувати її скріншотами, а кліки задавати координатами (x,y) або через накладену сітку.

Я аналізував такі прототипи й щоразу впирався в базову нестиковку: vision добре вирішує «знайди кнопку і натисни», але починає деградувати на «скроль і читай». Скролінг перетворюється на цикл: скріншот → розпізнавання тексту/елементів → рішення → скрол → новий скріншот. Латентність та вартість зростають лінійно з довжиною сторінки, а якість — нелінійно падає.

Друга проблема — крихкість координат. Будь-який зсув верстки, масштабування, різні DPI, спливаючі підказки, анімації або просто «трохи інший шрифт» ламають прив'язку. Модель змушена постійно пере-«дивлятися» екран, тому що у неї немає стабільних семантичних якорів.

Третя — обчислювальна ціна локальності. Для комфортної роботи мультимодальних моделей зазвичай потрібен серйозний GPU (на практиці часто 24GB VRAM+), і навіть тоді ви платите часом: контекст із картинок важкий, а повторні проходи по екрану з'їдають пропускну здатність.

Коли я проєктую AI-архітектуру для desktop-автоматизації, я майже завжди намагаюся піти від «пікселів» до структури: Accessibility tree, UI Automation, DOM (у веб-контролах), а іноді — до API програми, якщо він існує. У таких представленнях елемент — це роль, ім'я, стан та ієрархія, а не область на екрані.

Вплив на бізнес та автоматизацію

Якщо ви будуєте «ШІ автоматизацію» на vision-сітці, ви купуєте собі дві статті витрат: дорогий рантайм і дорогу підтримку. Рантайм дорогий через мультимодальний інференс і часті ітерації спостереження. Підтримка дорога, тому що будь-які оновлення інтерфейсу перетворюються на регресію, яку не можна стабільно покрити «селектором» — тільки новим циклом спостережень.

Я бачив, як компанії зрештою обмежують агента до коротких сценаріїв: відкрити програму, натиснути 2–3 кнопки, заповнити форму. Це працює, але рівно до моменту, коли потрібен «оператор»: читати довгі списки, порівнювати рядки, скролити таблиці, збирати дані з кількох вікон.

Хто виграє від структурного доступу? Ті, у кого процеси зав'язані на повторювані дії: бек-офіс, закупівлі, логістика, бухгалтерські звірки, обробка звернень, контроль якості. Там семантичне керування (через accessibility/DOM) дає передбачуваність і швидкість, а модель використовується для прийняття рішень, а не для вгадування пікселів.

Хто програє? Команди, які намагаються «зробити ШІ автоматизацію» без шару інтеграції, розраховуючи, що LLM сама «побачить і розбереться». У наших проєктах в Nahornyi AI Lab я закладаю окремий шар інструментів: вилучення структури UI, нормалізація в єдиний формат, безпечні actions, і тільки потім — агентне планування.

У підсумку «впровадження ШІ» стає інженерним завданням: не вибрати найрозумнішу модель, а зібрати контур управління, де модель отримує стабільні примітиви (find, focus, read, set, scrollTo, queryTable) і не витрачає токени на візуальний шум.

Стратегічне бачення та глибший розбір

Мій прогноз простий: локальні desktop-агенти стануть масовими не тоді, коли вийде ще більш «видюща» модель, а коли з'являться стандартизовані агентні примітиви поверх UI-структури. Vision залишиться як резервний сенсор: для програм без accessibility, для VDI/віддалених робочих столів, для нестандартних канвасів.

Я вже закладаю в архітектуру ШІ-рішень для бізнесу гібридний патерн: «структура за замовчуванням, vision за необхідності». На практиці це виглядає так: агент спочатку працює по accessibility/DOM, і тільки якщо елемент не знайдено або контент відмальовано як картинку — вмикається візуальний режим з OCR та верифікацією.

Є ще один нюанс, який багато хто пропускає: безпека та аудит. Координатний клік складно пояснити та відтворити. А дію «натиснути кнопку Submit у вікні InvoiceApproval за accessibility-id» легко логувати, рев'юїти та проводити через комплаєнс. Для реального сектору це часто вирішальний аргумент на користь «ШІ інтеграції» через структурні інтерфейси.

Якщо ви зараз обираєте напрямок, я б не інвестував місяці в чистого vision-агента для «скролити й читати». Я б інвестував у шар доступу до UI-дерева, у нормальний toolset і в контроль якості дій агента. Так ви отримаєте швидкість, стійкість і керовану вартість володіння.

Цей розбір підготував Вадим Нагорний — провідний експерт Nahornyi AI Lab з ШІ-автоматизації та архітектури впровадження ШІ в реальному секторі. Якщо ви плануєте локального агента для десктопа або хочете замінити крихкі vision-сценарії на структурну інтеграцію, я запрошую вас обговорити завдання: розберу ваш процес, запропоную цільову AI-архітектуру та план впровадження з прогнозом вартості та ризиків.

Поділитися статтею

Twitter/X LinkedIn Telegram

Чому локальні AI-агенти на vision дорогі та крихкі

Технічний контекст

Вплив на бізнес та автоматизацію

Стратегічне бачення та глибший розбір

Ще новини

Gemma 4 стала помітно практичнішою на edge

364M параметрів і новий шанс для ШІ на пристроях