Технический контекст
Я регулярно вижу один и тот же запрос: «хочу локального агента, который уверенно управляет десктопом без облака». И почти всегда первая идея — взять SotA мультимодальную LLM, кормить её скриншотами, а клики задавать координатами (x,y) или через наложенную сетку.
Я анализировал такие прототипы и каждый раз упирался в базовую нестыковку: vision хорошо решает «найди кнопку и нажми», но начинает деградировать на «скроль и читай». Скроллинг превращается в цикл: скриншот → распознавание текста/элементов → решение → скролл → новый скриншот. Латентность и стоимость растут линейно с длиной страницы, а качество — нелинейно падает.
Вторая проблема — хрупкость координат. Любой сдвиг верстки, масштабирование, разные DPI, всплывающие подсказки, анимации или просто «чуть другой шрифт» ломают привязку. Модель вынуждена постоянно пере-«смотреть» экран, потому что у неё нет стабильных семантических якорей.
Третья — вычислительная цена локальности. Для комфортной работы мультимодальных моделей обычно нужен серьёзный GPU (на практике часто 24GB VRAM+), и даже тогда вы платите временем: контекст из картинок тяжёлый, а повторные проходы по экрану съедают пропускную способность.
Когда я проектирую AI-архитектуру для desktop-автоматизации, я почти всегда стараюсь уйти от «пикселей» к структуре: Accessibility tree, UI Automation, DOM (в веб-контролах), а иногда — к API приложения, если он существует. В таких представлениях элемент — это роль, имя, состояние и иерархия, а не область на экране.
Влияние на бизнес и автоматизацию
Если вы строите «ИИ автоматизацию» на vision-сетке, вы покупаете себе две статьи расходов: дорогой рантайм и дорогую поддержку. Рантайм дорогой из‑за мультимодального инференса и частых итераций наблюдения. Поддержка дорогая, потому что любые обновления интерфейса превращаются в регрессию, которую нельзя стабильно покрыть «селектором» — только новым циклом наблюдений.
Я видел, как компании в итоге ограничивают агента до коротких сценариев: открыть приложение, нажать 2–3 кнопки, заполнить форму. Это работает, но ровно до момента, когда нужен «оператор»: читать длинные списки, сравнивать строки, скроллить таблицы, собирать данные из нескольких окон.
Кто выигрывает от структурного доступа? Те, у кого процессы завязаны на повторяемые действия: бэк-офис, закупки, логистика, бухгалтерские сверки, обработка обращений, контроль качества. Там семантическое управление (через accessibility/DOM) даёт предсказуемость и скорость, а модель используется для принятия решений, а не для угадывания пикселей.
Кто проигрывает? Команды, которые пытаются «сделать ИИ автоматизацию» без слоя интеграции, рассчитывая, что LLM сама «увидит и разберётся». В наших проектах в Nahornyi AI Lab я закладываю отдельный слой инструментов: извлечение структуры UI, нормализация в единый формат, безопасные actions, и только потом — агентное планирование.
В итоге «внедрение ИИ» становится инженерной задачей: не выбрать самую умную модель, а собрать контур управления, где модель получает стабильные примитивы (find, focus, read, set, scrollTo, queryTable) и не тратит токены на визуальный шум.
Стратегическое видение и разбор глубже
Мой прогноз простой: локальные desktop-агенты станут массовыми не тогда, когда выйдет ещё более «видящая» модель, а когда появятся стандартизированные агентные примитивы поверх UI-структуры. Vision останется как резервный сенсор: для приложений без accessibility, для VDI/удалённых рабочих столов, для нестандартных канвасов.
Я уже закладываю в архитектуру ИИ-решений для бизнеса гибридный паттерн: «структура по умолчанию, vision по необходимости». На практике это выглядит так: агент сначала работает по accessibility/DOM, и только если элемент не найден или контент отрисован как картинка — включается визуальный режим с OCR и верификацией.
Есть ещё один нюанс, который многие пропускают: безопасность и аудит. Координатный клик сложно объяснить и воспроизвести. А действие «нажать кнопку Submit в окне InvoiceApproval по accessibility-id» легко логируется, ревьюится и проходит комплаенс. Для реального сектора это часто решающий аргумент в пользу «ИИ интеграции» через структурные интерфейсы.
Если вы сейчас выбираете направление, я бы не инвестировал месяцы в чистый vision-агент для «скроллить и читать». Я бы инвестировал в слой доступа к UI-дереву, в нормальный toolset и в контроль качества действий агента. Так вы получите скорость, устойчивость и управляемую стоимость владения.
Этот разбор подготовил Вадим Нагорный — ведущий эксперт Nahornyi AI Lab по AI-автоматизации и архитектуре внедрения ИИ в реальном секторе. Если вы планируете локального агента для десктопа или хотите заменить хрупкие vision-сценарии на структурную интеграцию, я приглашая вас обсудить задачу: разберу ваш процесс, предложу целевую AI-архитектуру и план внедрения с прогнозом стоимости и рисков.