Технічний контекст
Я одразу поліз у Alibaba Page-Agent з практичним питанням: це іграшка для демо чи нормальна база для AI інтеграції в продукт? Схоже, друге. Бібліотека живе прямо всередині сторінки, розуміє DOM як текст і виконує команди на кшталт «заповни форму» або «натисни login» без Python, без headless-браузера і без окремого бекенду.
Ось тут я і зупинився. Зазвичай, коли мені приносять ідею «давайте прикрутимо агента до CRM або адмінки», половина болю сидить не в моделі, а в інфраструктурі навколо браузерної автоматизації. У Page-Agent підхід інший: один script tag для демо або npm-пакет для продакшену, далі підключаєш свій LLM через OpenAI-сумісний API.
За архітектурою хід розумний. Замість скріншотів і vision-моделей він жене текстове представлення DOM, тому затримка нижча, а витрати токенів, за заявами проекту, можуть бути в 10-100 разів меншими. Для внутрішніх панелей, ERP, CRM і старих веб-інтерфейсів це дуже сильна ідея: агент бачить структуру інтерфейсу, а не намагається вгадувати пікселі.
Ще сподобалося, що автори не забули про гальма безпеки. Є панель підтвердження human-in-the-loop перед чутливими діями, а для багатокрокових сценаріїв між вкладками дають Chrome extension. Плюс є beta MCP Server, якщо хочеться підключати зовнішній оркестратор, а не тільки вбудований UI-агент.
Ліцензія MIT, репозиторій уже добре розігнаний по зірках, документація зрозуміла. З обмежень все досить земне: CORS, ключі, мережеві помилки і те, наскільки чисто розмічений сам інтерфейс. Тобто магії немає, але й зайвого цирку теж немає.
Вплив на бізнес і автоматизацію
Я бачу тут три прямі ефекти. Перший: дешевше прототипувати AI automation всередині існуючого веб-продукту, не піднімаючи окремий зоопарк із Playwright, серверів і vision-обв'язки. Другий: швидше перевіряти гіпотези для сапорту, back-office і data-entry, де агенту треба не «думати про світ», а просто впевнено тикати в інтерфейс.
Виграють команди з важкими внутрішніми системами і legacy UI. Програють ті, хто сподівається, що one-liner magically замінить нормальний AI solution development: якщо процеси криві, агент їх тільки прискорить у кривому вигляді.
Я такі штуки зазвичай дивлюся не як хайп, а як деталь архітектури. Якщо у вас назріла автоматизація в CRM, порталі або кабінеті, можна спокійно розібрати workflow і зрозуміти, де Page-Agent підходить, а де краще зібрати інший контур. У Nahornyi AI Lab ми якраз робимо такі речі руками: від ідеї до робочого AI automation, щоб у команди йшло менше часу на рутину, а у користувачів було менше тертя в інтерфейсі.