Skip to main content
AlibabaPage-AgentAI automation

Alibaba вбудувала AI-агента прямо в сайт

Alibaba відкрила Page-Agent, бібліотеку для керування веб-інтерфейсом природною мовою прямо у браузері. Це важливо для AI-автоматизації: інтеграція стає простішою, використання токенів знижується, і агент стає вбудованим компонентом, а не зовнішнім доповненням, що змінює весь підхід до автоматизації рутинних завдань.

Технічний контекст

Я одразу поліз у Alibaba Page-Agent з практичним питанням: це іграшка для демо чи нормальна база для AI інтеграції в продукт? Схоже, друге. Бібліотека живе прямо всередині сторінки, розуміє DOM як текст і виконує команди на кшталт «заповни форму» або «натисни login» без Python, без headless-браузера і без окремого бекенду.

Ось тут я і зупинився. Зазвичай, коли мені приносять ідею «давайте прикрутимо агента до CRM або адмінки», половина болю сидить не в моделі, а в інфраструктурі навколо браузерної автоматизації. У Page-Agent підхід інший: один script tag для демо або npm-пакет для продакшену, далі підключаєш свій LLM через OpenAI-сумісний API.

За архітектурою хід розумний. Замість скріншотів і vision-моделей він жене текстове представлення DOM, тому затримка нижча, а витрати токенів, за заявами проекту, можуть бути в 10-100 разів меншими. Для внутрішніх панелей, ERP, CRM і старих веб-інтерфейсів це дуже сильна ідея: агент бачить структуру інтерфейсу, а не намагається вгадувати пікселі.

Ще сподобалося, що автори не забули про гальма безпеки. Є панель підтвердження human-in-the-loop перед чутливими діями, а для багатокрокових сценаріїв між вкладками дають Chrome extension. Плюс є beta MCP Server, якщо хочеться підключати зовнішній оркестратор, а не тільки вбудований UI-агент.

Ліцензія MIT, репозиторій уже добре розігнаний по зірках, документація зрозуміла. З обмежень все досить земне: CORS, ключі, мережеві помилки і те, наскільки чисто розмічений сам інтерфейс. Тобто магії немає, але й зайвого цирку теж немає.

Вплив на бізнес і автоматизацію

Я бачу тут три прямі ефекти. Перший: дешевше прототипувати AI automation всередині існуючого веб-продукту, не піднімаючи окремий зоопарк із Playwright, серверів і vision-обв'язки. Другий: швидше перевіряти гіпотези для сапорту, back-office і data-entry, де агенту треба не «думати про світ», а просто впевнено тикати в інтерфейс.

Виграють команди з важкими внутрішніми системами і legacy UI. Програють ті, хто сподівається, що one-liner magically замінить нормальний AI solution development: якщо процеси криві, агент їх тільки прискорить у кривому вигляді.

Я такі штуки зазвичай дивлюся не як хайп, а як деталь архітектури. Якщо у вас назріла автоматизація в CRM, порталі або кабінеті, можна спокійно розібрати workflow і зрозуміти, де Page-Agent підходить, а де краще зібрати інший контур. У Nahornyi AI Lab ми якраз робимо такі речі руками: від ідеї до робочого AI automation, щоб у команди йшло менше часу на рутину, а у користувачів було менше тертя в інтерфейсі.

Раніше ми розповідали про атаки з використанням Unicode-гомогліфів, здатних обдурити AI-агентів під час відкриття URL. Це критична загроза для безпеки автономного серфінгу, який виконує Page Agent.

Поділитися статтею