Skip to main content
AlibabaPage-AgentAI automation

Alibaba встроила AI-агента прямо в сайт

Alibaba открыла Page-Agent, библиотеку для управления веб-интерфейсом через естественный язык прямо в браузере. Это ключевое событие для AI automation: интеграция становится проще, расход токенов сокращается, а агент — часть продукта, а не внешний надстройка. Это меняет подход к автоматизации.

Технический контекст

Я полез в Alibaba Page-Agent сразу с практическим вопросом: это игрушка для демо или нормальная база под AI integration в продукт? Похоже, второе. Библиотека живёт прямо внутри страницы, понимает DOM как текст и выполняет команды вроде «заполни форму» или «нажми login» без Python, без headless-браузера и без отдельного бэкенда.

Вот здесь я и остановился. Обычно, когда мне приносят идею “давайте прикрутим агент к CRM или админке”, половина боли сидит не в модели, а в инфраструктуре вокруг браузерной автоматизации. У Page-Agent заход другой: один script tag для демо или npm-пакет для продакшена, дальше подключаешь свой LLM через OpenAI-compatible API.

По архитектуре ход умный. Вместо скриншотов и vision-моделей он гоняет текстовое представление DOM, поэтому задержка ниже, а расход токенов, по заявлениям проекта, может быть в 10-100 раз меньше. Для внутренних панелей, ERP, CRM и старых веб-мордов это очень сильная идея: агент видит структуру интерфейса, а не пытается угадывать пиксели.

Ещё понравилось, что авторы не забыли про тормоза безопасности. Есть human-in-the-loop панель подтверждения перед чувствительными действиями, а для многошаговых сценариев между вкладками дают Chrome extension. Плюс есть beta MCP Server, если хочется подключать внешний оркестратор, а не только встроенный UI-агент.

Лицензия MIT, репозиторий уже хорошо разогнан по звёздам, документация внятная. Из ограничений всё довольно земное: CORS, ключи, сетевые ошибки и то, насколько чисто размечен сам интерфейс. То есть магии нет, но и лишнего цирка тоже нет.

Влияние на бизнес и автоматизацию

Я вижу здесь три прямых эффекта. Первый: дешевле прототипировать AI automation внутри существующего веб-продукта, не поднимая отдельный зоопарк из Playwright, серверов и vision-обвязки. Второй: быстрее проверять гипотезы для саппорта, back-office и data-entry, где агенту надо не “думать о мире”, а просто уверенно тыкать в интерфейс.

Выиграют команды с тяжёлыми внутренними системами и legacy UI. Проиграют те, кто надеется, что one-liner magically заменит нормальную AI solution development: если процессы кривые, агент их только ускорит в кривом виде.

Я такие штуки обычно смотрю не как хайп, а как деталь архитектуры. Если у вас назрела автоматизация в CRM, портале или кабинете, можно спокойно разобрать workflow и понять, где Page-Agent подходит, а где лучше собрать другой контур. В Nahornyi AI Lab мы как раз делаем такие вещи руками: от идеи до рабочего AI automation, чтобы у команды уходило меньше времени на рутину, а у пользователей было меньше трения в интерфейсе.

Ранее мы рассказывали об атаках с использованием Unicode-гомоглифов, способных обмануть AI-агентов при открытии URL. Это критическая угроза для безопасности автономного серфинга, который выполняет Page Agent.

Поделиться статьёй