Проблема «последней мили» в AI-автоматизации
Дискуссии в профильных сообществах подтверждают: создание агента, который действительно может управлять браузером, остается нетривиальной инженерной задачей. Основной камень преткновения — не генерация кода, а надежность исполнения действий (click, type, scroll) на нагруженных JavaScript сайтах.
Ключевой кейс, вызвавший споры — автоматизация поиска билетов на Google Flights. Это классический пример «враждебной» для ботов среды: динамический Shadow DOM, сложные тайминги подгрузки и активная защита от скрапинга.
Технический разбор стека: претенденты 2026 года
На текущий момент архитекторы выбирают между тремя подходами к браузерной автоматизации:
- OpenClaw: Использует нативную интеграцию с CDP. Главная фишка — «умные снэпшоты» (Smart Snapshots), которые нумеруют интерактивные элементы для LLM. Заявлена работа на «скорости машины», но пользователи отмечают проблемы с логикой сложных сценариев из коробки.
- Vercel agent-browser: Решение, ориентированное на бессерверную инфраструктуру. Часто работает стабильнее для простых задач, но имеет ограничения по времени выполнения (timeout) в edge-функциях.
- Chrome DevTool MCP (Model Context Protocol): Новый стандарт взаимодействия. Позволяет подключать браузер как инструмент (Tool) к LLM, давая модели прямой доступ к отладке и управлению. Это снижает уровень абстракции, но требует более компетентной модели.
Влияние на бизнес-архитектуру
Выбор инструмента определяет стоимость поддержки решения (Total Cost of Ownership). Использование OpenClaw обещает быстрый старт (Low Code подход для агентов), но, как показывают отзывы, может потребовать создания «костылей» для обработки динамического контента.
С другой стороны, использование чистого CDP (через Puppeteer или Playwright) в связке с мощными моделями (вроде Claude 3.7 или GPT-5) дает полный контроль над `waitForSelector` и состоянием гонки (race conditions), что критично для SLA в enterprise-секторе.
Мнение эксперта: Vadym Nahornyi
Абстракции текут. Это закон программной инженерии, и AI-агенты не исключение. Восторг от обновлений OpenClaw («Новый уровень!») понятен — инструмент развивается. Однако, для mission-critical задач я рекомендую гибридный подход.
Не стоит полагаться на одну «волшебную таблетку». Если ваш бизнес-процесс зависит от внешнего сайта (например, логистика или мониторинг цен):
- Используйте MCP для этапа разработки и отладки сценариев (human-in-the-loop).
- Для продакшна пишите жесткие сценарии на Playwright/Puppeteer, где AI управляет только логикой ветвления, а не поиском селекторов в реальном времени.
- Относитесь к браузерным агентам как к сервису с вероятностным результатом, закладывая механизмы повторных попыток (retry policy) на уровне архитектуры.
Будущее не за тем инструментом, который лучше «кликает», а за тем, который предоставляет лучшую наблюдаемость (observability) процесса для инженера.