Технический контекст
Я полез в документацию Hermes Agent не из любопытства, а с очень практичным вопросом: годится ли это для нормального AI automation на десктопе, а не для очередного демо на пять минут. И вот тут стало интересно. Их computer use работает в фоне: курсор не прыгает, фокус не крадется, macOS не перескакивает между Spaces.
Под капотом не банальный HID-эмулятор, а инъекция событий через accessibility SPI прямо в процесс. Это важная деталь. Такой подход обычно стабильнее на реальных интерфейсах, особенно когда агент должен кликать, вводить текст, скроллить и не рушить работу человека за тем же компьютером.
Установка простая: hermes computer-use install, потом выдать Accessibility и Screen Recording. Дальше можно запускать с toolset computer_use. По возможностям все базовое на месте: click, type, scroll, drag и управление приложениями macOS.
Что мне понравилось сильнее всего, так это модельная нейтральность. Фича не привязана к одному вендору: можно цеплять Claude, GPT, Gemini и даже open models через локальные vLLM-эндпоинты. Для AI integration это прям хороший сигнал: архитектуру можно собирать под задачу, а не под маркетинг конкретной модели.
Еще один сильный ход: Hermes поднимает OpenAI-compatible API на localhost. Значит, его можно встроить в уже существующие пайплайны, Open WebUI или внутренние агентные обвязки без дикого количества клея. Основа тут open-source, через cua-driver, а сам релиз computer use у Hermes публично доступен с версии 0.7.0, вышедшей в апреле 2026.
Что это меняет для бизнеса и автоматизации
Я вижу тут три практичных сценария. Первый: автоматизация старых десктопных систем, где нет API, но бизнес на них сидит годами. Второй: фоновые операционные задачи, где агент собирает данные, переносит поля, запускает отчеты и не мешает сотруднику. Третий: гибридные процессы, когда часть логики живет в LLM, а часть до сих пор заперта в GUI.
Выигрывают команды, у которых зоопарк внутренних приложений и дорогая ручная рутина. Проигрывают решения, завязанные только на браузерные агенты или хрупкий RPA, который ломается от любого сдвига окна.
Но есть нюанс: сама фича еще не означает надежную artificial intelligence implementation. Нужны права, контроль сессий, обработка ошибок, ограничения по действиям, нормальная observability. Мы в Nahornyi AI Lab как раз такие штуки и собираем для клиентов: если у вас процессы застряли в десктопном интерфейсе, можно не ждать идеальный API, а спокойно построить AI solution development вокруг того, что уже работает. Если хотите, я с командой посмотрю ваш кейс и предложу, где здесь реально окупится AI automation, а где лучше даже не начинать.