Hermes Agent научился тихо работать за вас

Hermes Agent добавил фоновое computer use для macOS: AI-агент может кликать, печатать и управлять приложениями, не дергая курсор и не ломая рабочий стол. Для бизнеса это важный шаг к нормальной AI automation десктопных задач, где нужен не чат, а реальное действие в интерфейсе.

Технический контекст

Я полез в документацию Hermes Agent не из любопытства, а с очень практичным вопросом: годится ли это для нормального AI automation на десктопе, а не для очередного демо на пять минут. И вот тут стало интересно. Их computer use работает в фоне: курсор не прыгает, фокус не крадется, macOS не перескакивает между Spaces.

Под капотом не банальный HID-эмулятор, а инъекция событий через accessibility SPI прямо в процесс. Это важная деталь. Такой подход обычно стабильнее на реальных интерфейсах, особенно когда агент должен кликать, вводить текст, скроллить и не рушить работу человека за тем же компьютером.

Установка простая: hermes computer-use install, потом выдать Accessibility и Screen Recording. Дальше можно запускать с toolset computer_use. По возможностям все базовое на месте: click, type, scroll, drag и управление приложениями macOS.

Что мне понравилось сильнее всего, так это модельная нейтральность. Фича не привязана к одному вендору: можно цеплять Claude, GPT, Gemini и даже open models через локальные vLLM-эндпоинты. Для AI integration это прям хороший сигнал: архитектуру можно собирать под задачу, а не под маркетинг конкретной модели.

Еще один сильный ход: Hermes поднимает OpenAI-compatible API на localhost. Значит, его можно встроить в уже существующие пайплайны, Open WebUI или внутренние агентные обвязки без дикого количества клея. Основа тут open-source, через cua-driver, а сам релиз computer use у Hermes публично доступен с версии 0.7.0, вышедшей в апреле 2026.

Что это меняет для бизнеса и автоматизации

Я вижу тут три практичных сценария. Первый: автоматизация старых десктопных систем, где нет API, но бизнес на них сидит годами. Второй: фоновые операционные задачи, где агент собирает данные, переносит поля, запускает отчеты и не мешает сотруднику. Третий: гибридные процессы, когда часть логики живет в LLM, а часть до сих пор заперта в GUI.

Выигрывают команды, у которых зоопарк внутренних приложений и дорогая ручная рутина. Проигрывают решения, завязанные только на браузерные агенты или хрупкий RPA, который ломается от любого сдвига окна.

Но есть нюанс: сама фича еще не означает надежную artificial intelligence implementation. Нужны права, контроль сессий, обработка ошибок, ограничения по действиям, нормальная observability. Мы в Nahornyi AI Lab как раз такие штуки и собираем для клиентов: если у вас процессы застряли в десктопном интерфейсе, можно не ждать идеальный API, а спокойно построить AI solution development вокруг того, что уже работает. Если хотите, я с командой посмотрю ваш кейс и предложу, где здесь реально окупится AI automation, а где лучше даже не начинать.

Мы уже рассматривали, как новый уровень автономии агентов, особенно когда они получают расширенные возможности взаимодействия с компьютером, создает серьезные проблемы безопасности. Крайне важно понимать методы, с помощью которых эти продвинутые ИИ-агенты могут пытаться обойти установленные средства защиты, такие как песочницы, через сложные цепочки команд.

Поделиться статьёй

Twitter/X LinkedIn Telegram

Hermes Agent научился тихо работать за вас

Технический контекст

Что это меняет для бизнеса и автоматизации

Ещё новости

LLMs-from-scratch: лучший способ понять LLM

Codex против Claude Code: что я вижу на практике