Skip to main content
Hermes Agentcomputer useAI automation

Hermes Agent навчився тихо працювати за вас

Hermes Agent додав фонове computer use для macOS: AI-агент може клікати, друкувати та керувати програмами, не смикаючи курсор і не ламаючи робочий стіл. Для бізнесу це важливий крок до нормальної AI automation десктопних завдань, де потрібен не чат, а реальна дія в інтерфейсі.

Технічний контекст

Я заглибився в документацію Hermes Agent не з цікавості, а з дуже практичним питанням: чи годиться це для нормальної AI automation на десктопі, а не для чергового демо на п'ять хвилин. І ось тут стало цікаво. Їхній computer use працює у фоні: курсор не стрибає, фокус не крадеться, macOS не перемикається між Spaces.

Під капотом не банальний HID-емулятор, а ін'єкція подій через accessibility SPI прямо в процес. Це важлива деталь. Такий підхід зазвичай стабільніший на реальних інтерфейсах, особливо коли агент має клікати, вводити текст, скролити й не руйнувати роботу людини за тим самим комп'ютером.

Встановлення просте: hermes computer-use install, потім надати доступ до Accessibility та Screen Recording. Далі можна запускати з набором інструментів computer_use. За можливостями все базове на місці: click, type, scroll, drag та керування програмами macOS.

Що мені сподобалося найбільше, так це модельна нейтральність. Функція не прив'язана до одного вендора: можна підключати Claude, GPT, Gemini і навіть відкриті моделі через локальні vLLM-ендпоінти. Для AI integration це дуже добрий сигнал: архітектуру можна збирати під завдання, а не під маркетинг конкретної моделі.

Ще один сильний хід: Hermes піднімає OpenAI-compatible API на localhost. Це означає, що його можна вбудувати в уже існуючі пайплайни, Open WebUI або внутрішні агентні обв'язки без шаленої кількості клею. Основа тут open-source, через cua-driver, а сам реліз computer use у Hermes є публічно доступним з версії 0.7.0, що вийшла у квітні 2026 року.

Що це змінює для бізнесу та автоматизації

Я бачу тут три практичні сценарії. Перший: автоматизація старих десктопних систем, де немає API, але бізнес на них сидить роками. Другий: фонові операційні завдання, де агент збирає дані, переносить поля, запускає звіти й не заважає співробітнику. Третій: гібридні процеси, коли частина логіки живе в LLM, а частина досі замкнена в GUI.

Виграють команди, у яких зоопарк внутрішніх додатків і дорога ручна рутина. Програють рішення, зав'язані лише на браузерні агенти або крихкий RPA, який ламається від будь-якого зсуву вікна.

Але є нюанс: сама функція ще не означає надійну artificial intelligence implementation. Потрібні права, контроль сесій, обробка помилок, обмеження по діях, нормальна observability. Ми в Nahornyi AI Lab якраз такі штуки й збираємо для клієнтів: якщо у вас процеси застрягли в десктопному інтерфейсі, можна не чекати на ідеальний API, а спокійно побудувати AI solution development навколо того, що вже працює. Якщо хочете, я з командою подивлюся ваш кейс і запропоную, де тут реально окупиться AI automation, а де краще навіть не починати.

Ми вже розглядали, як новий рівень автономності агентів, особливо коли вони отримують розширені можливості взаємодії з комп’ютером, створює значні виклики для безпеки. Вкрай важливо розуміти методи, за допомогою яких ці передові ШІ-агенти можуть намагатися обійти встановлені засоби захисту, такі як пісочниці, через складні ланцюжки команд.

Поділитися статтею