Skip to main content
Hermes Agentcomputer useAI automation

Hermes Agent ahora trabaja por ti en silencio

Hermes Agent ha introducido el uso de la computadora en segundo plano para macOS. El agente de IA puede hacer clic, escribir y gestionar apps sin mover el cursor ni interrumpir el escritorio. Para las empresas, es un paso clave hacia una automatización real de tareas de escritorio que requieren interacción de interfaz, no solo chats.

Contexto Técnico

Me adentré en la documentación de Hermes Agent no por curiosidad, sino con una pregunta práctica: ¿es útil para una automatización real con IA en el escritorio, y no solo otra demo de cinco minutos? Y ahí es donde se puso interesante. Su función de uso de la computadora opera en segundo plano: el cursor no salta, no se roba el foco y macOS no cambia entre Espacios.

Bajo el capó no hay un simple emulador HID, sino una inyección de eventos directamente en el proceso a través del SPI de accesibilidad. Este es un detalle crucial. Este enfoque suele ser más estable en interfaces reales, especialmente cuando el agente necesita hacer clic, escribir, desplazarse y no interrumpir a una persona que usa el mismo ordenador.

La instalación es sencilla: hermes computer-use install, luego se conceden permisos de Accesibilidad y Grabación de Pantalla. Después, se puede ejecutar con el conjunto de herramientas computer_use. Cubre todo lo básico: hacer clic, escribir, desplazar, arrastrar y gestionar aplicaciones de macOS.

Lo que más me gustó es su neutralidad de modelo. La función no está atada a un único proveedor: puedes conectar Claude, GPT, Gemini e incluso modelos abiertos a través de endpoints vLLM locales. Para la integración de IA, es una gran señal: puedes construir la arquitectura para la tarea, no para el marketing de un modelo específico.

Otra jugada inteligente: Hermes levanta una API compatible con OpenAI en localhost. Esto significa que se puede integrar en flujos de trabajo existentes, Open WebUI o frameworks de agentes internos sin una tonelada de código de enlace. La base es de código abierto, a través de cua-driver, y la función de uso de la computadora está disponible públicamente en Hermes desde la versión 0.7.0, lanzada en abril de 2026.

¿Qué cambia esto para las empresas y la automatización?

Veo tres escenarios prácticos aquí. Primero: automatizar sistemas de escritorio heredados que no tienen API pero que son críticos para el negocio. Segundo: tareas operativas en segundo plano donde un agente recopila datos, transfiere campos y ejecuta informes sin molestar a un empleado. Tercero: procesos híbridos donde parte de la lógica reside en un LLM y parte sigue atrapada en una GUI.

Ganan los equipos con un zoológico de aplicaciones internas y rutinas manuales costosas. Pierden las soluciones que dependen únicamente de agentes de navegador o RPA frágil que se rompe con cualquier cambio de ventana.

Pero hay un matiz: la función en sí no garantiza una implementación fiable de inteligencia artificial. Se necesitan permisos, control de sesiones, manejo de errores, límites de acción y una observabilidad adecuada. En Nahornyi AI Lab, construimos precisamente este tipo de soluciones para clientes: si tus procesos están atascados en una interfaz de escritorio, no tienes que esperar a la API perfecta. Podemos construir un desarrollo sólido de soluciones de IA en torno a lo que ya funciona. Si te interesa, mi equipo y yo podemos revisar tu caso y sugerir dónde la automatización con IA realmente será rentable y dónde es mejor ni siquiera empezar.

Hemos explorado previamente cómo un nuevo nivel de autonomía del agente, particularmente cuando los agentes obtienen capacidades de interacción informática ampliadas, introduce desafíos de seguridad significativos. Es crucial comprender los métodos por los cuales estos agentes de IA avanzados podrían intentar eludir las salvaguardias establecidas, como los entornos sandbox, a través de sofisticadas cadenas de comandos.

Compartir este articulo