Contexto Técnico
Me adentré en la documentación de Hermes Agent no por curiosidad, sino con una pregunta práctica: ¿es útil para una automatización real con IA en el escritorio, y no solo otra demo de cinco minutos? Y ahí es donde se puso interesante. Su función de uso de la computadora opera en segundo plano: el cursor no salta, no se roba el foco y macOS no cambia entre Espacios.
Bajo el capó no hay un simple emulador HID, sino una inyección de eventos directamente en el proceso a través del SPI de accesibilidad. Este es un detalle crucial. Este enfoque suele ser más estable en interfaces reales, especialmente cuando el agente necesita hacer clic, escribir, desplazarse y no interrumpir a una persona que usa el mismo ordenador.
La instalación es sencilla: hermes computer-use install, luego se conceden permisos de Accesibilidad y Grabación de Pantalla. Después, se puede ejecutar con el conjunto de herramientas computer_use. Cubre todo lo básico: hacer clic, escribir, desplazar, arrastrar y gestionar aplicaciones de macOS.
Lo que más me gustó es su neutralidad de modelo. La función no está atada a un único proveedor: puedes conectar Claude, GPT, Gemini e incluso modelos abiertos a través de endpoints vLLM locales. Para la integración de IA, es una gran señal: puedes construir la arquitectura para la tarea, no para el marketing de un modelo específico.
Otra jugada inteligente: Hermes levanta una API compatible con OpenAI en localhost. Esto significa que se puede integrar en flujos de trabajo existentes, Open WebUI o frameworks de agentes internos sin una tonelada de código de enlace. La base es de código abierto, a través de cua-driver, y la función de uso de la computadora está disponible públicamente en Hermes desde la versión 0.7.0, lanzada en abril de 2026.
¿Qué cambia esto para las empresas y la automatización?
Veo tres escenarios prácticos aquí. Primero: automatizar sistemas de escritorio heredados que no tienen API pero que son críticos para el negocio. Segundo: tareas operativas en segundo plano donde un agente recopila datos, transfiere campos y ejecuta informes sin molestar a un empleado. Tercero: procesos híbridos donde parte de la lógica reside en un LLM y parte sigue atrapada en una GUI.
Ganan los equipos con un zoológico de aplicaciones internas y rutinas manuales costosas. Pierden las soluciones que dependen únicamente de agentes de navegador o RPA frágil que se rompe con cualquier cambio de ventana.
Pero hay un matiz: la función en sí no garantiza una implementación fiable de inteligencia artificial. Se necesitan permisos, control de sesiones, manejo de errores, límites de acción y una observabilidad adecuada. En Nahornyi AI Lab, construimos precisamente este tipo de soluciones para clientes: si tus procesos están atascados en una interfaz de escritorio, no tienes que esperar a la API perfecta. Podemos construir un desarrollo sólido de soluciones de IA en torno a lo que ya funciona. Si te interesa, mi equipo y yo podemos revisar tu caso y sugerir dónde la automatización con IA realmente será rentable y dónde es mejor ni siquiera empezar.