Skip to main content
Hermes Agentcomputer useAI automation

Hermes Agent a appris à travailler pour vous en silence

Hermes Agent a introduit l'utilisation de l'ordinateur en arrière-plan sur macOS, permettant à l'agent IA de cliquer, taper et gérer des apps sans déplacer le curseur ni perturber le bureau. Pour les entreprises, c'est une étape majeure vers une automatisation IA viable des tâches de bureau nécessitant une réelle interaction d'interface.

Contexte Technique

J'ai exploré la documentation de Hermes Agent non par curiosité, mais avec une question pratique : est-ce adapté à une véritable automatisation par IA sur ordinateur, et non à une simple démo de cinq minutes ? C'est là que ça devient intéressant. Leur fonction d'utilisation de l'ordinateur opère en arrière-plan : le curseur ne saute pas, le focus n'est pas volé et macOS ne bascule pas entre les Spaces.

Sous le capot, il ne s'agit pas d'un simple émulateur HID, mais d'une injection d'événements directement dans le processus via le SPI d'accessibilité. C'est un détail crucial. Cette approche est généralement plus stable sur les interfaces réelles, surtout quand l'agent doit cliquer, taper, faire défiler et ne pas perturber un humain utilisant le même ordinateur.

L'installation est simple : hermes computer-use install, puis accordez les autorisations d'Accessibilité et d'Enregistrement de l'écran. Ensuite, vous pouvez le lancer avec le jeu d'outils computer_use. Il couvre toutes les bases : cliquer, taper, faire défiler, glisser et gérer les applications macOS.

Ce qui m'a le plus plu, c'est sa neutralité de modèle. La fonctionnalité n'est pas liée à un seul fournisseur : vous pouvez connecter Claude, GPT, Gemini et même des modèles open source via des points de terminaison vLLM locaux. Pour l'intégration de l'IA, c'est un excellent signe : l'architecture peut être construite pour la tâche, pas pour le marketing d'un modèle spécifique.

Autre coup de maître : Hermes exécute une API compatible OpenAI sur localhost. Cela signifie qu'il peut être intégré dans des pipelines existants, Open WebUI ou des frameworks d'agents internes sans une tonne de code de liaison. La base est open-source, via cua-driver, et la fonctionnalité d'utilisation de l'ordinateur elle-même est publiquement disponible dans Hermes depuis la version 0.7.0, sortie en avril 2026.

Ce que cela change pour l'entreprise et l'automatisation

Je vois trois scénarios pratiques ici. Premièrement : l'automatisation d'anciens systèmes de bureau qui n'ont pas d'API mais qui sont essentiels à l'entreprise. Deuxièmement : des tâches opérationnelles en arrière-plan où un agent collecte des données, transfère des champs et exécute des rapports sans déranger un employé. Troisièmement : des processus hybrides où une partie de la logique réside dans un LLM, et une autre est encore verrouillée dans une GUI.

Les gagnants sont les équipes avec un parc hétérogène d'applications internes et des routines manuelles coûteuses. Les perdants sont les solutions limitées aux agents de navigateur ou au RPA fragile qui se casse au moindre déplacement de fenêtre.

Mais il y a un hic : la fonctionnalité seule ne garantit pas une implémentation fiable de l'intelligence artificielle. Il faut des autorisations, un contrôle de session, une gestion des erreurs, des limites d'action et une observabilité adéquate. Chez Nahornyi AI Lab, nous construisons exactement ce genre de solutions pour nos clients : si vos processus sont coincés dans une interface de bureau, vous n'avez pas à attendre l'API parfaite. Nous pouvons construire une solution de développement IA solide autour de ce qui fonctionne déjà. Si vous êtes intéressé, mon équipe et moi pouvons examiner votre cas et suggérer où l'automatisation par IA sera vraiment rentable, et où il vaut mieux ne même pas commencer.

Nous avons précédemment exploré comment un nouveau niveau d'autonomie des agents, en particulier lorsqu'ils acquièrent des capacités d'interaction informatique étendues, introduit des défis de sécurité importants. Il est crucial de comprendre les méthodes par lesquelles ces agents IA avancés pourraient tenter de contourner les protections établies, telles que les environnements sandbox, via des enchaînements de commandes sophistiqués.

Partager cet article