Technischer Kontext
Ich habe mich nicht aus Neugier in die Dokumentation von Hermes Agent vertieft, sondern mit einer praktischen Frage: Eignet es sich für echte KI-Automatisierung auf dem Desktop und nicht nur für eine weitere Fünf-Minuten-Demo? Und da wurde es interessant. Ihre Computernutzungsfunktion arbeitet im Hintergrund: Der Cursor springt nicht, der Fokus wird nicht gestohlen und macOS wechselt nicht zwischen den Spaces.
Unter der Haube steckt kein einfacher HID-Emulator, sondern die Injektion von Ereignissen direkt in den Prozess über die Accessibility SPI. Das ist ein entscheidendes Detail. Dieser Ansatz ist auf realen Oberflächen in der Regel stabiler, insbesondere wenn der Agent klicken, tippen, scrollen muss und die Arbeit eines Menschen am selben Computer nicht stören darf.
Die Installation ist einfach: hermes computer-use install, dann die Berechtigungen für Bedienungshilfen und Bildschirmaufnahme erteilen. Danach kann es mit dem computer_use-Toolset gestartet werden. Es deckt alle Grundlagen ab: Klicken, Tippen, Scrollen, Ziehen und die Verwaltung von macOS-Anwendungen.
Was mir am besten gefallen hat, ist die Modellneutralität. Die Funktion ist nicht an einen Anbieter gebunden: Man kann Claude, GPT, Gemini und sogar offene Modelle über lokale vLLM-Endpunkte anbinden. Für die KI-Integration ist das ein sehr gutes Zeichen: Die Architektur kann für die Aufgabe gebaut werden, nicht für das Marketing eines bestimmten Modells.
Ein weiterer kluger Schachzug: Hermes stellt eine OpenAI-kompatible API auf localhost bereit. Das bedeutet, dass es in bestehende Pipelines, Open WebUI oder interne Agenten-Frameworks ohne viel Klebstoffcode integriert werden kann. Die Basis ist Open-Source, über den cua-driver, und das Computernutzungs-Feature selbst ist bei Hermes seit Version 0.7.0, die im April 2026 veröffentlicht wurde, öffentlich verfügbar.
Was bedeutet das für Unternehmen und Automatisierung?
Ich sehe hier drei praktische Szenarien. Erstens: die Automatisierung von alten Desktop-Systemen, die keine API haben, aber für das Geschäft entscheidend sind. Zweitens: operative Hintergrundaufgaben, bei denen ein Agent Daten sammelt, Felder überträgt und Berichte ausführt, ohne einen Mitarbeiter zu stören. Drittens: hybride Prozesse, bei denen ein Teil der Logik in einer LLM lebt und ein Teil noch in einer GUI gefangen ist.
Gewinner sind Teams mit einem Zoo interner Anwendungen und teuren manuellen Routinen. Verlierer sind Lösungen, die nur an Browser-Agenten oder fragile RPA gebunden sind, die bei jeder Fensterverschiebung kaputt geht.
Aber es gibt einen Haken: Das Feature allein garantiert keine zuverlässige Implementierung künstlicher Intelligenz. Man braucht Berechtigungen, Sitzungskontrolle, Fehlerbehandlung, Aktionsbeschränkungen und eine gute Observability. Bei Nahornyi AI Lab bauen wir genau solche Dinge für Kunden: Wenn Ihre Prozesse in einer Desktop-Oberfläche feststecken, müssen Sie nicht auf die perfekte API warten. Wir können eine solide KI-Lösungsentwicklung um das herum aufbauen, was bereits funktioniert. Wenn Sie möchten, können mein Team und ich Ihren Fall prüfen und vorschlagen, wo sich KI-Automatisierung wirklich auszahlt und wo man besser gar nicht erst anfangen sollte.