Technischer Kontext
Ich liebe solche Tools: kein weiterer „KI-Alleskönner“, sondern ein fokussiertes Werkzeug, das die Reibung bei der täglichen Arbeit wirklich reduziert. Die Idee hier ist einfach und solide: Offline-Spracherkennung auf dem Mac, gefolgt von einer leichten KI-Integration zur Textbereinigung und sofortigem Einfügen in die aktuelle Anwendung.
Der Prozess ist unkompliziert: Handy liefert ein rohes Transkript, und handy-companion jagt es durch Gemini Flash Lite im kostenlosen Tarif. Das Ergebnis ist ein Text ohne Füllwörter wie „äh“, mit korrekter Zeichensetzung und weniger groben Fehlern in der Terminologie. Für anspruchsvollere Aufgaben hat der Entwickler auch eine Route über die Claude CLI und Sonnet hinzugefügt.
Besonders gefällt mir, dass die Modi nach Aufgabe und nicht nach „Magie“ unterteilt sind. Option+Leertaste ist für das Standarddiktat, doppeltes Strg für die Bearbeitung einer E-Mail oder eines Beitrags und dreifaches Strg im Grunde für eine publikationsreife Verarbeitung. Eine so durchdachte UX sehe ich selten; es ist klar, dass dies für eine reale Arbeitslast entwickelt wurde.
Es gibt jedoch einen wichtigen Vorbehalt. Basierend auf den verfügbaren Daten konnte ich die Popularität von Handy als Open-Source-STT für macOS mit 21k Sternen nicht verifizieren, daher würde ich diese Zahlen mit Vorsicht genießen. Die Architektur des Tools wird dadurch aber nicht beeinträchtigt: lokale STT plus cloud-basierte Textbereinigung ist eine funktionierende Kombination.
Ein weiterer praktischer Punkt: Hotkeys werden in den Handy-Einstellungen geändert, nicht in der Companion-App. Der Autor hat dies nach Feedback bereits in der README ergänzt, was ein gutes Zeichen ist. Es bedeutet, das Projekt lebt und wurde nicht direkt nach dem ersten Push aufgegeben.
Was dies für Unternehmen und Automatisierung bedeutet
Wenn ich dies als KI-Implementierung betrachte, sehe ich nicht nur ein „Diktier-Tool“, sondern einen erschwinglichen Einstieg in sprachgesteuerte Arbeitsabläufe. Ein Verkäufer, Gründer, Arzt, Anwalt – jeder, der schneller denkt als tippt – spart erheblich Zeit ohne teure Infrastruktur.
Teams, die schnell Text aus Sprache benötigen, profitieren am meisten: Notizen, E-Mails, Beitragsentwürfe, CRM-Kommentare. Die einzigen Verlierer sind Szenarien, in denen die vollständige Datenlokalität entscheidend ist, da die Nachbearbeitung an Gemini oder Claude gesendet wird.
Ich würde dies nicht in sensiblen Prozessen einsetzen, ohne zuerst die Prompts zu überprüfen, Protokollierung einzurichten und Regeln zur Datenverwaltung festzulegen. An diesem Punkt beginnt normalerweise eine richtige KI-Architektur, die über einen einfachen Proof-of-Concept hinausgeht. Bei Nahornyi AI Lab erstellen wir regelmäßig solche Integrationen für Kunden, von der Spracheingabe bis zur vollständigen Automatisierung mit KI in CRM, Support und internen Systemen.
Wenn Ihr Team in Sprachnachrichten, Anrufen und Entwürfen ertrinkt, ist das kein kleines Ärgernis, sondern eine erstklassige Gelegenheit zur Automatisierung. Bei Nahornyi AI Lab können wir Ihren Prozess analysieren und eine maßgeschneiderte KI-Lösung dafür entwickeln – ohne unnötigen Hype, dafür mit spürbarer Zeitersparnis und hoher Textqualität.