Технічний контекст
Я люблю такі речі: не черговий «AI-комбайн», а вузькоспеціалізований інструмент, який реально прибирає тертя з повсякденної роботи. Ідея тут проста і слушна: офлайн-розпізнавання мовлення на Mac, потім легка AI-інтеграція для очищення тексту і відразу вставка в поточний застосунок.
Схема така: Handy видає сиру транскрипцію, а handy-companion проганяє її через Gemini Flash Lite на безкоштовному тарифі. На виході текст уже без «еее», з пунктуацією та з меншою кількістю грубих помилок у термінах. Для складніших завдань автор також додав маршрут через Claude CLI та Sonnet.
Мені особливо сподобалося, що режими розділені за завданням, а не за «магією». Option+Space — це звичайне диктування, подвійний Ctrl — це вже правка для листа чи поста, потрійний Ctrl — це фактично обробка для публікації. Такий UX я зустрічаю рідко: видно, що людина робила під своє реальне навантаження.
Щоправда, є важливе застереження. За наявними даними, я не зміг верифікувати популярність Handy як open-source STT для macOS із 21 тисячею зірок, тож до цих цифр я б ставився обережно. Але сама архітектура інструмента від цього не ламається: локальний STT плюс хмарна дочистка тексту — це робоча зв'язка.
Ще один практичний момент: гарячі клавіші змінюються не в companion, а в налаштуваннях Handy. Автор уже додав це в README після фідбеку, і це хороший знак. Отже, проєкт живий і його не покинули відразу після релізу.
Що це змінює для бізнесу та автоматизації
Якщо я дивлюся на це як на AI-імплементацію, то бачу не «диктувалку», а дешевий вхід у голосові робочі процеси. Продавець, засновник, лікар, юрист — будь-хто, хто думає голосом швидше, ніж друкує, отримує помітну економію часу без дорогої інфраструктури.
Виграють команди, яким потрібен швидкий текст із мовлення: нотатки, листи, чернетки постів, коментарі в CRM. Програють лише ті сценарії, де критична повна локальність даних, оскільки постобробка йде в Gemini або Claude.
Я б не впроваджував таке в чутливі процеси без перевірки промптів, логування та правил поводження з даними. Саме на цьому етапі зазвичай і починається нормальна AI-архітектура, а не демо заради демо. Ми в Nahornyi AI Lab регулярно збираємо такі зв'язки для клієнтів: від голосового введення до повної автоматизації з AI в CRM, підтримці та внутрішніх системах.
Якщо ваша команда потопає в голосових повідомленнях, дзвінках і чернетках, це вже не дрібний біль, а готова точка для автоматизації. Ми в Nahornyi AI Lab можемо спокійно проаналізувати ваш процес і розробити під нього AI-рішення: без зайвого галасу, зате зі зрозумілою економією часу та нормальною якістю тексту.