Skip to main content
macOSspeech-to-textAI automation

handy-companion прискорює диктування на macOS

З'явився handy-companion, невеликий додаток для диктування на macOS: він бере офлайн-транскрипцію, очищує сирий текст через Gemini Flash Lite або Claude Sonnet і вставляє його в активну програму. Для AI-автоматизації це цікавий патерн: дешеве голосове введення без ручного редагування після кожного абзацу.

Технічний контекст

Я люблю такі речі: не черговий «AI-комбайн», а вузькоспеціалізований інструмент, який реально прибирає тертя з повсякденної роботи. Ідея тут проста і слушна: офлайн-розпізнавання мовлення на Mac, потім легка AI-інтеграція для очищення тексту і відразу вставка в поточний застосунок.

Схема така: Handy видає сиру транскрипцію, а handy-companion проганяє її через Gemini Flash Lite на безкоштовному тарифі. На виході текст уже без «еее», з пунктуацією та з меншою кількістю грубих помилок у термінах. Для складніших завдань автор також додав маршрут через Claude CLI та Sonnet.

Мені особливо сподобалося, що режими розділені за завданням, а не за «магією». Option+Space — це звичайне диктування, подвійний Ctrl — це вже правка для листа чи поста, потрійний Ctrl — це фактично обробка для публікації. Такий UX я зустрічаю рідко: видно, що людина робила під своє реальне навантаження.

Щоправда, є важливе застереження. За наявними даними, я не зміг верифікувати популярність Handy як open-source STT для macOS із 21 тисячею зірок, тож до цих цифр я б ставився обережно. Але сама архітектура інструмента від цього не ламається: локальний STT плюс хмарна дочистка тексту — це робоча зв'язка.

Ще один практичний момент: гарячі клавіші змінюються не в companion, а в налаштуваннях Handy. Автор уже додав це в README після фідбеку, і це хороший знак. Отже, проєкт живий і його не покинули відразу після релізу.

Що це змінює для бізнесу та автоматизації

Якщо я дивлюся на це як на AI-імплементацію, то бачу не «диктувалку», а дешевий вхід у голосові робочі процеси. Продавець, засновник, лікар, юрист — будь-хто, хто думає голосом швидше, ніж друкує, отримує помітну економію часу без дорогої інфраструктури.

Виграють команди, яким потрібен швидкий текст із мовлення: нотатки, листи, чернетки постів, коментарі в CRM. Програють лише ті сценарії, де критична повна локальність даних, оскільки постобробка йде в Gemini або Claude.

Я б не впроваджував таке в чутливі процеси без перевірки промптів, логування та правил поводження з даними. Саме на цьому етапі зазвичай і починається нормальна AI-архітектура, а не демо заради демо. Ми в Nahornyi AI Lab регулярно збираємо такі зв'язки для клієнтів: від голосового введення до повної автоматизації з AI в CRM, підтримці та внутрішніх системах.

Якщо ваша команда потопає в голосових повідомленнях, дзвінках і чернетках, це вже не дрібний біль, а готова точка для автоматизації. Ми в Nahornyi AI Lab можемо спокійно проаналізувати ваш процес і розробити під нього AI-рішення: без зайвого галасу, зате зі зрозумілою економією часу та нормальною якістю тексту.

Оцінюючи, як ШІ обробляє усний контент, ми також детально розглянули різні інструменти для створення резюме зустрічей за допомогою ШІ, зокрема Gemini. Це дає інший погляд на практичне застосування великих мовних моделей для обробки та покращення вербальної комунікації.

Поділитися статтею