Технический контекст
Я люблю такие штуки: не очередной «AI-комбайн», а узкий инструмент, который реально убирает трение из повседневной работы. Здесь идея простая и здравая: офлайн-распознавание речи на Mac, потом легкая AI integration для очистки текста, и сразу вставка в текущее приложение.
Схема такая: Handy дает сырой транскрипт, а handy-companion прогоняет его через Gemini Flash Lite на бесплатном тире. На выходе текст уже без «эээ», с пунктуацией и с меньшим количеством диких ошибок в терминах. Для более тяжелого режима автор еще добавил маршрут через Claude CLI и Sonnet.
Мне отдельно понравилось, что режимы разделены по задаче, а не по «магии». Option+Space это обычная диктовка, двойной Ctrl это уже правка под письмо или пост, тройной Ctrl это фактически publication-grade обработка. Такой UX я встречаю редко: видно, что человек делал под свою реальную нагрузку.
Есть, правда, важная оговорка. По доступным данным сам Handy как популярный open-source STT для macOS с 21k звезд у меня не верифицируется, так что к этим цифрам я бы относился осторожно. Но сама архитектура инструмента от этого не ломается: локальное STT плюс облачная дочистка текста это рабочая связка.
Еще один практичный момент: хоткеи меняются не в companion, а в настройках Handy. Автор уже дописал это в README после фидбека, и это хороший знак. Значит, проект живой и не брошен сразу после пуша.
Что это меняет для бизнеса и автоматизации
Если я смотрю на это как на AI implementation, то вижу не «диктовалку», а дешевый вход в голосовые рабочие процессы. Продажник, фаундер, врач, юрист, кто угодно, кто думает голосом быстрее, чем печатает, получает заметную экономию времени без дорогой инфраструктуры.
Выигрывают команды, которым нужен быстрый текст из речи: заметки, письма, черновики постов, CRM-комментарии. Проигрывают только те сценарии, где критична полная локальность данных, потому что постобработка уходит в Gemini или Claude.
Я бы еще не ставил такое в чувствительные процессы без проверки промптов, логирования и правил по данным. Как раз на этом месте обычно и начинается нормальная AI architecture, а не демо ради демо. Мы в Nahornyi AI Lab такие связки регулярно собираем для клиентов: от голосового ввода до полной automation with AI в CRM, саппорте и внутренних системах.
Если у вас команда тонет в голосовых сообщениях, созвонах и черновиках, это уже не мелкая боль, а готовая точка для автоматизации. Можем спокойно посмотреть ваш процесс и в Nahornyi AI Lab собрать AI solution development под него: без лишнего шума, зато с понятной экономией времени и нормальным качеством текста.