Skip to main content
macOSspeech-to-textAI automation

handy-companion ускоряет диктовку на macOS

Появился handy-companion, маленькая надстройка для диктовки на macOS: берет офлайн STT, чистит сырой текст через Gemini Flash Lite или Claude Sonnet и вставляет его в активное приложение. Для AI automation это интересный паттерн: дешевый голосовой ввод без ручной правки после каждого абзаца.

Технический контекст

Я люблю такие штуки: не очередной «AI-комбайн», а узкий инструмент, который реально убирает трение из повседневной работы. Здесь идея простая и здравая: офлайн-распознавание речи на Mac, потом легкая AI integration для очистки текста, и сразу вставка в текущее приложение.

Схема такая: Handy дает сырой транскрипт, а handy-companion прогоняет его через Gemini Flash Lite на бесплатном тире. На выходе текст уже без «эээ», с пунктуацией и с меньшим количеством диких ошибок в терминах. Для более тяжелого режима автор еще добавил маршрут через Claude CLI и Sonnet.

Мне отдельно понравилось, что режимы разделены по задаче, а не по «магии». Option+Space это обычная диктовка, двойной Ctrl это уже правка под письмо или пост, тройной Ctrl это фактически publication-grade обработка. Такой UX я встречаю редко: видно, что человек делал под свою реальную нагрузку.

Есть, правда, важная оговорка. По доступным данным сам Handy как популярный open-source STT для macOS с 21k звезд у меня не верифицируется, так что к этим цифрам я бы относился осторожно. Но сама архитектура инструмента от этого не ломается: локальное STT плюс облачная дочистка текста это рабочая связка.

Еще один практичный момент: хоткеи меняются не в companion, а в настройках Handy. Автор уже дописал это в README после фидбека, и это хороший знак. Значит, проект живой и не брошен сразу после пуша.

Что это меняет для бизнеса и автоматизации

Если я смотрю на это как на AI implementation, то вижу не «диктовалку», а дешевый вход в голосовые рабочие процессы. Продажник, фаундер, врач, юрист, кто угодно, кто думает голосом быстрее, чем печатает, получает заметную экономию времени без дорогой инфраструктуры.

Выигрывают команды, которым нужен быстрый текст из речи: заметки, письма, черновики постов, CRM-комментарии. Проигрывают только те сценарии, где критична полная локальность данных, потому что постобработка уходит в Gemini или Claude.

Я бы еще не ставил такое в чувствительные процессы без проверки промптов, логирования и правил по данным. Как раз на этом месте обычно и начинается нормальная AI architecture, а не демо ради демо. Мы в Nahornyi AI Lab такие связки регулярно собираем для клиентов: от голосового ввода до полной automation with AI в CRM, саппорте и внутренних системах.

Если у вас команда тонет в голосовых сообщениях, созвонах и черновиках, это уже не мелкая боль, а готовая точка для автоматизации. Можем спокойно посмотреть ваш процесс и в Nahornyi AI Lab собрать AI solution development под него: без лишнего шума, зато с понятной экономией времени и нормальным качеством текста.

Оценивая, как ИИ обрабатывает устную речь, мы также подробно рассмотрели различные инструменты для создания ИИ-сводки встреч, включая Gemini. Это дает еще один взгляд на практическое применение больших языковых моделей для обработки и улучшения устной коммуникации.

Поделиться статьёй