Voxly: AI-диктофон на Tauri и Rust - сборка и возможности 2026 | AiManual
AiManual Logo Ai / Manual.
09 Фев 2026 Инструмент

Voxly: как собрать open-source диктофон с AI-очисткой на Tauri и Rust

Пошаговый обзор сборки Voxly - open-source диктофона с очисткой речи через AI на стеке Tauri, Rust и SolidJS. Локальная транскрипция без облаков.

Диктофон, который не подслушивает за тобой

Запишешь интервью на телефон - запись летит в облака Apple или Google. Включишь запись в Zoom - текст расшифрует кто-то в Калифорнии. Даже простой диктофон на компьютере часто требует доступа к микрофону и интернету.

Voxly ломает эту парадигму. Это настольное приложение, которое работает полностью локально. Записывает голос, чистит от слов-паразитов, транскрибирует - и всё это без отправки данных куда-либо. Проект вышел в релизную версию в январе 2026 и уже набрал звезд на GitHub.

Voxly использует Whisper.cpp для транскрипции - оффлайн-версию Whisper от OpenAI. Никаких API-ключей, никаких лимитов, никакого отслеживания.

Что внутри этой штуки

Стек технологий выглядит как меню в дорогом ресторане:

  • Tauri 2.0 - фреймворк для создания настольных приложений на Rust. Меньше весит, быстрее работает, чем Electron. И безопаснее - потому что Rust.
  • SolidJS 2.0 - фронтенд-фреймворк с реактивностью как в Svelte, но без виртуального DOM. Интерфейс летает даже на старых ноутбуках.
  • Whisper.cpp - C++ порт Whisper, оптимизированный под CPU. Работает без видеокарты, что критично для ноутбуков.
  • Собственный AI-пайплайн очистки - убирает "эээ", "ну", "короче" и прочий речевой мусор.

Интерфейс минималистичный, но не пустой. Есть три основных режима: обычная запись, транскрипция в реальном времени и режим разработчика с кучей настроек.

Режим разработчика - где спрятаны все фишки

Обычный пользователь видит три кнопки: запись, пауза, остановка. Нажмешь на шестеренку в углу - откроется панель разработчика. Вот где начинается магия.

НастройкаЧто делаетЗачем нужно
Порог детекции паузОпределяет, когда речь закончиласьДля автоматической разбивки на предложения
Агрессивность очисткиНасколько сильно чистить слова-паразитыМожно оставить некоторые междометия для естественности
Модель WhisperВыбор между tiny, base, small, mediumБаланс между скоростью и точностью
Режим VADVoice Activity DetectionЭкономит ресурсы, записывая только когда говоришь

Самое интересное - система плагинов. Можно подключить сторонние модели для транскрипции. Например, если тебе нужна сверхнизкая задержка, можешь интегрировать Voxtral-Mini 4B Realtime с задержкой меньше 500 миллисекунд. Для реального времени - то что нужно.

Как это собирать (если не боишься терминала)

Сборка проще, чем кажется. Главное - установить Rust и Node.js. На Windows это занимает минут 15, на Linux - 10.

💡
Перед сборкой проверь, что у тебя установлен CMake и компилятор C++. На macOS это Xcode Command Line Tools, на Linux - build-essential, на Windows - Visual Studio Build Tools.

Клонируешь репозиторий, запускаешь установку зависимостей:

git clone https://github.com/voxly/voxly
cd voxly
npm install
cargo build --release

Ждешь. Rust компилируется не быстро, особенно в первый раз. Зато потом бинарник работает как швейцарские часы.

Если хочешь собрать под все платформы сразу (Windows, macOS, Linux), придется повозиться с кросс-компиляцией. Но для своей системы - просто.

Чем Voxly лучше облачных аналогов

Сравнивать его с Otter.ai или Google Recorder - как сравнивать велосипед с такси. Да, такси быстрее довезет, но велосипед твой.

  • Конфиденциальность. Все данные остаются на твоем компьютере. Никто не читает твои интервью, не анализирует для рекламы.
  • Одноразовая оплата. Вернее, вообще бесплатно. Облачные сервисы берут $10-20 в месяц.
  • Работа оффлайн. В самолете, в метро, в деревне без интернета - записывай сколько хочешь.
  • Кастомизация. Можешь дописать свой плагин очистки или подключить другую модель STT.

Минусы тоже есть. Транскрипция на CPU медленнее, чем на облачных GPU. Качество очистки слов-паразитов зависит от модели - иногда она слишком агрессивная и режет нормальные слова.

Whisper.cpp на CPU транскрибирует примерно в 1.5-2 раза медленнее реального времени. 10 минут записи обрабатываются 15-20 минут. Для длинных интервью лучше оставить на ночь.

Для кого этот инструмент

Журналистам, которые берут чувствительные интервью. Исследователям, работающим с конфиденциальными данными. Подкастерам на бюджет. Всем, кто устал платить подписки за базовые функции.

Особенно полезен разработчикам, которые хотят понять, как работают современные голосовые приложения. Код чистый, архитектура модульная. Можно разобраться, как устроен пайплайн от аудио до текста.

Если тебе интересны локальные голосовые технологии, посмотри как собрать голосового ассистента на одной видеокарте. Там похожий стек, но с добавлением TTS и LLM.

Что дальше с проектом

На февраль 2026 разработчики анонсировали несколько фич:

  • Поддержка GPU-ускорения через CUDA. Ускорит транскрипцию в 5-10 раз.
  • Плагин для интеграции с AnyTTS - чтобы не только записывать, но и воспроизводить голосом.
  • Экспорт в разные форматы: не только текст, но и субтитры, разметка для редакторов.

Сообщество уже предлагает свои улучшения. Кто-то хочет добавить speech-to-speech конверсию для анонимизации голоса. Кто-то - интеграцию с системами контроля версий для программистов.

Самое интересное - возможность использовать Voxly как движок для других приложений. Представь: пишешь свой голосовой блокнот, подключаешь Voxly как библиотеку, получаешь готовую систему записи и транскрипции.

Попробуй собрать. Даже если не будешь использовать ежедневно - посмотришь, как устроены современные локальные AI-приложения. А там, глядишь, и свой плагин напишешь.