MumbleFlow: Локальный ассистент для диктовки на Whisper.cpp и Llama.cpp | AiManual
AiManual Logo Ai / Manual.
13 Фев 2026 Инструмент

MumbleFlow: Голосовой блокнот, который исправляет ваше бормотание

Сборка локального голосового ассистента для очистки текста из речи. Whisper.cpp + Llama.cpp + Tauri. Полный контроль, 50 МБ ОЗУ, задержка <1с.

Забудьте про "эээ", "ну" и косноязычные паузы

Представьте: говорите в микрофон, а на экране появляется не сырая, корявая расшифровка Whisper, а чистый, грамотный текст. Без "типа", "короче", без повторов и слов-паразитов. При этом всё работает локально, никаких данных в облако, и потребляет смешные 50 мегабайт оперативки. Звучит как фантастика 2023 года. В 2026-м это MumbleFlow.

Идея проста до гениальности и родилась из ежедневной боли. Whisper.cpp - отличный инструмент для транскрипции, но его вывод - это буквально то, что вы сказали. Со всеми оговорками, паузами, мусорными словами. Отправлять это в облачный GPT для чистки - терять приватность и платить за каждый запрос. Запускать полноценную 7B-модель для пост-обработки - греть комнату и ждать секунды. MumbleFlow решает это элегантно.

Суть: whisper.cpp переводит речь в текст → маленькая, специально обученная Llama-модель (не для чата!) чистит этот текст → результат появляется в нативном приложении за долю секунды.

Что скрутили в этом франкенштейне?

1 Whisper.cpp - уши системы

Берём не оригинальный Whisper от OpenAI, а его C++ порт. Он легче, быстрее, и его можно встроить куда угодно. Для MumbleFlow выбрали модель whisper-small.bin - оптимальный баланс между точностью и скоростью. Она распознаёт русскую речь с акцентом, шёпот и даже бормотание (отсюда и название). Латентность на современном процессоре - 200-400 мс. Для сравнения, другие локальные STT-решения часто проигрывают в скорости или требуют GPU.

2 Специальная Llama - мозги для уборки

Вот тут главный фокус. Мы НЕ используем llama.cpp как чат-бота. Не нужен диалог, не нужна эрудиция. Нужна одна задача: взять неотформатированный текст с пометками [пауза], "эээ" и повторами, и выдать чистый вариант.

Для этого взяли архитектуру Llama 2, но обучили не на диалогах, а на парах "грязный транскрипт" -> "чистый текст". Датасет собрали из реальных записей подкастов, лекций и диктовок. Получилась модель на 135 миллионов параметров. Её размер? Всего 85 МБ. Она загружается в оперативку мгновенно и делает свою работу за 50-150 мс. Это ключевое отличие от подходов вроде голосового ассистента на LangChain и Ollama, где LLM - это тяжёлый многоцелевой движок.

💡
Пример работы: На входе: "Ну короче я думаю что нам нужно типа эээ собрать данные и потом их визуализировать так сказать". На выходе: "Нужно собрать данные и визуализировать их." Модель вырезает слова-сорняки, исправляет грамматику, оставляет суть.

3 Tauri + Rust - тело и нервная система

Всё это обёрнуто в нативное приложение на Tauri. Frontend - простой интерфейс на HTML/JS. Бэкенд - Rust, который оркестрирует whisper.cpp и llama.cpp, управляет аудиопотоком с микрофона и отдаёт результат в интерфейс. Rust здесь не для хайпа, а для гарантий: нет сборщика мусора, нет неожиданных пауз, память под контролем. Итоговый .exe или .app весит около 25 МБ. Запускается на Windows, macOS, Linux.

Сравните это с терминальным ассистентом на 100 строк кода. Там функционал ограничен CLI. MumbleFlow даёт вам кнопку записи, историю, возможность скопировать чистый текст в один клик.

А что по альтернативам? Три разных пути

Подход Плюсы Минусы для нашей задачи
Облачные сервисы (Google Speech-to-Text, Whisper API) Высокая точность, есть пост-обработка Дорого, требует интернет, ваши данные у третьей стороны. Обзор диктофонов с ИИ показывает цены от $10/час.
Полноценные локальные LLM (Ollama + Mistral, Llama 3.2) Универсальность, можно попросить "перефразировать" Требуют 4-8 ГБ ОЗУ, медленные (секунды), греются. Как в этом гайде на Ollama.
Специализированные приложения (Wispr Flow, Otter.ai) Красивый интерфейс, много функций Подписка, облачная обработка или тяжёлые нативные движки. Wispr Flow отличный, но это SaaS.

MumbleFlow занимает уникальную нишу: локальность специализированных решений вроде whisper.cpp для GNU Radio, но с интеллектуальной пост-обработкой, которую не найдёшь в чистых STT-библиотеках.

Кому это впишется в рабочий процесс?

  • Журналисты и писатели: Надиктовывайте заметки, интервью, черновики. Получайте сразу пригодный для редактирования текст.
  • Студенты и исследователи: Записывайте мысли вслух во время чтения статей. MumbleFlow превратит поток сознания в структурированные тезисы.
  • Разработчики и инженеры: Диктуйте комментарии к коду, описание багов, технические требования. Особенно актуально, если руки заняты настройкой железа.
  • Люди с ограниченными возможностями: Голосовой ввод, который не требует потом часами чистить результат.

Где оно споткнётся? Если ваша речь состоит из специфических терминов (медицинских, юридических, узкотехнических), маленькая модель может их "сгладить" или заменить. Для таких случаев лучше использовать чистый Whisper или настроить модель на ваш профессиональный жаргон.

Что под капотом? Технические детали на 2026 год

Стек 2026 года позволяет делать то, что было болью в 2024-м.

  • Память: ~50 МБ ОЗУ в простое, пиковые скачки до 200 МБ при одновременной работе Whisper и Llama. Для сравнения, один Chrome с двумя вкладками - 1 ГБ.
  • Задержка (latency): От звука до чистого текста на экране - 400-800 мс. Меньше секунды. Это достигается за счёт потоковой обработки: как только Whisper заканчивает распознавать фразу, она сразу отправляется в Llama-модель, не дожидаясь конца предложения. Техника похожа на ту, что используют в Voxtral-Mini для real-time транскрипции.
  • Точность: На тестовом наборе русской речи точность сохранения смысла - 96%. Точность грамматической коррекции - 89%. Модель иногда "переусердствует" и удаляет важные акцентирующие слова, но не искажает факты.
  • Пороговая стоимость: $0. Никаких подписок. Электричество на работу процессора - копейки.

Собрать самому или скачать готовое?

Исходный код MumbleFlow выложен на GitHub. Сборка требует установки Rust, Node.js и некоторых нативных библиотек. Это не для новичков. Но авторы выкладывают скомпилированные бинарники для основных ОС.

Если вам нужен просто инструмент - качайте готовое приложение. Если хотите адаптировать под свои нужды (например, обучить модель на удаление конкретных слов-паразитов или добавить экспорт в Markdown) - придётся погрузиться в код. Это не конструктор на n8n, где всё настраивается в визуальном редакторе.

Тренд 2026 года - не гигантские универсальные модели, а россыпь маленьких, эффективных, специализированных инструментов. MumbleFlow - типичный представитель этой волны. Он не пытается быть умнее ChatGPT. Он делает одну вещь: превращает вашу неидеальную речь в идеальный текст. Локально. Быстро. Бесплатно.

Попробуйте. Возможно, вы перестанете бояться диктофона.