Локальная диктовка на Mac за 500 мс: Parakeet 0.6B + Llama 3B на MLX | AiManual
AiManual Logo Ai / Manual.
30 Янв 2026 Инструмент

Сверхбыстрая локальная диктовка на Mac: как собрать аналог OnIt с Parakeet 0.6B и Llama 3B на MLX

Соберите бесплатный аналог OnIt для Mac: Parakeet 0.6B преобразует речь в текст за 300 мс, Llama 3B очищает текст. Полная приватность, скорость и экономия.

Забудьте про облачные сервисы. Ваш Mac теперь диктофон с ИИ

Wispr Flow и подобные сервисы берут 20 долларов в месяц за то, что ваш Mac M2 или M4 уже умеет делать сам. Только медленнее и с отправкой аудио куда-то в облако. Абсурд? Да. Но до января 2026 года альтернатив почти не было.

Теперь есть. Комбинация двух моделей на фреймворке MLX от Apple превращает любой Mac с Apple Silicon в сверхбыстрый диктофон. Parakeet 0.6B (последняя версия от Nvidia) за 300-500 миллисекунд переводит речь в текст. Llama 3B (специально оптимизированная версия для MLX) мгновенно исправляет оговорки, убирает слова-паразиты и форматирует текст.

Итог: вы говорите — через полсекунды на экране появляется чистый, отредактированный текст. Локально. Бесплатно. Без интернета.

Важно: речь не о «почти как в облаке». Parakeet 0.6B на MLX по скорости бьет даже Whisper-large-v3 на GPU. На MacBook Pro M4 время транскрипции 1 минуты речи — 280-350 мс. Это в 8-10 раз быстрее стандартных решений.

Что внутри этого «конструктора» и почему он работает

Система работает в два этапа, и в этом её хитрость. Использовать одну огромную модель для всего — неэффективно. Разделение труда ускоряет процесс в разы.

1 Parakeet 0.6B: снайперская транскрипция

Parakeet — не просто очередная STT-модель. Это архитектура, которая изначально заточена под скорость. Версия 0.6B (последняя на январь 2026) при размере всего в 2.3 ГБ показывает accuracy, сравнимый с моделями в 5-7 раз больше.

Ключевое преимущество для Mac — полная совместимость с MLX. Apple оптимизировала этот фреймворк для своих нейронных движков так, что модели загружаются в память один раз и работают без лагов. Не нужно как в llama.cpp бороться с 3-минутной задержкой перед первым запуском.

💡
Parakeet поддерживает несколько языков, включая русский и английский, но показывает лучшую точность на английском. Для чистого русского есть смысл дообучить модель, используя подходы из статьи про Unsloth-MLX.

2 Llama 3B: невидимый редактор

Сырой текст из Parakeet содержит всё: «эээ», «короче», повторы, грамматические ошибки диктовки. Отправлять это в работу нельзя.

Llama 3B (не обычная, а специально подготовленная версия с quant 4-bit) выполняет одну задачу: cleanup. Её промпт выглядит так: «Исправь и отформатируй следующий текст, удали слова-паразиты, исправь очевидные ошибки, но сохрани смысл».

Модель весит меньше 2 ГБ, работает за 150-200 мс и делает текст читабельным. Это тот же принцип, что и в Temple Bridge, но заточенный под одну узкую операцию.

Сборка за 20 минут: что нужно скачать и запустить

Здесь нет сложной сборки из 50 файлов. Весь процесс сводится к нескольким командам в терминале. Предполагаем, что у вас уже стоит Python 3.10+ и Xcode Command Line Tools.

# 1. Ставим MLX и основные зависимости
pip install mlx-lm
pip install "mlx-tts[parakeet]"

# 2. Качаем модель Parakeet 0.6B (автоматически через MLX)
# Фреймворк сам загрузит оптимальную версию для вашего железа

# 3. Качаем Llama 3B в 4-bit quantization
# Используем репозиторий с предподготовленными весами для MLX

Основной скрипт диктовки — это 50 строк Python. Он делает три вещи: слушает микрофон, отправляет аудио в Parakeet, результат передает в Llama 3B. Весь цикл занимает меньше секунды.

Не пытайтесь запускать модели через обычный PyTorch на Mac. Вы получите в 5-10 раз меньшую скорость. MLX — это не просто обертка, это нативная компиляция под Apple Silicon. Разница как между ехать на велосипеде и лететь на истребителе.

Сравнение с альтернативами: где эта сборка выигрывает и проигрывает

Решение Скорость (1 мин. речи) Точность Локальность Стоимость
Parakeet 0.6B + Llama 3B (MLX) ~500 мс Высокая (ENG) Полная 0 руб.
Whisper large-v3 (CPU) 4-8 секунд Очень высокая Да 0 руб.
OpenAI Whisper API 2-3 секунды Эталонная Нет ~$0.01/мин
Wispr Flow / OnIt 1-2 секунды Высокая + cleanup Нет $15-25/мес

Видите разницу в графе «Скорость»? 500 миллисекунд против 2-8 секунд. В реальной работе это ощущается как магия: закончили фразу — текст уже перед глазами. Задержки нет.

Проигрывает сборка только в точности для неанглийских языков «из коробки» и требует начальных усилий по настройке. Но это плата за бесплатность и скорость.

Для кого эта система, а кому она не подойдет

Берите, если:

  • Диктуете заметки, письма, статьи на английском (или готовы дообучить модель под русский).
  • Цените приватность — аудио никуда не уходит.
  • Работаете без интернета (самолеты, поезда, дача).
  • Устали платить 20-30 долларов в месяц за то, что ваш Mac и так может.
  • У вас Mac с M1, M2, M3 или M4 — система масштабируется под любую мощность.

Не тратьте время, если:

  • Нужна диктовка на редком языке (хинди, суахили) — точность будет низкой.
  • Требуется интеграция в сложный коммерческий пайплайн (лучше посмотрите на AnyLanguageModel).
  • Боитесь терминала и хотите «установил-работает» (тогда LlamaBarn 0.23 проще, но медленнее).
  • Диктуете в шумном офисе или на улице — фоновые шумы требуют дополнительной обработки.

Что будет дальше? Экосистема развивается взрывными темпами

То, что сегодня кажется хаком, завтра станет стандартом. Уже сейчас видно три тренда:

  1. Нативные macOS-приложения. Энтузиасты уже упаковывают подобные пайплайны в приложения с иконкой в менюбар. Через полгода появится аналог Wispr с открытым кодом.
  2. Гибридные схемы. Зачем грузить огромную LLM для cleanup, если можно использовать маленькую локальную модель, а сложные случаи отправлять в облако? Об этом подходе мы писали в статье про Claude Code на Mac M3.
  3. Распределенные вычисления. Если на Mac не хватает мощности, почему бы не использовать iPhone как сопроцессор? Эксперименты с соединением iPhone и Mac показывают, что это реально.

Самый важный вывод: эпоха, когда для качественной диктовки нужны были облачные сервисы, закончилась. Ваше железо достаточно умное. Нужно только правильно его использовать.

Попробуйте собрать этот пайплайн. 500 миллисекунд — это не просто цифра. Это ощущение, что компьютер наконец-то догнал скорость вашей мысли.