Забудьте про облачные сервисы. Ваш Mac теперь диктофон с ИИ

Wispr Flow и подобные сервисы берут 20 долларов в месяц за то, что ваш Mac M2 или M4 уже умеет делать сам. Только медленнее и с отправкой аудио куда-то в облако. Абсурд? Да. Но до января 2026 года альтернатив почти не было.

Теперь есть. Комбинация двух моделей на фреймворке MLX от Apple превращает любой Mac с Apple Silicon в сверхбыстрый диктофон. Parakeet 0.6B (последняя версия от Nvidia) за 300-500 миллисекунд переводит речь в текст. Llama 3B (специально оптимизированная версия для MLX) мгновенно исправляет оговорки, убирает слова-паразиты и форматирует текст.

Итог: вы говорите — через полсекунды на экране появляется чистый, отредактированный текст. Локально. Бесплатно. Без интернета.

Важно: речь не о «почти как в облаке». Parakeet 0.6B на MLX по скорости бьет даже Whisper-large-v3 на GPU. На MacBook Pro M4 время транскрипции 1 минуты речи — 280-350 мс. Это в 8-10 раз быстрее стандартных решений.

Что внутри этого «конструктора» и почему он работает

Система работает в два этапа, и в этом её хитрость. Использовать одну огромную модель для всего — неэффективно. Разделение труда ускоряет процесс в разы.

1 Parakeet 0.6B: снайперская транскрипция

Parakeet — не просто очередная STT-модель. Это архитектура, которая изначально заточена под скорость. Версия 0.6B (последняя на январь 2026) при размере всего в 2.3 ГБ показывает accuracy, сравнимый с моделями в 5-7 раз больше.

Ключевое преимущество для Mac — полная совместимость с MLX. Apple оптимизировала этот фреймворк для своих нейронных движков так, что модели загружаются в память один раз и работают без лагов. Не нужно как в llama.cpp бороться с 3-минутной задержкой перед первым запуском.

💡

Parakeet поддерживает несколько языков, включая русский и английский, но показывает лучшую точность на английском. Для чистого русского есть смысл дообучить модель, используя подходы из статьи про Unsloth-MLX.

2 Llama 3B: невидимый редактор

Сырой текст из Parakeet содержит всё: «эээ», «короче», повторы, грамматические ошибки диктовки. Отправлять это в работу нельзя.

Llama 3B (не обычная, а специально подготовленная версия с quant 4-bit) выполняет одну задачу: cleanup. Её промпт выглядит так: «Исправь и отформатируй следующий текст, удали слова-паразиты, исправь очевидные ошибки, но сохрани смысл».

Модель весит меньше 2 ГБ, работает за 150-200 мс и делает текст читабельным. Это тот же принцип, что и в Temple Bridge, но заточенный под одну узкую операцию.

Сборка за 20 минут: что нужно скачать и запустить

Здесь нет сложной сборки из 50 файлов. Весь процесс сводится к нескольким командам в терминале. Предполагаем, что у вас уже стоит Python 3.10+ и Xcode Command Line Tools.

# 1. Ставим MLX и основные зависимости
pip install mlx-lm
pip install "mlx-tts[parakeet]"

# 2. Качаем модель Parakeet 0.6B (автоматически через MLX)
# Фреймворк сам загрузит оптимальную версию для вашего железа

# 3. Качаем Llama 3B в 4-bit quantization
# Используем репозиторий с предподготовленными весами для MLX

Основной скрипт диктовки — это 50 строк Python. Он делает три вещи: слушает микрофон, отправляет аудио в Parakeet, результат передает в Llama 3B. Весь цикл занимает меньше секунды.

Не пытайтесь запускать модели через обычный PyTorch на Mac. Вы получите в 5-10 раз меньшую скорость. MLX — это не просто обертка, это нативная компиляция под Apple Silicon. Разница как между ехать на велосипеде и лететь на истребителе.

Сравнение с альтернативами: где эта сборка выигрывает и проигрывает

Решение	Скорость (1 мин. речи)	Точность	Локальность	Стоимость
Parakeet 0.6B + Llama 3B (MLX)	~500 мс	Высокая (ENG)	Полная	0 руб.
Whisper large-v3 (CPU)	4-8 секунд	Очень высокая	Да	0 руб.
OpenAI Whisper API	2-3 секунды	Эталонная	Нет	~$0.01/мин
Wispr Flow / OnIt	1-2 секунды	Высокая + cleanup	Нет	$15-25/мес

Видите разницу в графе «Скорость»? 500 миллисекунд против 2-8 секунд. В реальной работе это ощущается как магия: закончили фразу — текст уже перед глазами. Задержки нет.

Проигрывает сборка только в точности для неанглийских языков «из коробки» и требует начальных усилий по настройке. Но это плата за бесплатность и скорость.

Для кого эта система, а кому она не подойдет

Берите, если:

Диктуете заметки, письма, статьи на английском (или готовы дообучить модель под русский).
Цените приватность — аудио никуда не уходит.
Работаете без интернета (самолеты, поезда, дача).
Устали платить 20-30 долларов в месяц за то, что ваш Mac и так может.
У вас Mac с M1, M2, M3 или M4 — система масштабируется под любую мощность.

Не тратьте время, если:

Нужна диктовка на редком языке (хинди, суахили) — точность будет низкой.
Требуется интеграция в сложный коммерческий пайплайн (лучше посмотрите на AnyLanguageModel).
Боитесь терминала и хотите «установил-работает» (тогда LlamaBarn 0.23 проще, но медленнее).
Диктуете в шумном офисе или на улице — фоновые шумы требуют дополнительной обработки.

Что будет дальше? Экосистема развивается взрывными темпами

То, что сегодня кажется хаком, завтра станет стандартом. Уже сейчас видно три тренда:

Нативные macOS-приложения. Энтузиасты уже упаковывают подобные пайплайны в приложения с иконкой в менюбар. Через полгода появится аналог Wispr с открытым кодом.
Гибридные схемы. Зачем грузить огромную LLM для cleanup, если можно использовать маленькую локальную модель, а сложные случаи отправлять в облако? Об этом подходе мы писали в статье про Claude Code на Mac M3.
Распределенные вычисления. Если на Mac не хватает мощности, почему бы не использовать iPhone как сопроцессор? Эксперименты с соединением iPhone и Mac показывают, что это реально.

Самый важный вывод: эпоха, когда для качественной диктовки нужны были облачные сервисы, закончилась. Ваше железо достаточно умное. Нужно только правильно его использовать.

Попробуйте собрать этот пайплайн. 500 миллисекунд — это не просто цифра. Это ощущение, что компьютер наконец-то догнал скорость вашей мысли.

Сверхбыстрая локальная диктовка на Mac: как собрать аналог OnIt с Parakeet 0.6B и Llama 3B на MLX