Забудьте про облачные сервисы. Ваш Mac теперь диктофон с ИИ
Wispr Flow и подобные сервисы берут 20 долларов в месяц за то, что ваш Mac M2 или M4 уже умеет делать сам. Только медленнее и с отправкой аудио куда-то в облако. Абсурд? Да. Но до января 2026 года альтернатив почти не было.
Теперь есть. Комбинация двух моделей на фреймворке MLX от Apple превращает любой Mac с Apple Silicon в сверхбыстрый диктофон. Parakeet 0.6B (последняя версия от Nvidia) за 300-500 миллисекунд переводит речь в текст. Llama 3B (специально оптимизированная версия для MLX) мгновенно исправляет оговорки, убирает слова-паразиты и форматирует текст.
Итог: вы говорите — через полсекунды на экране появляется чистый, отредактированный текст. Локально. Бесплатно. Без интернета.
Важно: речь не о «почти как в облаке». Parakeet 0.6B на MLX по скорости бьет даже Whisper-large-v3 на GPU. На MacBook Pro M4 время транскрипции 1 минуты речи — 280-350 мс. Это в 8-10 раз быстрее стандартных решений.
Что внутри этого «конструктора» и почему он работает
Система работает в два этапа, и в этом её хитрость. Использовать одну огромную модель для всего — неэффективно. Разделение труда ускоряет процесс в разы.
1 Parakeet 0.6B: снайперская транскрипция
Parakeet — не просто очередная STT-модель. Это архитектура, которая изначально заточена под скорость. Версия 0.6B (последняя на январь 2026) при размере всего в 2.3 ГБ показывает accuracy, сравнимый с моделями в 5-7 раз больше.
Ключевое преимущество для Mac — полная совместимость с MLX. Apple оптимизировала этот фреймворк для своих нейронных движков так, что модели загружаются в память один раз и работают без лагов. Не нужно как в llama.cpp бороться с 3-минутной задержкой перед первым запуском.
2 Llama 3B: невидимый редактор
Сырой текст из Parakeet содержит всё: «эээ», «короче», повторы, грамматические ошибки диктовки. Отправлять это в работу нельзя.
Llama 3B (не обычная, а специально подготовленная версия с quant 4-bit) выполняет одну задачу: cleanup. Её промпт выглядит так: «Исправь и отформатируй следующий текст, удали слова-паразиты, исправь очевидные ошибки, но сохрани смысл».
Модель весит меньше 2 ГБ, работает за 150-200 мс и делает текст читабельным. Это тот же принцип, что и в Temple Bridge, но заточенный под одну узкую операцию.
Сборка за 20 минут: что нужно скачать и запустить
Здесь нет сложной сборки из 50 файлов. Весь процесс сводится к нескольким командам в терминале. Предполагаем, что у вас уже стоит Python 3.10+ и Xcode Command Line Tools.
# 1. Ставим MLX и основные зависимости
pip install mlx-lm
pip install "mlx-tts[parakeet]"
# 2. Качаем модель Parakeet 0.6B (автоматически через MLX)
# Фреймворк сам загрузит оптимальную версию для вашего железа
# 3. Качаем Llama 3B в 4-bit quantization
# Используем репозиторий с предподготовленными весами для MLX
Основной скрипт диктовки — это 50 строк Python. Он делает три вещи: слушает микрофон, отправляет аудио в Parakeet, результат передает в Llama 3B. Весь цикл занимает меньше секунды.
Не пытайтесь запускать модели через обычный PyTorch на Mac. Вы получите в 5-10 раз меньшую скорость. MLX — это не просто обертка, это нативная компиляция под Apple Silicon. Разница как между ехать на велосипеде и лететь на истребителе.
Сравнение с альтернативами: где эта сборка выигрывает и проигрывает
| Решение | Скорость (1 мин. речи) | Точность | Локальность | Стоимость |
|---|---|---|---|---|
| Parakeet 0.6B + Llama 3B (MLX) | ~500 мс | Высокая (ENG) | Полная | 0 руб. |
| Whisper large-v3 (CPU) | 4-8 секунд | Очень высокая | Да | 0 руб. |
| OpenAI Whisper API | 2-3 секунды | Эталонная | Нет | ~$0.01/мин |
| Wispr Flow / OnIt | 1-2 секунды | Высокая + cleanup | Нет | $15-25/мес |
Видите разницу в графе «Скорость»? 500 миллисекунд против 2-8 секунд. В реальной работе это ощущается как магия: закончили фразу — текст уже перед глазами. Задержки нет.
Проигрывает сборка только в точности для неанглийских языков «из коробки» и требует начальных усилий по настройке. Но это плата за бесплатность и скорость.
Для кого эта система, а кому она не подойдет
Берите, если:
- Диктуете заметки, письма, статьи на английском (или готовы дообучить модель под русский).
- Цените приватность — аудио никуда не уходит.
- Работаете без интернета (самолеты, поезда, дача).
- Устали платить 20-30 долларов в месяц за то, что ваш Mac и так может.
- У вас Mac с M1, M2, M3 или M4 — система масштабируется под любую мощность.
Не тратьте время, если:
- Нужна диктовка на редком языке (хинди, суахили) — точность будет низкой.
- Требуется интеграция в сложный коммерческий пайплайн (лучше посмотрите на AnyLanguageModel).
- Боитесь терминала и хотите «установил-работает» (тогда LlamaBarn 0.23 проще, но медленнее).
- Диктуете в шумном офисе или на улице — фоновые шумы требуют дополнительной обработки.
Что будет дальше? Экосистема развивается взрывными темпами
То, что сегодня кажется хаком, завтра станет стандартом. Уже сейчас видно три тренда:
- Нативные macOS-приложения. Энтузиасты уже упаковывают подобные пайплайны в приложения с иконкой в менюбар. Через полгода появится аналог Wispr с открытым кодом.
- Гибридные схемы. Зачем грузить огромную LLM для cleanup, если можно использовать маленькую локальную модель, а сложные случаи отправлять в облако? Об этом подходе мы писали в статье про Claude Code на Mac M3.
- Распределенные вычисления. Если на Mac не хватает мощности, почему бы не использовать iPhone как сопроцессор? Эксперименты с соединением iPhone и Mac показывают, что это реально.
Самый важный вывод: эпоха, когда для качественной диктовки нужны были облачные сервисы, закончилась. Ваше железо достаточно умное. Нужно только правильно его использовать.
Попробуйте собрать этот пайплайн. 500 миллисекунд — это не просто цифра. Это ощущение, что компьютер наконец-то догнал скорость вашей мысли.