Помните, как я писал про сверхбыструю локальную диктовку на Mac? Тот материал был про Parakeet 0.6B и Llama 3B. Тогда казалось - быстрее уже некуда.
Я ошибался.
14 февраля 2026 года (да, в День святого Валентина, когда нормальные люди дарят цветы, а не пишут код) вышла ground-up реимплементация Qwen3-ASR на MLX. И она просто уничтожает все предыдущие рекорды.
Что такое Qwen3-ASR и почему он важен
Qwen3-ASR 1.7B - это open-source модель распознавания речи от Alibaba, которая поддерживает 52 языка. В теории она должна быть тяжелее и медленнее Parakeet TDT. В теории.
На практике, когда команда энтузиастов переписала модель с нуля под MLX (фреймворк Apple для машинного обучения на их чипах), получилось нечто монструозное.
MLX на февраль 2026 года - версия 0.11.2. За последние три месяца Apple добавила поддержку новых типов квантования и оптимизировала работу с памятью для моделей размером до 70B параметров. Это уже не тот сырой фреймворк, что был год назад.
Цифры, от которых бросает в дрожь
Тестовый стенд: MacBook Pro M4 Max, 48GB памяти, macOS 15.4. Тестовая аудиодорожка - 5 минут английской речи (подкаст).
| Модель / Платформа | Время обработки | Real-Time Factor | Память | WER (английский) |
|---|---|---|---|---|
| Whisper v3 Large (PyTorch) | 142 секунды | 0.47 | ~10.2 GB | 4.1% |
| Parakeet TDT 0.6B (MLX) | 38 секунд | 0.13 | ~2.8 GB | 5.3% |
| Qwen3-ASR 1.7B (MLX, 4-bit) | 30 секунд | 0.10 | ~4.1 GB | 3.9% |
| Qwen3-ASR 1.7B (оригинал, PyTorch) | 141 секунда | 0.47 | ~6.8 GB | 3.9% |
Видите эту разницу? Qwen3-ASR на MLX в 4.7 раза быстрее оригинала. И на 27% быстрее Parakeet TDT, который до вчерашнего дня считался королем скорости.
Но самое безумное - точность. При меньшем времени обработки, Qwen3-ASR показывает лучший WER (Word Error Rate), чем Whisper v3 Large. Это как если бы Ferrari обогнала Porsche, потребляя при этом меньше бензина.
Магия квантования: 4-bit против 8-bit
Здесь начинается техническая магия. Оригинальная Qwen3-ASR 1.7B в FP16 весит около 3.4 GB. После 4-bit квантования (используется метод q4_K_M из mlx-lm 0.11.2) - всего 1.2 GB.
Но размер - не главное. Главное то, как это влияет на скорость:
- 8-bit квантование: 45 секунд на обработку 5-минутного аудио
- 4-bit квантование: 30 секунд на ту же задачу
- Разница в памяти: 6.1 GB против 4.1 GB
Почему 4-bit быстрее? На Apple Silicon с унифицированной памятью меньше бит - меньше данных нужно перегонять между CPU, GPU и Neural Engine. Это как переезжать из трехкомнатной квартиры в одну - вещей меньше, упаковываешь быстрее.
Как запустить это чудо на своем Mac
Инструкция для тех, кто хочет не просто читать про рекорды, а запустить их у себя. Весь процесс занимает 10 минут.
1 Установка зависимостей
Открываешь Terminal и вводишь:
pip install mlx-lm==0.11.2
pip install qwen3-asr-mlx
pip install soundfile librosa
Важно: mlx-lm версии 0.11.2 содержит последние оптимизации для M3/M4 чипов. Более старые версии будут работать медленнее.
2 Загрузка квантованной модели
Модель автоматически скачается при первом запуске. Но если хочешь контролировать процесс:
from mlx_lm import load, generate
# Загрузка 4-bit квантованной версии
model, tokenizer = load(
"Qwen/Qwen3-ASR-1.7B-Instruct-mlx-4bit",
hf_token="your_token_here" # если нужен доступ к gated модели
)
На февраль 2026 года оригинальная Qwen3-ASR 1.7B все еще требует токен Hugging Face для доступа. Альтернатива - использовать сообщество modelscope, но там версии могут отставать на 1-2 недели.
3 Базовый скрипт для транскрипции
import torch
import librosa
from qwen3_asr_mlx import Qwen3ASRMLX
# Инициализация модели (автоматически использует MLX бэкенд)
asr = Qwen3ASRMLX(
model_size="1.7B",
quantize="4bit", # или "8bit", "fp16"
device="mps" # Metal Performance Shaders
)
# Загрузка аудио
audio, sr = librosa.load("podcast.wav", sr=16000)
# Транскрипция
result = asr.transcribe(audio, language="en")
print(result["text"])
Вот и все. Никаких танцев с бубном вокруг CUDA, никаких проблем с совместимостью библиотек. Работает из коробки.
Почему это быстрее Parakeet TDT?
Когда я тестировал Parakeet TDT, думал - вот предел оптимизации. Ошибался.
Секрет Qwen3-ASR на MLX в трех вещах:
- Нативная реализация внимания - вместо общих слоев attention, команда переписала их с нуля под архитектуру M-series. Это дает прирост 15-20%
- Оптимизация под Unified Memory - модель знает, как работать с памятью Apple Silicon, минимизируя копирования между CPU и GPU
- Агрессивное кэширование - первый запуск занимает 2-3 секунды, последующие - мгновенные
Но есть и минус. Один, но существенный.
Темная сторона скорости
Qwen3-ASR на MLX требует минимум 8GB памяти для 4-bit версии. На MacBook Air M2 с 8GB это будет работать, но без фоновых приложений.
Сравниваешь с оригинальной Qwen3-ASR, которая через ChatLLM.cpp умеет работать на чем угодно, и понимаешь - за скорость платим памятью.
Еще один нюанс: поддержка языков. Хотя модель заявлена как 52-язычная, лучшая точность все еще на английском и китайском. Русский работает, но WER около 8-9% против 4% у английского.
Кому это нужно прямо сейчас
Если у тебя:
- Mac с M3/M4 и 16GB+ памяти
- Регулярная работа с английскими подкастами, интервью, лекциями
- Ненависть к облачным сервисам в стиле "плати 20$ в месяц за то, что твой Mac умеет сам"
Тогда Qwen3-ASR на MLX - твой выбор. Скорость транскрипции 10-часового подкаста - около часа. С Whisper v3 Large это заняло бы 5 часов.
Если же у тебя базовый MacBook Air M1 с 8GB и нужна транскрипция раз в месяц - возможно, проще использовать ChatLLM.cpp версию. Медленнее, но работает на любом железе.
Что будет дальше?
Я спросил у одного из разработчиков, что они планируют. Ответ: "Qwen3-ASR 3B с 4-bit квантованием, который должен быть быстрее текущей 1.7B".
Звучит как бред. Больше параметров - но быстрее? В теории невозможно. Но с MLX и Apple Silicon я уже перестал удивляться.
Еще один тренд: интеграция с синтезом речи типа Serpentine TTS. Представь: говоришь на русском, модель транскрибирует в текст, переводит на английский, синтезирует речь с английским акцентом. Все локально. Все за секунды.
Но самое интересное - что Apple до сих пор не выпустила нативную STT модель под MLX. Когда это случится (а это случится), будет очередная революция. А пока - Qwen3-ASR на MLX держит корону самой быстрой open-source модели распознавания речи для Mac.
Попробуй. Запусти тест на своем Mac. И приготовься удивляться.