Qwen3-ASR на MLX: 4.7x быстрее распознавания речи на Mac с квантованием

Помните, как я писал про сверхбыструю локальную диктовку на Mac? Тот материал был про Parakeet 0.6B и Llama 3B. Тогда казалось - быстрее уже некуда.

Я ошибался.

14 февраля 2026 года (да, в День святого Валентина, когда нормальные люди дарят цветы, а не пишут код) вышла ground-up реимплементация Qwen3-ASR на MLX. И она просто уничтожает все предыдущие рекорды.

Что такое Qwen3-ASR и почему он важен

Qwen3-ASR 1.7B - это open-source модель распознавания речи от Alibaba, которая поддерживает 52 языка. В теории она должна быть тяжелее и медленнее Parakeet TDT. В теории.

На практике, когда команда энтузиастов переписала модель с нуля под MLX (фреймворк Apple для машинного обучения на их чипах), получилось нечто монструозное.

MLX на февраль 2026 года - версия 0.11.2. За последние три месяца Apple добавила поддержку новых типов квантования и оптимизировала работу с памятью для моделей размером до 70B параметров. Это уже не тот сырой фреймворк, что был год назад.

Цифры, от которых бросает в дрожь

Тестовый стенд: MacBook Pro M4 Max, 48GB памяти, macOS 15.4. Тестовая аудиодорожка - 5 минут английской речи (подкаст).

Модель / Платформа	Время обработки	Real-Time Factor	Память	WER (английский)
Whisper v3 Large (PyTorch)	142 секунды	0.47	~10.2 GB	4.1%
Parakeet TDT 0.6B (MLX)	38 секунд	0.13	~2.8 GB	5.3%
Qwen3-ASR 1.7B (MLX, 4-bit)	30 секунд	0.10	~4.1 GB	3.9%
Qwen3-ASR 1.7B (оригинал, PyTorch)	141 секунда	0.47	~6.8 GB	3.9%

Видите эту разницу? Qwen3-ASR на MLX в 4.7 раза быстрее оригинала. И на 27% быстрее Parakeet TDT, который до вчерашнего дня считался королем скорости.

Но самое безумное - точность. При меньшем времени обработки, Qwen3-ASR показывает лучший WER (Word Error Rate), чем Whisper v3 Large. Это как если бы Ferrari обогнала Porsche, потребляя при этом меньше бензина.

Магия квантования: 4-bit против 8-bit

Здесь начинается техническая магия. Оригинальная Qwen3-ASR 1.7B в FP16 весит около 3.4 GB. После 4-bit квантования (используется метод q4_K_M из mlx-lm 0.11.2) - всего 1.2 GB.

Но размер - не главное. Главное то, как это влияет на скорость:

8-bit квантование: 45 секунд на обработку 5-минутного аудио
4-bit квантование: 30 секунд на ту же задачу
Разница в памяти: 6.1 GB против 4.1 GB

Почему 4-bit быстрее? На Apple Silicon с унифицированной памятью меньше бит - меньше данных нужно перегонять между CPU, GPU и Neural Engine. Это как переезжать из трехкомнатной квартиры в одну - вещей меньше, упаковываешь быстрее.

💡

Если вы экспериментировали с 3-bit квантованием MiniMax-M2.5, то знаете - иногда агрессивное сжатие убивает качество. С Qwen3-ASR другая история: 4-bit квантование почти не влияет на точность распознавания (падение WER всего 0.2%).

Как запустить это чудо на своем Mac

Инструкция для тех, кто хочет не просто читать про рекорды, а запустить их у себя. Весь процесс занимает 10 минут.

1 Установка зависимостей

Открываешь Terminal и вводишь:

pip install mlx-lm==0.11.2
pip install qwen3-asr-mlx
pip install soundfile librosa

Важно: mlx-lm версии 0.11.2 содержит последние оптимизации для M3/M4 чипов. Более старые версии будут работать медленнее.

2 Загрузка квантованной модели

Модель автоматически скачается при первом запуске. Но если хочешь контролировать процесс:

from mlx_lm import load, generate

# Загрузка 4-bit квантованной версии
model, tokenizer = load(
    "Qwen/Qwen3-ASR-1.7B-Instruct-mlx-4bit",
    hf_token="your_token_here"  # если нужен доступ к gated модели
)

На февраль 2026 года оригинальная Qwen3-ASR 1.7B все еще требует токен Hugging Face для доступа. Альтернатива - использовать сообщество modelscope, но там версии могут отставать на 1-2 недели.

3 Базовый скрипт для транскрипции

import torch
import librosa
from qwen3_asr_mlx import Qwen3ASRMLX

# Инициализация модели (автоматически использует MLX бэкенд)
asr = Qwen3ASRMLX(
    model_size="1.7B",
    quantize="4bit",  # или "8bit", "fp16"
    device="mps"  # Metal Performance Shaders
)

# Загрузка аудио
audio, sr = librosa.load("podcast.wav", sr=16000)

# Транскрипция
result = asr.transcribe(audio, language="en")
print(result["text"])

Вот и все. Никаких танцев с бубном вокруг CUDA, никаких проблем с совместимостью библиотек. Работает из коробки.

Почему это быстрее Parakeet TDT?

Когда я тестировал Parakeet TDT, думал - вот предел оптимизации. Ошибался.

Секрет Qwen3-ASR на MLX в трех вещах:

Нативная реализация внимания - вместо общих слоев attention, команда переписала их с нуля под архитектуру M-series. Это дает прирост 15-20%
Оптимизация под Unified Memory - модель знает, как работать с памятью Apple Silicon, минимизируя копирования между CPU и GPU
Агрессивное кэширование - первый запуск занимает 2-3 секунды, последующие - мгновенные

Но есть и минус. Один, но существенный.

Темная сторона скорости

Qwen3-ASR на MLX требует минимум 8GB памяти для 4-bit версии. На MacBook Air M2 с 8GB это будет работать, но без фоновых приложений.

Сравниваешь с оригинальной Qwen3-ASR, которая через ChatLLM.cpp умеет работать на чем угодно, и понимаешь - за скорость платим памятью.

Еще один нюанс: поддержка языков. Хотя модель заявлена как 52-язычная, лучшая точность все еще на английском и китайском. Русский работает, но WER около 8-9% против 4% у английского.

Кому это нужно прямо сейчас

Если у тебя:

Mac с M3/M4 и 16GB+ памяти
Регулярная работа с английскими подкастами, интервью, лекциями
Ненависть к облачным сервисам в стиле "плати 20$ в месяц за то, что твой Mac умеет сам"

Тогда Qwen3-ASR на MLX - твой выбор. Скорость транскрипции 10-часового подкаста - около часа. С Whisper v3 Large это заняло бы 5 часов.

Если же у тебя базовый MacBook Air M1 с 8GB и нужна транскрипция раз в месяц - возможно, проще использовать ChatLLM.cpp версию. Медленнее, но работает на любом железе.

Что будет дальше?

Я спросил у одного из разработчиков, что они планируют. Ответ: "Qwen3-ASR 3B с 4-bit квантованием, который должен быть быстрее текущей 1.7B".

Звучит как бред. Больше параметров - но быстрее? В теории невозможно. Но с MLX и Apple Silicon я уже перестал удивляться.

Еще один тренд: интеграция с синтезом речи типа Serpentine TTS. Представь: говоришь на русском, модель транскрибирует в текст, переводит на английский, синтезирует речь с английским акцентом. Все локально. Все за секунды.

Но самое интересное - что Apple до сих пор не выпустила нативную STT модель под MLX. Когда это случится (а это случится), будет очередная революция. А пока - Qwen3-ASR на MLX держит корону самой быстрой open-source модели распознавания речи для Mac.

Попробуй. Запусти тест на своем Mac. И приготовься удивляться.

Распознавание речи на Mac в 4.7 раза быстрее: запуск Qwen3-ASR с MLX, квантованием и тестами