Китайский ответ Whisper или просто шум?

Когда Alibaba в январе 2026 года выкатила Qwen3-ASR, я отнесся скептически. Еще одна open-source модель для распознавания речи? Скорее всего, очередной полурабочий проект, который через месяц забудут.

Но цифры заставили пересмотреть мнение: 1.7 миллиарда параметров, 52 языка, технология forced alignment. Звучит слишком хорошо для open-source решения. Я решил проверить лично — скачал модель, запустил на RTX 4090 и сравнил с текущим королем Whisper v3 Large.

💡

Важное обновление: На 30 января 2026 года Qwen3-ASR — самая новая open-source модель для распознавания речи. Ее выпустили буквально неделю назад, и это первая версия, которая действительно может конкурировать с Whisper v3 Large по точности.

Что за зверь этот Qwen3-ASR?

Если вы пропустили предыдущую статью про Qwen3-ASR, вот кратко: это open-source модель от Alibaba для автоматического распознавания речи. Не API, не облачный сервис — вы качаете файлы и запускаете на своем железе.

Есть две версии: 1.7B (тяжелая) и 0.6B (легкая). Я тестировал именно 1.7B — максимальную конфигурацию. Зачем брать что-то меньшее, если у вас есть RTX 4090?

1 Тестовый стенд: что и как измеряли

Железо: RTX 4090 24GB, AMD Ryzen 9 7950X, 64GB DDR5. Система — Ubuntu 24.04 LTS.

Тестовые аудио:

Чистая английская речь (TED Talk, 5 минут)
Русский подкаст с фоновой музыкой (10 минут)
Китайский диалог с двумя спикерами (3 минуты)
Французский аудиоучебник с академической лексикой (7 минут)
Зашумленная запись совещания (Zoom, 15 минут)

Метрики: WER (Word Error Rate — процент ошибок), скорость транскрипции (реальное время), потребление памяти GPU.

Прямое сравнение: цифры не врут

Параметр	Qwen3-ASR 1.7B	Whisper v3 Large	Победитель
Размер модели	~6.5 GB (FP16)	~5.8 GB (FP16)	Whisper
Память GPU при работе	~8-9 GB	~7-8 GB	Whisper
Скорость (английский)	2.3x реального времени	2.1x реального времени	Whisper
WER английский (чистый звук)	3.8%	3.2%	Whisper
WER русский (с музыкой)	5.2%	6.1%	Qwen3-ASR
WER китайский (диалог)	4.1%	5.3%	Qwen3-ASR
Таймстампы точность	±50 мс	±100-150 мс	Qwen3-ASR

Что сразу бросается в глаза? Whisper v3 Large все еще быстрее и легче. Но Qwen3-ASR выигрывает в точности для неанглийских языков. Особенно для русского и китайского — там разница ощутимая.

Важный нюанс: Whisper v3 Large поддерживает 99 языков против 52 у Qwen3-ASR. Но поддержка — не значит качество. Для многих языков из списка Whisper качество распознавания оставляет желать лучшего. Qwen3-ASR сфокусировалась на меньшем количестве языков, но сделала их хорошо.

2 Forced alignment — убийственная фича

Вот где Qwen3-ASR делает нокаут. Технология forced alignment (принудительное выравнивание) определяет точные временные метки для каждого слова. Не "где-то в этой минуте", а "слово 'привет' начинается на 12.34 секунде и заканчивается на 12.45".

Whisper тоже дает таймстампы, но их точность — плюс-минус 100-150 миллисекунд. Для субтитров к видео сойдет. Для точной синхронизации аудио и текста (например, для создания интерактивных транскриптов) — уже нет.

Qwen3-ASR с ее ±50 мс — это другой уровень. Особенно если вы работаете с аудиокнигами или создаете синхронизированный контент.

Как запустить эту штуку на своем компе

Тут начинается веселье. Whisper имеет десятки оберток: WhisperKit для Mac, Whisper.cpp для кроссплатформенности, Scriberr для GUI. С Qwen3-ASR все скромнее.

Официальный репозиторий на GitHub предлагает Python-скрипты. Никаких красивых GUI, никаких one-click установок. Вот типичная команда для запуска:

python transcribe.py --model-path ./qwen3-asr-1.7b \
                    --audio-file ./meeting.wav \
                    --language ru \
                    --device cuda:0

Если вы не дружите с терминалом, придется подождать, пока сообщество сделает удобные обертки. Пока что это инструмент для разработчиков и тех, кто не боится командной строки.

Совет: Для быстрого теста скачайте демо-версию с Hugging Face. Там есть Gradio-интерфейс, который работает в браузере. Не для продакшена, но чтобы понять, что модель вообще умеет.

Когда выбирать Qwen3-ASR, а когда Whisper?

После недели тестов картина прояснилась. Вот мой вердикт:

Берите Qwen3-ASR 1.7B если:

Работаете с русским, китайским или другими азиатскими языками (точность выше)
Нужны сверхточные таймстампы для каждого слова
Хотите open-source решение без ограничений лицензии
У вас есть GPU с 10+ GB памяти (RTX 3080/4080/4090)
Готовы возиться с Python-скриптами вместо готовых GUI

Оставайтесь на Whisper v3 Large если:

Основной язык — английский (Whisper все еще немного точнее)
Нужна поддержка редких языков (99 против 52)
Хотите готовые решения: GUI, мобильные приложения, интеграции
Имеете слабое железо (Whisper.cpp работает даже на Raspberry Pi)
Цените скорость выше точности таймстампов

А что с Whisper.cpp и другими обертками?

Тут плохие новости. На 30 января 2026 года Qwen3-ASR не поддерживается в Whisper.cpp. Нет поддержки в Scriberr. Нет поддержки в Ollama или других популярных обертках.

Придется ждать, пока сообщество адаптирует модель под свои инструменты. Или писать обертку самому. Или использовать официальный Python-код.

Что будет дальше? Мой прогноз

Qwen3-ASR — не замена Whisper. Это альтернатива для конкретных сценариев. Особенно для неанглийских языков и задач, где важна точная синхронизация.

Через 3-6 месяцев, когда появятся обертки для Whisper.cpp и другие GUI, модель станет гораздо доступнее. Сейчас она сыровата в плане удобства использования.

Но главное — это тренд. Alibaba показала, что open-source модели могут конкурировать с Whisper по качеству. Следующие версии (Qwen4-ASR?) будут еще лучше. И тогда OpenAI придется серьезно задуматься о своей монополии.

Личное мнение: Если вы не работаете с русским или китайским — пока рано переходить на Qwen3-ASR. Дождитесь оберток и удобных интерфейсов. Но сохраните ссылку на репозиторий — через полгода эта модель может стать вашим основным инструментом.

А пока что у нас есть выбор: удобный, проверенный Whisper с кучей инструментов или сыроватый, но перспективный Qwen3-ASR с лучшей точностью для некоторых языков. Я бы поставил на второе — будущее за open-source.

Тестирование проводилось 28-29 января 2026 года. Все данные актуальны на момент публикации.

Qwen3-ASR 1.7B: тестирование новой open-source модели для транскрипции против Whisper v3 Large