Китайский ответ Whisper или просто шум?
Когда Alibaba в январе 2026 года выкатила Qwen3-ASR, я отнесся скептически. Еще одна open-source модель для распознавания речи? Скорее всего, очередной полурабочий проект, который через месяц забудут.
Но цифры заставили пересмотреть мнение: 1.7 миллиарда параметров, 52 языка, технология forced alignment. Звучит слишком хорошо для open-source решения. Я решил проверить лично — скачал модель, запустил на RTX 4090 и сравнил с текущим королем Whisper v3 Large.
Что за зверь этот Qwen3-ASR?
Если вы пропустили предыдущую статью про Qwen3-ASR, вот кратко: это open-source модель от Alibaba для автоматического распознавания речи. Не API, не облачный сервис — вы качаете файлы и запускаете на своем железе.
Есть две версии: 1.7B (тяжелая) и 0.6B (легкая). Я тестировал именно 1.7B — максимальную конфигурацию. Зачем брать что-то меньшее, если у вас есть RTX 4090?
1 Тестовый стенд: что и как измеряли
Железо: RTX 4090 24GB, AMD Ryzen 9 7950X, 64GB DDR5. Система — Ubuntu 24.04 LTS.
Тестовые аудио:
- Чистая английская речь (TED Talk, 5 минут)
- Русский подкаст с фоновой музыкой (10 минут)
- Китайский диалог с двумя спикерами (3 минуты)
- Французский аудиоучебник с академической лексикой (7 минут)
- Зашумленная запись совещания (Zoom, 15 минут)
Метрики: WER (Word Error Rate — процент ошибок), скорость транскрипции (реальное время), потребление памяти GPU.
Прямое сравнение: цифры не врут
| Параметр | Qwen3-ASR 1.7B | Whisper v3 Large | Победитель |
|---|---|---|---|
| Размер модели | ~6.5 GB (FP16) | ~5.8 GB (FP16) | Whisper |
| Память GPU при работе | ~8-9 GB | ~7-8 GB | Whisper |
| Скорость (английский) | 2.3x реального времени | 2.1x реального времени | Whisper |
| WER английский (чистый звук) | 3.8% | 3.2% | Whisper |
| WER русский (с музыкой) | 5.2% | 6.1% | Qwen3-ASR |
| WER китайский (диалог) | 4.1% | 5.3% | Qwen3-ASR |
| Таймстампы точность | ±50 мс | ±100-150 мс | Qwen3-ASR |
Что сразу бросается в глаза? Whisper v3 Large все еще быстрее и легче. Но Qwen3-ASR выигрывает в точности для неанглийских языков. Особенно для русского и китайского — там разница ощутимая.
Важный нюанс: Whisper v3 Large поддерживает 99 языков против 52 у Qwen3-ASR. Но поддержка — не значит качество. Для многих языков из списка Whisper качество распознавания оставляет желать лучшего. Qwen3-ASR сфокусировалась на меньшем количестве языков, но сделала их хорошо.
2 Forced alignment — убийственная фича
Вот где Qwen3-ASR делает нокаут. Технология forced alignment (принудительное выравнивание) определяет точные временные метки для каждого слова. Не "где-то в этой минуте", а "слово 'привет' начинается на 12.34 секунде и заканчивается на 12.45".
Whisper тоже дает таймстампы, но их точность — плюс-минус 100-150 миллисекунд. Для субтитров к видео сойдет. Для точной синхронизации аудио и текста (например, для создания интерактивных транскриптов) — уже нет.
Qwen3-ASR с ее ±50 мс — это другой уровень. Особенно если вы работаете с аудиокнигами или создаете синхронизированный контент.
Как запустить эту штуку на своем компе
Тут начинается веселье. Whisper имеет десятки оберток: WhisperKit для Mac, Whisper.cpp для кроссплатформенности, Scriberr для GUI. С Qwen3-ASR все скромнее.
Официальный репозиторий на GitHub предлагает Python-скрипты. Никаких красивых GUI, никаких one-click установок. Вот типичная команда для запуска:
python transcribe.py --model-path ./qwen3-asr-1.7b \
--audio-file ./meeting.wav \
--language ru \
--device cuda:0
Если вы не дружите с терминалом, придется подождать, пока сообщество сделает удобные обертки. Пока что это инструмент для разработчиков и тех, кто не боится командной строки.
Совет: Для быстрого теста скачайте демо-версию с Hugging Face. Там есть Gradio-интерфейс, который работает в браузере. Не для продакшена, но чтобы понять, что модель вообще умеет.
Когда выбирать Qwen3-ASR, а когда Whisper?
После недели тестов картина прояснилась. Вот мой вердикт:
Берите Qwen3-ASR 1.7B если:
- Работаете с русским, китайским или другими азиатскими языками (точность выше)
- Нужны сверхточные таймстампы для каждого слова
- Хотите open-source решение без ограничений лицензии
- У вас есть GPU с 10+ GB памяти (RTX 3080/4080/4090)
- Готовы возиться с Python-скриптами вместо готовых GUI
Оставайтесь на Whisper v3 Large если:
- Основной язык — английский (Whisper все еще немного точнее)
- Нужна поддержка редких языков (99 против 52)
- Хотите готовые решения: GUI, мобильные приложения, интеграции
- Имеете слабое железо (Whisper.cpp работает даже на Raspberry Pi)
- Цените скорость выше точности таймстампов
А что с Whisper.cpp и другими обертками?
Тут плохие новости. На 30 января 2026 года Qwen3-ASR не поддерживается в Whisper.cpp. Нет поддержки в Scriberr. Нет поддержки в Ollama или других популярных обертках.
Придется ждать, пока сообщество адаптирует модель под свои инструменты. Или писать обертку самому. Или использовать официальный Python-код.
Что будет дальше? Мой прогноз
Qwen3-ASR — не замена Whisper. Это альтернатива для конкретных сценариев. Особенно для неанглийских языков и задач, где важна точная синхронизация.
Через 3-6 месяцев, когда появятся обертки для Whisper.cpp и другие GUI, модель станет гораздо доступнее. Сейчас она сыровата в плане удобства использования.
Но главное — это тренд. Alibaba показала, что open-source модели могут конкурировать с Whisper по качеству. Следующие версии (Qwen4-ASR?) будут еще лучше. И тогда OpenAI придется серьезно задуматься о своей монополии.
Личное мнение: Если вы не работаете с русским или китайским — пока рано переходить на Qwen3-ASR. Дождитесь оберток и удобных интерфейсов. Но сохраните ссылку на репозиторий — через полгода эта модель может стать вашим основным инструментом.
А пока что у нас есть выбор: удобный, проверенный Whisper с кучей инструментов или сыроватый, но перспективный Qwen3-ASR с лучшей точностью для некоторых языков. Я бы поставил на второе — будущее за open-source.
Тестирование проводилось 28-29 января 2026 года. Все данные актуальны на момент публикации.