Когда облака надоели: локальная ASR с Qwen3 и GGML

Представьте: вам нужно распознать аудио на хинди, но интернет отвалился. Или обработать 100 часов записей, а API OpenAI съедает бюджет. Или просто не хочется, чтобы ваши разговоры улетали в неизвестность. Вот тут и появляется GGML-версия Qwen3-ASR.

На 04.02.2026 это одна из немногих моделей, которая работает локально, поддерживает 52 языка и при этом занимает меньше места, чем пара фильмов в HD. И да, она бесплатная.

💡

GGML (Georgi Gerganov Machine Learning) — формат для запуска больших моделей на CPU. Не требует видеокарты, работает даже на Raspberry Pi. Q8 — квантование до 8 бит, что сокращает размер модели в 4 раза с минимальной потерей качества.

Что умеет эта штука на самом деле

Базовый Qwen3-ASR — это 1.7-миллиардная модель от Alibaba, обученная на 52 языках. В GGML-версии она превращается в файл на 1.8 ГБ вместо оригинальных 7+ ГБ. Но магия не только в сжатии.

Forced alignment: когда нужно знать не только что, но и когда

Обычные ASR-модели выдают текст. Qwen3-ASR с forced alignment выдает текст с таймкодами для каждого слова. Это критично для субтитров, анализа диалогов или создания интерактивных транскриптов.

В теории звучит просто. На практике большинство локальных решений либо не поддерживают выравнивание, либо требуют отдельной модели. Здесь всё в одном флаконе.

Функция	Qwen3-ASR GGML Q8	Whisper.cpp (аналог)
Размер модели	~1.8 ГБ	~1.5 ГБ (tiny)
Языки	52	99+
Forced alignment	Встроенный	Требует отдельной модели
Потребление RAM	~2 ГБ	~1.5 ГБ
Скорость (на CPU)	~1.5x реального времени	~0.8x реального времени

Почему не Whisper? (Спойлер: не всегда)

Whisper от OpenAI — золотой стандарт. Но у него есть два недостатка для локального использования: размер и отсутствие встроенного выравнивания. Модель large занимает 3+ ГБ даже в квантованном виде, а для forced alignment нужна отдельная библиотека вроде gentle.

Qwen3-ASR в GGML-версии решает обе проблемы. Меньше весит, alignment встроен. Но есть нюанс: качество на редких языках. Если вам нужен суахили или иврит, Whisper всё ещё лучше. Для английского, русского, китайского — разница почти незаметна.

Важный момент на 04.02.2026: последняя версия Qwen3-ASR (1.7B) получила значительные улучшения в распознавании акцентов. Если в 2024 году она отставала от Whisper v3 Large, сейчас разница сократилась до 2-3% WER на основных языках.

Кому это реально нужно

Не всем. Если вы делаете разовую транскрибацию на английском, проще использовать Whisper + Ollama. Но есть сценарии, где Qwen3-ASR в GGML бьёт всех.

Edge-устройства и Raspberry Pi

2 ГБ оперативки — это смешные требования. Модель запускается на одноплатниках, старых ноутбуках, даже на некоторых телефонах (через Termux). Для IoT-проектов с голосовым управлением — идеально.

Пакетная обработка без облаков

100 часов аудио через API OpenAI обойдутся в сотни долларов. Локально — бесплатно, кроме электричества. Скорость 1.5x реального времени означает, что сервер за сутки обработает 36 часов записей.

Конфиденциальность как must-have

Юристы, врачи, бизнес-переговоры — всё, что нельзя отправлять в облако. Здесь даже интернет не нужен.

Как это выглядит в работе

Самая популярная обёртка — ChatLLM.cpp. Установка занимает пять минут:

git clone https://github.com/ggerganov/chatllm.cpp
cd chatllm.cpp
python3 -m pip install -r requirements.txt

Загрузка модели (на 04.02.2026 актуальная версия — qwen3-asr-1.7b-q8_0.gguf):

python3 chatllm.py --model qwen3-asr-1.7b-q8_0.gguf --asr --audio your_file.wav

Результат — JSON с текстом и таймкодами. Можно интегрировать в свои скрипты, отправлять в базу данных, использовать для создания аудиокниг с синхронизацией.

💡

Для продвинутого использования есть флаг --align, который включает детальное выравнивание на уровне слов. Без него модель выдаёт только общий текст с примерными временными метками.

Подводные камни (потому что они всегда есть)

Первое: качество квантования Q8. Это 8 бит вместо 32. На практике потери составляют 1-2% точности. Но если ваш аудио noisy (шумная запись, плохой микрофон), эти проценты могут стать заметными.

Второе: память. 2 ГБ — это минимум. На самом деле модель загружается в RAM, плюс буферы для аудио, плюс сам Python. Итог: нужно 3-4 ГБ свободной оперативки. На устройстве с 2 ГБ RAM она не запустится, несмотря на заявления.

Третье: сообщество. У Whisper.cpp тысячи пользователей, сотни issue на GitHub. У Qwen3-ASR в GGML — пока десятки. Если столкнётесь с багом на редком языке, решать его придётся самостоятельно.

Что дальше? (Спойлер: всё становится меньше)

На 04.02.2026 уже есть эксперименты с Q4 квантованием (4 бита) для Qwen3-ASR. Размер модели падает до 900 МБ, качество — на 3-4% хуже. Для некоторых задач приемлемо.

Ещё одно направление — интеграция с Qwen3-TTS. Полный голосовой pipeline: распознавание → обработка текста → синтез. Всё локально, всё на CPU.

Мой прогноз: к концу 2026 года мы увидим ASR-модели размером 500 МБ с качеством сегодняшнего Whisper Large. И они будут работать на часах. Не на умных часах — на обычных механических с чипом. (Шучу. Но почти.)

Если выбираете между разными ASR-решениями, посмотрите наше сравнение моделей для английского. Там есть тесты на реальных данных, а не маркетинговые цифры.

Итог: кому стоит качать

Разработчикам edge-устройств с голосовым управлением
Тем, кто обрабатывает тонны аудио и не хочет платить за API
Параноикам (в хорошем смысле), которым важна конфиденциальность
Исследователям, которые экспериментируют с forced alignment
Всем, у кого слабый GPU или нет видеокарты вообще

Остальным, возможно, проще использовать облачные решения или оригинальный Qwen3-ASR с полной точностью. Но сам факт, что в 2026 году можно запустить ASR на 52 языках на ноутбуке десятилетней давности — это уже победа.

И последнее: не верьте бенчмаркам из README. Скачайте модель, дайте ей свой аудиофайл с акцентом, фоновым шумом или быстрой речью. Только так поймёте, подходит ли она вам. Удачи.

GGML реализация Qwen3-ASR: локальное распознавание речи с квантованием Q8 и forced alignment