Qwen3-TTS: синтез и клонирование голоса на 10 языках в 2026 | AiManual
AiManual Logo Ai / Manual.
22 Янв 2026 Инструмент

Qwen3-TTS: полный гайд по запуску открытых моделей для синтеза, дизайна и клонирования голоса на 10 языках

Полное руководство по Qwen3-TTS. Установка, сравнение моделей VoiceDesign и CustomVoice, примеры кода для синтеза и клонирования голоса на русском и других язык

Qwen3-TTS: китайский ответ ElevenLabs, который можно запустить на ноутбуке

Помните, как в 2025 все хвалили f5-tts за качество, а потом читали лицензию и плакали? Или как XTTS-v2 требовал видеокарту за тысячу долларов? Alibaba принесла свой вариант решения - Qwen3-TTS. И это не просто очередная модель синтеза речи. Это целое семейство инструментов, которые умеют три вещи: генерировать голос с нуля, клонировать его по образцу и делать это на 10 языках, включая русский.

Самое интересное - размеры. 0.6 миллиарда параметров для базовой версии и 1.8 миллиарда для продвинутой. Для сравнения: тот же XTTS-v2 весит около 2.7 миллиардов. Разница кажется небольшой, но на практике Qwen3-TTS запускается на 6 ГБ VRAM, а не на 8. Это разница между "нужна игровая видеокарта" и "сойдет старая рабочая".

На 22.01.2026 Qwen3-TTS - одна из немногих открытых моделей с официальной поддержкой русского языка. Не через адаптацию, не через костыли, а из коробки.

Три головы одного дракона: Base, VoiceDesign, CustomVoice

Разработчики не стали делать одну модель на все случаи жизни. Вместо этого разделили функционал:

МодельДля чегоРазмерОсобенность
Qwen3-TTS-BaseСтандартный синтез0.6B / 1.8B14 предустановленных голосов
Qwen3-TTS-VoiceDesignГенерация нового голоса1.8BСоздание по описанию ("молодая женщина с хрипотцой")
Qwen3-TTS-CustomVoiceКлонирование голоса1.8BПо 30 секундам аудио

VoiceDesign - это то, чего не хватало в open-source мире. Вместо того чтобы перебирать предустановленные голоса, можно просто описать, что нужно. "Мужчина 40 лет, низкий голос, говорит медленно". Модель генерирует соответствующий голосовой профиль. Работает ли это на русском? Да, но с оговорками: английские описания дают более предсказуемый результат.

💡
CustomVoice требует всего 30 секунд аудио для клонирования. Для сравнения: некоторые модели просят 5-10 минут. Но есть нюанс - эти 30 секунд должны быть чистыми, без фонового шума и с четкой дикцией.

Установка: от демо на Hugging Face до локального сервера

Самый быстрый способ попробовать - демо на Hugging Face. Выбираете модель, вводите текст, получаете аудио. Но демо имеет ограничения: очередь, лимит на длину текста, нельзя использовать свои аудио для клонирования.

Для серьезной работы нужна локальная установка. Вот минимальный набор команд:

# Клонируем репозиторий
git clone https://github.com/QwenLM/Qwen3-TTS.git
cd Qwen3-TTS

# Устанавливаем зависимости (Python 3.9+)
pip install -r requirements.txt

# Дополнительно для GPU (если есть)
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu124

Требования к железу на 2026 год:

  • CPU: Работает, но медленно. Для коротких фраз сойдет.
  • GPU: Минимум 6 ГБ VRAM для 1.8B модели. NVIDIA с архитектурой Turing или новее.
  • RAM: 16 ГБ для комфортной работы.
  • Диск: 4-8 ГБ для моделей и кэша.

Первая генерация: код, который работает прямо сейчас

Вот как выглядит базовый синтез на Qwen3-TTS-Base-1.8B:

from qwen_tts import QwenTTS
import torch

# Инициализация модели
model = QwenTTS(model="Qwen/Qwen3-TTS-Base-1.8B", device="cuda")

# Текст для синтеза
text = "Привет, мир! Это тест синтеза речи на русском языке."

# Выбор голоса (из 14 доступных)
voice = "female_01"  # female_01 - female_07, male_01 - male_07

# Генерация аудио
audio = model.synthesize(text, voice=voice, language="ru")

# Сохранение результата
import soundfile as sf
sf.write("output.wav", audio, samplerate=24000)

Что здесь важно? Частота дискретизации 24000 Гц - стандарт для современных TTS моделей. Качество достаточно для большинства задач, но не для студийной записи.

Не используйте device="auto" если у вас несколько GPU. Модель может загрузиться не на ту видеокарту. Всегда указывайте явно: "cuda:0" для первой, "cuda:1" для второй.

Клонирование голоса: 30 секунд до вашего цифрового двойника

CustomVoice - самая интересная часть пакета. Технически это few-shot learning: модель изучает голос по короткому образцу и применяет его к новому тексту.

from qwen_tts import QwenTTS
import soundfile as sf

# Загрузка модели для клонирования
model = QwenTTS(model="Qwen/Qwen3-TTS-CustomVoice-1.8B", device="cuda")

# Загрузка референсного аудио (ваш голос)
reference_audio, sr = sf.read("my_voice.wav")

# Проверка: аудио должно быть моно, 24000 Гц, 30 секунд
if sr != 24000:
    # Ресемплинг если нужно
    import librosa
    reference_audio = librosa.resample(reference_audio, orig_sr=sr, target_sr=24000)

# Текст для синтеза вашим голосом
text = "Этот текст будет произнесен моим голосом, хотя я его никогда не говорил."

# Клонирование
audio = model.synthesize(text, reference_audio=reference_audio, language="ru")

sf.write("cloned_voice.wav", audio, 24000)

Проблема, с которой столкнетесь: качество клонирования сильно зависит от референсного аудио. Шумная запись с микрофона за 1000 рублей даст плохой результат. Нужна чистая запись, желательно с USB-микрофона или интерфейса.

Генерация голоса по описанию: когда нужен не ваш голос, а какой-то конкретный

VoiceDesign - уникальная фича. Вместо подбора из предустановленных вариантов генерируете голос по текстовому описанию.

from qwen_tts import QwenTTS

model = QwenTTS(model="Qwen/Qwen3-TTS-VoiceDesign-1.8B", device="cuda")

# Описание голоса на английском (работает лучше)
voice_description = "A young woman in her twenties with a clear and cheerful voice"

# Или на русском (экспериментально)
# voice_description = "Молодая женщина с чистым и радостным голосом"

text = "Добро пожаловать в наш подкаст о технологиях искусственного интеллекта."

# Генерация с созданным голосом
audio = model.synthesize(
    text, 
    voice_description=voice_description,
    language="ru"
)

Здесь есть ограничение: описания на английском работают стабильнее. Русские описания модель понимает, но результат менее предсказуем. Видимо, обучали в основном на англоязычных данных.

10 языков: какой работает лучше всего?

Официально поддерживаются: английский, китайский, японский, корейский, французский, немецкий, испанский, итальянский, португальский и русский.

Мой тест на 22.01.2026 показывает:

  • Английский и китайский: Идеально. Ожидаемо - это родные языки разработчиков.
  • Русский: Хорошо, но с акцентом. Интонации иногда неестественные, ударения в сложных словах могут сбиваться.
  • Европейские языки (французский, немецкий, испанский): Качество на уровне русского. Проблемы с произношением специфических звуков.
  • Японский и корейский: Работает, но требует проверки носителем. Тональности в корейском могут теряться.

Для русского языка совет: используйте SSML разметку для расстановки ударений. Модель ее понимает.

text_with_ssml = """

  Правильное ударение в слове звонИт важно.
  Пауза между абзацами: 

"""

Сравнение с альтернативами: что выбрать в 2026?

Qwen3-TTS не существует в вакууме. Вот как она выглядит на фоне конкурентов:

МодельПлюсыМинусыДля кого
Qwen3-TTSМультиязычность, VoiceDesign, умеренные требованияРусский с акцентом, документация на китайскомМультиязычные проекты, быстрый старт
XTTS-v2Лучшее качество русского, естественные интонацииТребует 8+ ГБ VRAM, только клонированиеАудиокниги на русском, если есть мощная GPU
Sonya TTSБыстрая, работает на CPUТолько английский, базовые голосаПрототипы, демо-проекты
Pocket-TTSМиниатюрная, работает на чем угодноНизкое качество, ограниченные возможностиВстраивание в мобильные приложения
ElevenLabsЛучшее качество на рынкеДорого, закрытый код, зависимость от APIКоммерческие проекты с бюджетом

Главное преимущество Qwen3-TTS - баланс. Не самое лучшее качество, но хорошее. Не самая легкая модель, но запускается на среднем железе. Не идеальный русский, но работает из коробки.

Практическое применение: где это использовать уже сегодня

1. Мультиязычные голосовые ассистенты. Одна модель для 10 языков вместо десяти разных моделей. Экономия на памяти и вычислительных ресурсах.

2. Генерация голосов для игровых NPC. VoiceDesign позволяет создавать уникальные голоса по описанию: "старый гном-кузнец", "молодая эльфийская лучница".

3. Озвучка образовательного контента. Когда нужен голос для курса на нескольких языках, но бюджет не позволяет нанимать дикторов.

4. Быстрое прототипирование. Нужно проверить, как будет звучать интерфейс с голосовым управлением? Qwen3-TTS дает результат за минуты, а не за дни.

5. Доступность. Добавление голосового сопровождения для слабовидящих пользователей на их родном языке.

💡
Для длинных текстов (аудиокниги, подкасты) разбивайте текст на абзацы по 2-3 предложения. Модель лучше справляется с короткими фразами. Между абзацами добавляйте паузы через SSML.

Ограничения и подводные камни

1. Документация. Основная - на китайском. Английская версия есть, но переведена машинно. Приходится разбираться в коде.

2. Качество русского. Да, работает. Но звучит как человек, который выучил русский как иностранный. Для технических текстов сойдет, для художественной литературы - нет.

3. Стабильность. На длинных текстах (500+ символов) иногда сбивается интонация, голос "зацикливается" на одной ноте.

4. Лицензия. Apache 2.0 - можно использовать коммерчески. Но есть требование: если модифицируете модель, должны указать изменения. Стандартное условие для open-source.

5. Поддержка сообщества. Основное обсуждение ведется на китайских форумах. Если столкнетесь с проблемой, готовьтесь использовать переводчик.

Что дальше? Прогноз на 2026-2027

Alibaba активно развивает экосистему Qwen. Уже есть интеграция с vLLM-Omni для ускорения инференса. В планах - увеличение количества языков до 20-30, улучшение качества за счет большего датасета, возможно, версия с 3-4 миллиардами параметров для студийного качества.

Но главный тренд 2026 года - не увеличение размеров моделей, а их оптимизация. Такие проекты как Soprano-Factory показывают, что можно добиться хорошего качества на моделях в 100 миллионов параметров. Qwen3-TTS идет по этому пути - достаточно большая для качества, достаточно маленькая для доступности.

Мой совет: если нужен мультиязычный TTS здесь и сейчас - Qwen3-TTS лучший выбор среди открытых решений. Если нужен идеальный русский - смотрите в сторону XTTS-v2 или готовьтесь к тонкой настройке. А если хочется экспериментировать - попробуйте обучить LoRA для VibeVoice на своих данных. Качество будет выше, но времени уйдет больше.

И последнее: не ждите от open-source TTS 2026 года чудес. Это инструменты, которые решают конкретные задачи. Qwen3-TTS решает задачу "мне нужен работающий синтез на нескольких языках без аренды серверов за $1000 в месяц". И с этой задачей справляется.