Помните, как в прошлом году все говорили, что для клонирования голоса нужно минимум 30 секунд чистого аудио?

Alibaba решила, что это слишком много. Qwen3-TTS 1.7B, обновленная на начало 2026 года, теперь справляется с задачей за три секунды. Да, вы не ослышались - три секунды. Столько, сколько нужно, чтобы сказать "привет, как дела?".

Важное уточнение: речь о модели Qwen3-TTS-CustomVoice-1.7B, самой свежей версии на январь 2026. Предыдущая требовала 30 секунд, новая - в десять раз меньше.

Что изменилось в архитектуре?

Разработчики не стали публиковать детали в открытом доступе, но по косвенным признакам видно: они убрали лишние слои из энкодера голосовых признаков. Раньше модель анализировала аудио как цельный поток, теперь разбивает на микросегменты и сравнивает паттерны.

На практике это значит, что если у вас есть запись с фоновым шумом или неидеальной дикцией - модель все равно выцепит характерные черты голоса. Проверял на записи с улицы (машины, ветер) - работает. Проверял на шепоте - тоже работает, хотя качество страдает.

Портативная версия для Windows: зачем она нужна?

Потому что нормальные люди не хотят возиться с Python, виртуальными окружениями и зависимостями. Хотят скачать, запустить и получить результат.

На официальном GitHub такой версии нет. Ее собрали энтузиасты из сообщества OpenVoice-Tools. Скачиваете архив (около 4 ГБ), распаковываете, запускаете qwen_tts_gui.exe. Все.

Внимание: портативная версия требует CUDA 12.4 и видеокарты с минимум 6 ГБ VRAM. На интегрированной графике Intel или слабой AMD не запустится. Проверяйте совместимость перед скачиванием.

Интерфейс, который не стыдно показать

Выглядит это так: слева поле для текста (до 5000 символов за раз), справа - кнопка загрузки аудио и выбор языка. Русский идет вторым в списке после английского, что уже приятно.

Загружаете любой аудиофайл (WAV, MP3, даже OGG), жмете "Клонировать голос", ждете 10-15 секунд (модель загружается в память), потом генерируете речь. Первая генерация занимает около 30 секунд, последующие - 2-3 секунды на предложение.

💡

Совет: если клонируете свой голос, говорите нейтрально, без эмоций. Модель лучше копирует тембр, чем интонации. Хотите передать эмоции - используйте SSML разметку в тексте.

Тест на русском: где спотыкается модель

Взял три разных голоса: мужской баритон, женский сопрано и детский. Записал по три секунды каждого ("да, конечно, я согласен", "подождите минутку", "не понимаю о чем вы").

Результаты:

Голос	Качество клона	Проблемы
Мужской баритон	8/10	Слегка завышает тон на долгих гласных
Женский сопрано	7/10	Иногда "срывается" на шипящих
Детский	5/10	Делает голос старше, теряет характерную "детскость"

С русским языком справляется неплохо, но есть нюансы. Слово "звонит" произносит правильно (ударение на второй слог), а вот "договор" иногда коверкает. Сложные технические термины - проблема, но это общая беда всех TTS моделей.

Сравнение с альтернативами: что лучше в 2026?

Если помните наше сравнение open-source моделей для TTS, там лидировал XTTS-v2. Сейчас ситуация изменилась.

XTTS-v2: все еще требует 6+ ГБ VRAM, но качество русского языка немного лучше. Зато для клонирования нужно больше аудио - минимум 10 секунд.
LuxTTS (из нашей статьи про быстрый клон): быстрее, но только для английского. Русский через адаптацию звучит нелепо.
Coqui TTS: мультиязычная, но качество клонирования хуже. Зато запускается на 4 ГБ VRAM.
ElevenLabs: облачный сервис, качество выше, но платно и ваши данные уходят на чужие серверы.

Qwen3-TTS 1.7B занимает золотую середину: достаточно качественно, достаточно быстро, достаточно мало ресурсов.

Кому подойдет эта портативная версия?

Не всем. Вот три типа пользователей, для которых она создана:

Подкастеры, которые хотят создать интро голосом известной личности (этично ли это - другой вопрос). Записываете 3 секунды из интервью, клонируете, генерируем "добро пожаловать в наш подкаст".
Разработчики игр на ранней стадии. Нужны голоса для NPC, а бюджет нулевой. Записываете себя с разными интонациями, клонируете, получаете десяток уникальных голосов.
Создатели образовательного контента. Записали свою лекцию, хотите сделать аудиоверсию, но читать 5 часов нет сил. Клонируете голос, конвертируете текст в речь с помощью конвертера аудиокниг на Qwen3 TTS.

Юридическое предупреждение: клонирование голоса без согласия человека может нарушать законы о персональных данных. В некоторых странах это уголовно наказуемо. Используйте только для своего голоса или с явного разрешения.

Что делать, если портативная версия не запускается?

Такое бывает. Windows - коварная система. Вот частые проблемы и решения:

Ошибка CUDA: обновите драйвера NVIDIA до версии 560+. Старые не работают с CUDA 12.4.
Не хватает памяти: закройте браузер. Серьезно, Chrome съедает 2-3 ГБ VRAM просто так.
Антивирус блокирует: добавьте папку с Qwen3-TTS в исключения. Это не вирус, просто антивирусы не любят исполняемые файлы без цифровой подписи.
Нет звука на выходе: проверьте, установлен ли кодек AAC. Если нет - скачайте K-Lite Codec Pack Basic.

А что насчет длинных текстов?

Портативная версия ограничена 5000 символами за раз. Для аудиокниг этого мало. Но выход есть: генерируете по частям, склеиваете в Audacity или любом другом редакторе.

Для профессиональной работы лучше использовать полную версию с Python, как в нашем гайде по запуску Qwen3-TTS. Там можно настроить паузы между абзацами, управлять интонацией через SSML, обрабатывать тысячи страниц автоматически.

Заключительный вердикт

Qwen3-TTS 1.7B с портативной версией для Windows - это не идеальный инструмент. Это удобный инструмент. Тот, который работает здесь и сейчас, без танцев с бубном.

Три секунды на клонирование - это прорыв. Месяц назад такое было невозможно. Через месяц, возможно, будет что-то еще лучше. Но сегодня это один из лучших вариантов для быстрого локального клонирования голоса на русском языке.

Скачивайте, тестируйте, делитесь результатами в комментариях. И помните: с большой силой приходит большая ответственность. Не используйте чужие голоса во зло.

Три секунды и ваш голос клонирован: тест Qwen3-TTS 1.7B с портативной версией для Windows