Какая TTS модель лучшая для локального использования на Windows?

По результатам TTS-Bench лучшая универсальная модель — LuxTTS v1.4 (MOS 4.32, RTF 0.15). Для CPU-ограниченных систем подойдёт Kokoro (RTF 0.10, MOS 3.89).

Как запустить TTS-Bench самостоятельно?

Клонируйте репозиторий, установите зависимости и выполните python run_benchmark.py --models all --dataset news1k. Результат — HTML-отчёт с аудиопримерами.

На каком языке тестировались модели?

Датасеты включают русский, английский, китайский и немецкий языки. Модели тестировались на каждом языке отдельно.

TTS-Bench: бенчмарк локальных TTS моделей 2026

Выбор TTS модели — лотерея, пока не появился этот бенчмарк

Каждый раз, когда нужно подобрать голос для локального ассистента или озвучки видео, руки опускаются. Piper — шустрый, но косноязычный. Kokoro — звонкий, но фальшивый. Qwen3-TTS — умный, но требует RTX 4060 минимум. А ещё есть десятки малоизвестных моделей, которые кто-то хвалит в комментариях, но никаких внятных тестов нет. В 2026 году это ненормально.

На GitHub появился репозиторий tts-bench — первый открытый бенчмарк, который прогоняет все актуальные TTS-модели на единых датасетах и выдаёт таблицу с метриками. Без рекламы, без ухищрений «под свою лошадку». Просто факты: скорость, натуральность, размер модели, потребление памяти. И, что главное, — результаты для Windows, macOS и Linux с реальными железяками.

Сразу суть: лучшая универсальная модель на начало 2026 — LuxTTS v1.4. Она обходит Piper по естественности на 37%, а Kokoro по стабильности на 20%. Но есть важные нюансы для конкретных задач. О них — ниже.

Что внутри TTS-Bench и почему этому можно верить

Автор бенчмарка — инженер, который долгое время занимался оценкой локальных LLM и решил перенести тот же подход на TTS. В основе — три набора тестов: короткие фразы (2-5 слов), новостной дикторский текст и эмоциональные монологи (отрывки из фильмов). Каждый текст проходит через все модели, а потом аудио оценивается по трём шкалам:

Naturalness (MOS) — субъективная естественность по 5-балльной шкале с участием 50 человек.
Word Error Rate (WER) — сколько слов синтезировалось неразборчиво (проверяется через Whisper Large v3).
RTF (Real-Time Factor) — сколько секунд нужно, чтобы сгенерировать 1 секунду речи. Ниже — лучше.

Все модели запускались локально: на Windows с NVIDIA RTX 3060, на macOS M2 Pro и на Linux с AMD RX 6700. Именно это даёт объективную картину для обычного пользователя, а не для дата-центра.

Таблица лидеров: кто кого

В бенчмарк вошли 14 моделей, включая Piper, Kokoro, Qwen3-TTS, LuxTTS, StyleTTS 2, VITS, FastSpeech 2 и несколько нейрокодеков. Вот ключевые результаты:

Модель	MOS	WER (%)	RTF (GPU)	Параметры
LuxTTS v1.4	4.32	2.1%	0.15	600M
Qwen3-TTS	4.21	3.5%	0.22	820M
Kokoro v0.8	3.89	5.7%	0.10	350M
Piper	3.45	8.2%	0.06	180M
StyleTTS 2	4.05	4.3%	0.19	500M

LuxTTS v1.4 неожиданно вырвался вперёд — не самая большая модель, но отличный баланс скорости и качества. Подробный разбор LuxTTS показал, что он особенно хорош на длинных текстах — контекстное осознание у него выше, чем у Piper в 2 раза. Авторы TTS-Bench подтвердили это на своих датасетах.

Но вот сюрприз: Qwen3-TTS, который многие хвалят как «умный TTS», проиграл LuxTTS не только по MOS, но и по WER. Причина — переобучение на китайских текстах, английские диалоги модель отрабатывает хуже. Если ваш контент на русском или английском — LuxTTS надёжнее.

А как же цена? Только локально и бесплатно

Все модели в бенчмарке — open-source. Никаких API-ключей и лимитов на запросы. TTS-Bench сам подтягивает веса из Hugging Face и запускает синтез прямо на вашей машине. Инструмент генерирует красивый HTML-отчёт с графиками и аудиопримерами. Выглядит это так: открываете страницу, видите сводную таблицу, а рядом — кнопки «прослушать». Можно сразу оценить разницу.

Требования к железу скромные: для Windows — хотя бы 4 ГБ видеопамяти, для Mac — 8 ГБ объединённой памяти. На Linux — для AMD ROCm нужно повозиться с драйверами, но базовая поддержка есть.

Неожиданные открытия и спорные моменты

Самое интересное — не в топе. Например, старая добрая VITS (версия 2) набрала 3.75 MOS, но RTF на CPU у неё — 2.3, тогда как Kokoro справляется за 0.8 на том же процессоре. Вывод: для реального времени CPU-модели всё ещё уступают, а VITS без GPU — мучение.

Другой сюрприз: многоголосые модели (типа YourTTS) на коротких фразах «съезжали» в хуже естественность, зато на диалогах с двумя разными голосами — лидировали. Если нужно озвучивать чаты или интервью — стоит смотреть в сторону мультиспикерных решений. TTS-Bench это честно показывает.

Кому это реально нужно

Разработчикам локальных помощников. Если контекстный TTS для ассистента — ваша тема, без бенчмарка не обойтись. Выбирайте LuxTTS или Qwen3-TTS, но проверьте, как они ведут себя на ваших данных.

Видеопродюсерам и подкастерам. Kokoro на русском языке даёт неплохой результат при низких затратах. А для англоязычного контента — LuxTTS стабильнее. TTS-Bench включает примеры на русском, английском, китайском и немецком.

Исследователям. Бенчмарк позволяет добавлять свои модели — достаточно скрипта-обёртки. Это отличный способ объективно сравнить новый эксперимент с существующими.

Как самому запустить тесты

Репозиторий TTS-Bench содержит готовый скрипт. Клонируете, ставите зависимости (conda environment), запускаете:

git clone https://github.com/tts-bench/tts-bench.git
cd tts-bench
python run_benchmark.py --models all --dataset news1k

Скрипт скачает модели и датасеты, прогонит тест и сгенерирует отчёт. Время выполнения — от 20 минут до 2 часов, в зависимости от количества моделей и мощности вашего GPU.

Кстати, авторы недавно дополнили бенчмарк методологией оценки, похожей на ту, что используется в сообществе LLM. Это позволяет сопоставлять «интеллект» TTS с качеством речи — тема, которая только начинает набирать обороты.

Чего не хватает и что дальше

TTS-Bench ещё не включает оценку эмоциональной выразительности и вариативности интонаций. Это субъективные вещи, и обмануть бенчмарк, накрутив MOS, — реально. Но для грубой фильтрации «шумная модель / чистая модель» он работает отлично. Следующий логичный шаг — добавить тесты на multi-speaker и клонирование голоса. Надеюсь, к концу 2026 такая разметка появится.

💡

Не используйте самую «естественную» модель для озвучки аудиокниг, если у неё плохой WER на сложных словах. Всегда смотрите на сочетание метрик. TTS-Bench даёт именно эту комбинацию. Самый быстрый путь к качеству — LuxTTS v1.4 на GPU плюс Piper как fallback для CPU.

Подписаться на канал

Сравнение всех TTS моделей до 2026: бенчмарк и результаты для локального использования