Выбор TTS модели — лотерея, пока не появился этот бенчмарк
Каждый раз, когда нужно подобрать голос для локального ассистента или озвучки видео, руки опускаются. Piper — шустрый, но косноязычный. Kokoro — звонкий, но фальшивый. Qwen3-TTS — умный, но требует RTX 4060 минимум. А ещё есть десятки малоизвестных моделей, которые кто-то хвалит в комментариях, но никаких внятных тестов нет. В 2026 году это ненормально.
На GitHub появился репозиторий tts-bench — первый открытый бенчмарк, который прогоняет все актуальные TTS-модели на единых датасетах и выдаёт таблицу с метриками. Без рекламы, без ухищрений «под свою лошадку». Просто факты: скорость, натуральность, размер модели, потребление памяти. И, что главное, — результаты для Windows, macOS и Linux с реальными железяками.
Сразу суть: лучшая универсальная модель на начало 2026 — LuxTTS v1.4. Она обходит Piper по естественности на 37%, а Kokoro по стабильности на 20%. Но есть важные нюансы для конкретных задач. О них — ниже.
Что внутри TTS-Bench и почему этому можно верить
Автор бенчмарка — инженер, который долгое время занимался оценкой локальных LLM и решил перенести тот же подход на TTS. В основе — три набора тестов: короткие фразы (2-5 слов), новостной дикторский текст и эмоциональные монологи (отрывки из фильмов). Каждый текст проходит через все модели, а потом аудио оценивается по трём шкалам:
- Naturalness (MOS) — субъективная естественность по 5-балльной шкале с участием 50 человек.
- Word Error Rate (WER) — сколько слов синтезировалось неразборчиво (проверяется через Whisper Large v3).
- RTF (Real-Time Factor) — сколько секунд нужно, чтобы сгенерировать 1 секунду речи. Ниже — лучше.
Все модели запускались локально: на Windows с NVIDIA RTX 3060, на macOS M2 Pro и на Linux с AMD RX 6700. Именно это даёт объективную картину для обычного пользователя, а не для дата-центра.
Таблица лидеров: кто кого
В бенчмарк вошли 14 моделей, включая Piper, Kokoro, Qwen3-TTS, LuxTTS, StyleTTS 2, VITS, FastSpeech 2 и несколько нейрокодеков. Вот ключевые результаты:
| Модель | MOS | WER (%) | RTF (GPU) | Параметры |
|---|---|---|---|---|
| LuxTTS v1.4 | 4.32 | 2.1% | 0.15 | 600M |
| Qwen3-TTS | 4.21 | 3.5% | 0.22 | 820M |
| Kokoro v0.8 | 3.89 | 5.7% | 0.10 | 350M |
| Piper | 3.45 | 8.2% | 0.06 | 180M |
| StyleTTS 2 | 4.05 | 4.3% | 0.19 | 500M |
LuxTTS v1.4 неожиданно вырвался вперёд — не самая большая модель, но отличный баланс скорости и качества. Подробный разбор LuxTTS показал, что он особенно хорош на длинных текстах — контекстное осознание у него выше, чем у Piper в 2 раза. Авторы TTS-Bench подтвердили это на своих датасетах.
Но вот сюрприз: Qwen3-TTS, который многие хвалят как «умный TTS», проиграл LuxTTS не только по MOS, но и по WER. Причина — переобучение на китайских текстах, английские диалоги модель отрабатывает хуже. Если ваш контент на русском или английском — LuxTTS надёжнее.
А как же цена? Только локально и бесплатно
Все модели в бенчмарке — open-source. Никаких API-ключей и лимитов на запросы. TTS-Bench сам подтягивает веса из Hugging Face и запускает синтез прямо на вашей машине. Инструмент генерирует красивый HTML-отчёт с графиками и аудиопримерами. Выглядит это так: открываете страницу, видите сводную таблицу, а рядом — кнопки «прослушать». Можно сразу оценить разницу.
Требования к железу скромные: для Windows — хотя бы 4 ГБ видеопамяти, для Mac — 8 ГБ объединённой памяти. На Linux — для AMD ROCm нужно повозиться с драйверами, но базовая поддержка есть.
Неожиданные открытия и спорные моменты
Самое интересное — не в топе. Например, старая добрая VITS (версия 2) набрала 3.75 MOS, но RTF на CPU у неё — 2.3, тогда как Kokoro справляется за 0.8 на том же процессоре. Вывод: для реального времени CPU-модели всё ещё уступают, а VITS без GPU — мучение.
Другой сюрприз: многоголосые модели (типа YourTTS) на коротких фразах «съезжали» в хуже естественность, зато на диалогах с двумя разными голосами — лидировали. Если нужно озвучивать чаты или интервью — стоит смотреть в сторону мультиспикерных решений. TTS-Bench это честно показывает.
Кому это реально нужно
Разработчикам локальных помощников. Если контекстный TTS для ассистента — ваша тема, без бенчмарка не обойтись. Выбирайте LuxTTS или Qwen3-TTS, но проверьте, как они ведут себя на ваших данных.
Видеопродюсерам и подкастерам. Kokoro на русском языке даёт неплохой результат при низких затратах. А для англоязычного контента — LuxTTS стабильнее. TTS-Bench включает примеры на русском, английском, китайском и немецком.
Исследователям. Бенчмарк позволяет добавлять свои модели — достаточно скрипта-обёртки. Это отличный способ объективно сравнить новый эксперимент с существующими.
Как самому запустить тесты
Репозиторий TTS-Bench содержит готовый скрипт. Клонируете, ставите зависимости (conda environment), запускаете:
git clone https://github.com/tts-bench/tts-bench.git
cd tts-bench
python run_benchmark.py --models all --dataset news1k
Скрипт скачает модели и датасеты, прогонит тест и сгенерирует отчёт. Время выполнения — от 20 минут до 2 часов, в зависимости от количества моделей и мощности вашего GPU.
Кстати, авторы недавно дополнили бенчмарк методологией оценки, похожей на ту, что используется в сообществе LLM. Это позволяет сопоставлять «интеллект» TTS с качеством речи — тема, которая только начинает набирать обороты.
Чего не хватает и что дальше
TTS-Bench ещё не включает оценку эмоциональной выразительности и вариативности интонаций. Это субъективные вещи, и обмануть бенчмарк, накрутив MOS, — реально. Но для грубой фильтрации «шумная модель / чистая модель» он работает отлично. Следующий логичный шаг — добавить тесты на multi-speaker и клонирование голоса. Надеюсь, к концу 2026 такая разметка появится.