Китайские товарищи снова удивили. Xiaohongshu (она же RedNote) выкатила в открытый доступ dots.tts 2B — модель синтеза речи с двумя миллиардами параметров, которая по заявленным метрикам уделала всех конкурентов на бенчмарках. Исходники, веса и демки уже на GitHub. Для локального TTS это, пожалуй, самый громкий релиз за последние месяцы. Разбираемся, что там под капотом, стоит ли разворачивать у себя и кому это вообще нужно.
Китайский TTS, который заставил Запад нервничать
Сразу к цифрам: dots.tts 2B — это два миллиарда параметров, архитектура на базе трансформера с потоковым декодером (CausalFlow Matching) и тренировка на датасетах общим объёмом более 200 000 часов. Модель понимает английский, китайский и японский (а по слухам, и русский в планах). Но главное — качество.
В бенчмарках (например, CMOS и MOS) dots.tts 2B обходит такие мастодонты, как CosyVoice 2.0, Fish Speech 1.6 и даже проприетарные решения вроде ElevenLabs. На демо-странице слышно, что голос звучит естественно: паузы, интонации, дыхание — всё на месте. Никакой «роботизации» на сложных предложениях. Модель отлично держит контекст и не срывается в металлический скрежет даже на эмоциональных фразах.
Важный нюанс: dots.tts 2B — это чистый TTS, без встроенного клонирования голоса. Если нужно клонировать тембр за пару секунд, смотрите в сторону LuxTTS или Coqui-AI. Но для генерации речи с нуля dots.tts сейчас — лучший выбор.
По заявлениям авторов, MOS (Mean Opinion Score) модели превышает 4.3, что выше, чем у всех предыдущих открытых моделей. Для сравнения: у CosyVoice 2.0 было 4.15, у качественной коммерческой Azure TTS — около 4.2. Так что dots.tts 2B официально стала новой SOTA среди открытых решений.
2 миллиарда причин попробовать (и одна — нет)
Два миллиарда параметров — это круто, но есть нюанс: железяка. Для инференса в половинной точности (FP16) модель требует около 9 ГБ видеопамяти. Это значит, что на RTX 3060 12 ГБ она влезет, но не привередничайте: нужно ещё место под токены, кодек и прочее. На практике комфортный запуск — минимум 12 ГБ VRAM, в идеале 16+.
Тем не менее, это всё ещё локально. Выбор TTS-движка для продакшена в 2026 уже не ограничивается облаками. Если у вас есть сервер с A100 или H100, dots.tts 2B будет работать с задержкой менее 200 мс на предложение длиной 100 символов. На RTX 3090 — около 500 мс. Терпимо.
Альтернативы на ту же задачу синтеза без клонирования: CosyVoice 2.0 (ещё тяжелее — 3B параметров, но быстрее за счёт оптимизации), Fish Speech 1.6 (1.2B, чуть хуже качество, но легче), Bark (устарел, качество ниже). Для любителей минимализма — Pocket TTS на 100M параметров работает на CPU, но звук «картонный».
Если нужно ещё больше контекстной выразительности (например, для аудиокниг), dots.tts 2B поддерживает управление через SSML и тональные эмбеддинги. В связке с AnyTTS можно легко интегрировать модель в любой AI-пайплайн
Где dots.tts уступает? (спойлер: не везде)
Объективно: dots.tts 2B — это SOTA для одноголосого синтеза. Но есть минусы:
- Нет клонирования голоса. Для клонирования — LuxTTS или Coqui. Если нужно и то, и другое, придётся городить пайплайн.
- Ограниченная поддержка языков. Пока только EN, ZH, JA. Русского нет, хотя модели-токенизаторы позволяют добавить дообучением.
- Требовательность к железу. Kitten TTS v0.8 работает на Raspberry Pi — dots.tts нет.
- Документация хромает. На GitHub есть README, но нет полноценного API для продакшена. Придётся допиливать.
По сравнению с большим бенчмарком TTS-моделей до 2026 видно, что dots.tts 2B выигрывает по естественности, но проигрывает по скорости и удобству развёртывания. Например, Fish Speech быстрее инференсится на слабых GPU, а Sonya TTS проще в установке.
| Модель | Параметров | MOS (ориентир) | VRAM (FP16) | Языки |
|---|---|---|---|---|
| dots.tts 2B | 2B | 4.3 | ~9 ГБ | EN, ZH, JA |
| CosyVoice 2.0 | 3B | 4.15 | ~12 ГБ | EN, ZH |
| Fish Speech 1.6 | 1.2B | 4.0 | ~5 ГБ | EN, ZH, DE, FR, JA |
| Pocket TTS 0.1.3 | 100M | 3.5 | 0 (CPU) | EN, RU (эксп.) |
| Kitten TTS v0.8 | 50-90M | 3.2 | 0 (CPU) | EN, ZH |
Запускаем на своём GPU: терпимо или летает?
GitHub-репозиторий dots.tts предлагает два варианта: через Python (PyTorch) и Docker-образ. Второй проще, но требует nvidia-docker. Приведу типовые шаги (без кода — их найдёте в README): скачиваете веса (около 4.5 ГБ), запускаете скрипт инференса, передаёте текст. Модель использует HiFi-GAN или MelGAN для декодирования мелспектрограммы в аудио.
На RTX 4090 (24 ГБ) модель генерирует 10-секундный фрагмент за 0.6 секунды real-time factor ~0.06. На RTX 3060 — около 0.15 RFT. Для потоковой генерации есть режим с префикс-кэшированием, но он экспериментальный.
Для тех, кто хочет попробовать dots.tts, не возясь с настройкой, есть онлайн-демо. Но для серьёзного использования всё равно нужно локальное развёртывание. Если у вас слабая видеокарта, лучше присмотреться к KittenTTS WebUI в Docker — там вообще CPU подходит.
Кому это реально нужно
dots.tts 2B — инструмент не для всех. Он для тех, кто:
- Создаёт контент на английском, китайском или японском и хочет озвучку, близкую к человеческой.
- Строит голосовых ассистентов с претензией на премиум-качество.
- Исследует TTS и хочет иметь под рукой лучшую открытую модель.
- Занимается аудиопроизводством и может позволить сервер с GPU.
Для сравнения: если вам нужно клонировать голос (создать синтез на основе 5-секундного образца), лучше использовать LuxTTS. Если проект лёгкий и не требует высокого качества — берите Pocket TTS или Kitten TTS. Но когда на кону естественность и эмоции — dots.tts 2B становится королём.
После анализа всех версий в обзоре для создания аудиокниг можно смело сказать: dots.tts 2B — фаворит для повествовательных жанров. Единственная проблема — отсутствие русского, но, возможно, сообщество дообучит модель.
Резюмирую: dots.tts 2B — это прорыв открытого TTS. Но не ждите, что всё заработает из коробки. Придётся разобраться с окружением, возможно, переписать инференс под свои нужды. Зато качество такое, что ElevenLabs нервно курит в углу. И это при том, что модель полностью бесплатна и работает локально.