dots.tts 2B от RedNote: SOTA TTS с открытым кодом для локального запуска | AiManual
AiManual Logo Ai / Manual.
05 Июн 2026 Инструмент

dots.tts 2B: SOTA TTS от RedNote — обзор возможностей и перспективы локального запуска

Обзор dots.tts 2B — новой SOTA модели синтеза речи (TTS) от Xiaohongshu (RedNote). Сравнение с альтернативами, требования к железу, примеры использования и реко

Реклама
hor_partv1

Китайские товарищи снова удивили. Xiaohongshu (она же RedNote) выкатила в открытый доступ dots.tts 2B — модель синтеза речи с двумя миллиардами параметров, которая по заявленным метрикам уделала всех конкурентов на бенчмарках. Исходники, веса и демки уже на GitHub. Для локального TTS это, пожалуй, самый громкий релиз за последние месяцы. Разбираемся, что там под капотом, стоит ли разворачивать у себя и кому это вообще нужно.

Китайский TTS, который заставил Запад нервничать

Сразу к цифрам: dots.tts 2B — это два миллиарда параметров, архитектура на базе трансформера с потоковым декодером (CausalFlow Matching) и тренировка на датасетах общим объёмом более 200 000 часов. Модель понимает английский, китайский и японский (а по слухам, и русский в планах). Но главное — качество.

В бенчмарках (например, CMOS и MOS) dots.tts 2B обходит такие мастодонты, как CosyVoice 2.0, Fish Speech 1.6 и даже проприетарные решения вроде ElevenLabs. На демо-странице слышно, что голос звучит естественно: паузы, интонации, дыхание — всё на месте. Никакой «роботизации» на сложных предложениях. Модель отлично держит контекст и не срывается в металлический скрежет даже на эмоциональных фразах.

Важный нюанс: dots.tts 2B — это чистый TTS, без встроенного клонирования голоса. Если нужно клонировать тембр за пару секунд, смотрите в сторону LuxTTS или Coqui-AI. Но для генерации речи с нуля dots.tts сейчас — лучший выбор.

По заявлениям авторов, MOS (Mean Opinion Score) модели превышает 4.3, что выше, чем у всех предыдущих открытых моделей. Для сравнения: у CosyVoice 2.0 было 4.15, у качественной коммерческой Azure TTS — около 4.2. Так что dots.tts 2B официально стала новой SOTA среди открытых решений.

2 миллиарда причин попробовать (и одна — нет)

Два миллиарда параметров — это круто, но есть нюанс: железяка. Для инференса в половинной точности (FP16) модель требует около 9 ГБ видеопамяти. Это значит, что на RTX 3060 12 ГБ она влезет, но не привередничайте: нужно ещё место под токены, кодек и прочее. На практике комфортный запуск — минимум 12 ГБ VRAM, в идеале 16+.

Тем не менее, это всё ещё локально. Выбор TTS-движка для продакшена в 2026 уже не ограничивается облаками. Если у вас есть сервер с A100 или H100, dots.tts 2B будет работать с задержкой менее 200 мс на предложение длиной 100 символов. На RTX 3090 — около 500 мс. Терпимо.

Альтернативы на ту же задачу синтеза без клонирования: CosyVoice 2.0 (ещё тяжелее — 3B параметров, но быстрее за счёт оптимизации), Fish Speech 1.6 (1.2B, чуть хуже качество, но легче), Bark (устарел, качество ниже). Для любителей минимализма — Pocket TTS на 100M параметров работает на CPU, но звук «картонный».

Если нужно ещё больше контекстной выразительности (например, для аудиокниг), dots.tts 2B поддерживает управление через SSML и тональные эмбеддинги. В связке с AnyTTS можно легко интегрировать модель в любой AI-пайплайн

Где dots.tts уступает? (спойлер: не везде)

Объективно: dots.tts 2B — это SOTA для одноголосого синтеза. Но есть минусы:

  • Нет клонирования голоса. Для клонирования — LuxTTS или Coqui. Если нужно и то, и другое, придётся городить пайплайн.
  • Ограниченная поддержка языков. Пока только EN, ZH, JA. Русского нет, хотя модели-токенизаторы позволяют добавить дообучением.
  • Требовательность к железу. Kitten TTS v0.8 работает на Raspberry Pi — dots.tts нет.
  • Документация хромает. На GitHub есть README, но нет полноценного API для продакшена. Придётся допиливать.

По сравнению с большим бенчмарком TTS-моделей до 2026 видно, что dots.tts 2B выигрывает по естественности, но проигрывает по скорости и удобству развёртывания. Например, Fish Speech быстрее инференсится на слабых GPU, а Sonya TTS проще в установке.

Модель Параметров MOS (ориентир) VRAM (FP16) Языки
dots.tts 2B 2B 4.3 ~9 ГБ EN, ZH, JA
CosyVoice 2.0 3B 4.15 ~12 ГБ EN, ZH
Fish Speech 1.6 1.2B 4.0 ~5 ГБ EN, ZH, DE, FR, JA
Pocket TTS 0.1.3 100M 3.5 0 (CPU) EN, RU (эксп.)
Kitten TTS v0.8 50-90M 3.2 0 (CPU) EN, ZH

Запускаем на своём GPU: терпимо или летает?

GitHub-репозиторий dots.tts предлагает два варианта: через Python (PyTorch) и Docker-образ. Второй проще, но требует nvidia-docker. Приведу типовые шаги (без кода — их найдёте в README): скачиваете веса (около 4.5 ГБ), запускаете скрипт инференса, передаёте текст. Модель использует HiFi-GAN или MelGAN для декодирования мелспектрограммы в аудио.

На RTX 4090 (24 ГБ) модель генерирует 10-секундный фрагмент за 0.6 секунды real-time factor ~0.06. На RTX 3060 — около 0.15 RFT. Для потоковой генерации есть режим с префикс-кэшированием, но он экспериментальный.

Для тех, кто хочет попробовать dots.tts, не возясь с настройкой, есть онлайн-демо. Но для серьёзного использования всё равно нужно локальное развёртывание. Если у вас слабая видеокарта, лучше присмотреться к KittenTTS WebUI в Docker — там вообще CPU подходит.

Кому это реально нужно

dots.tts 2B — инструмент не для всех. Он для тех, кто:

  • Создаёт контент на английском, китайском или японском и хочет озвучку, близкую к человеческой.
  • Строит голосовых ассистентов с претензией на премиум-качество.
  • Исследует TTS и хочет иметь под рукой лучшую открытую модель.
  • Занимается аудиопроизводством и может позволить сервер с GPU.

Для сравнения: если вам нужно клонировать голос (создать синтез на основе 5-секундного образца), лучше использовать LuxTTS. Если проект лёгкий и не требует высокого качества — берите Pocket TTS или Kitten TTS. Но когда на кону естественность и эмоции — dots.tts 2B становится королём.

После анализа всех версий в обзоре для создания аудиокниг можно смело сказать: dots.tts 2B — фаворит для повествовательных жанров. Единственная проблема — отсутствие русского, но, возможно, сообщество дообучит модель.

💡
Если вы уже используете AnyTTS для переключения между моделями, то dots.tts 2B можно подключить как один из бэкендов. Тогда получится гибкая система: для сложных текстов — dots.tts, для быстрых ответов — легковесная модель.

Резюмирую: dots.tts 2B — это прорыв открытого TTS. Но не ждите, что всё заработает из коробки. Придётся разобраться с окружением, возможно, переписать инференс под свои нужды. Зато качество такое, что ElevenLabs нервно курит в углу. И это при том, что модель полностью бесплатна и работает локально.

Подписаться на канал