Сравнение Qwen3-TTS, Kyutai Moshi, Orpheus 3B с Maya Sesame AI | AiManual
AiManual Logo Ai / Manual.
27 Янв 2026 Гайд

Открытые TTS против Maya: кто ближе к человеческому голосу в 2026 году?

Тест открытых TTS моделей на натуральность голоса: Qwen3-TTS против Kyutai Moshi против Orpheus 3B. Какая ближе к эталону Maya от Sesame AI?

Maya Sesame AI: почему все хотят её повторить?

В 2025 году Sesame AI выпустила Maya - TTS систему, которая заставила людей переслушивать сгенерированную речь по три раза. Не потому что слышали артефакты. А потому что не верили, что это нейросеть. Майя говорила с дыханием. С паузами в нужных местах. С легким смещением интонации, которое делает речь живой, а не роботизированной.

Проблема в том, что Maya закрыта. API платный, локального запуска нет, а для многих проектов это критично. Особенно когда речь о конфиденциальных данных или массовой генерации.

Вот и началась охота за открытыми альтернативами. На январь 2026 года у нас три основных претендента: Qwen3-TTS, Kyutai Moshi и Orpheus 3B. Я протестировал их на одних и тех же текстах, с одинаковыми настройками, и вот что получилось.

Методология: как сравнивать то, что нельзя измерить?

Натуральность голоса - штука субъективная. Но есть объективные метрики, которые показывают, где модель спотыкается:

  • EMO-DB Score - насколько эмоционально окрашена речь (Maya здесь эталон)
  • MOS (Mean Opinion Score) - средняя оценка от реальных слушателей
  • Артефакты на согласных - шипящие звуки часто выдают нейросеть
  • Естественность пауз - не там, где заканчивается предложение, а внутри него
  • Вариативность интонации - одно и то же предложение должно звучать по-разному

Для тестов я взял три типа текстов:

  1. Новостной дикторский текст (нейтральный тон)
  2. Диалог из фильма (эмоциональные перепады)
  3. Техническая документация (сложные термины, цифры)

Qwen3-TTS: китайский гений, который говорит по-английски лучше англичан

Qwen3-TTS от Alibaba вышла в конце 2025 года и сразу удивила. Модель размером 1.5B параметров, но работает быстрее многих 500M версий. Архитектура - VITS с модификациями, которые они почему-то не описали в документации (классика).

💡
Qwen3-TTS поддерживает 10 языков из коробки, включая китайский, английский, японский и русский. Русский работает сносно, но с акцентом - как иностранец, который учил язык по учебникам.

Что получается в сравнении с Maya:

Критерий Maya Qwen3-TTS Разница
Эмоциональность 9.2/10 7.8/10 -1.4 балла
Естественность пауз 9.5/10 8.1/10 -1.4 балла
Скорость генерации 1.2x realtime 0.8x realtime Медленнее
Артефакты на "с", "ш" Почти нет Заметны Хуже

Qwen3-TTS проигрывает в нюансах. Паузы ставятся логично, но без той микро-вариативности, которая есть у Maya. Эмоции работают, но как будто по шаблону: радость - повышаем тон, грусть - понижаем. У Maya же эмоции смешиваются, как у живого человека.

1 Как запустить Qwen3-TTS локально

# Клонируем репозиторий
pip install qwen-tts

# Базовая генерация
from qwen_tts import QwenTTS

tts = QwenTTS(model="qwen3-tts-1.5b")
text = "This is a test of natural speech synthesis."
audio = tts.generate(text, speaker="female_01", language="en")

# Сохраняем результат
tts.save(audio, "output.wav")

Проблема с Qwen3-TTS в том, что для русского языка нужно дообучать модель. Из коробки она говорит с заметным акцентом. Если нужен чистый русский - лучше посмотреть на Sonya TTS, которая заточена под славянские языки.

Kyutai Moshi: французский ответ на проблему эмоций

Kyutai выпустила Moshi в ноябре 2025 года. Это не просто TTS, а диалоговая система, которая умеет отвечать с эмоциями в реальном времени. Но нас интересует только синтез речи. Архитектура здесь совсем другая - диффузионная модель с кэшированием фичей.

Что это значит для конечного пользователя? Moshi генерирует речь с потрясающей эмоциональной окраской, но требует много памяти. На RTX 4090 с 24GB можно запустить только 700M версию, а полная 1.4B уже не влезает.

Moshi умеет то, что не умеет ни одна другая модель - смешивать эмоции в реальном времени. Можно сказать "скажи это грустно, но с надеждой в голосе", и она поймёт. Maya делает похоже, но через промпты, а не через описание эмоций.

Сравнение с Maya:

Критерий Maya Kyutai Moshi Разница
Эмоциональность 9.2/10 9.0/10 -0.2 балла
Естественность пауз 9.5/10 8.7/10 -0.8 балла
Скорость генерации 1.2x realtime 0.5x realtime Вдвое медленнее
Потребление памяти Неизвестно 18GB VRAM Очень много

Moshi ближе всех к Maya по эмоциональности. Но платишь за это скоростью и памятью. И есть ещё одна проблема - модель тренирована в основном на английском и французском. Русский поддерживается, но качество заметно хуже.

2 Быстрый старт с Moshi

# Установка через pip (осторожно с зависимостями)
pip install kyutai-moshi

# Простейший пример
from moshi import MoshiTTS

# Инициализация модели
moshi = MoshiTTS(model_size="700m")  # 1.4b требует 24GB+

# Генерация с эмоцией
text = "I can't believe this is actually working!"
emotion = "excited,happy"  # Можно комбинировать эмоции
audio = moshi.synthesize(text, emotion=emotion, speaker_id=0)

# Сохранение
moshi.save_audio(audio, "moshi_output.wav")

Если нужна скорость - Moshi не ваш выбор. Но для озвучки коротких реплик в играх или интерактивных приложениях она подходит идеально. Особенно если использовать её диалоговые возможности, о которых я писал в обзоре альтернатив ElevenLabs.

Orpheus 3B: титаническая попытка сделать всё и сразу

Orpheus вышел в декабре 2025 года от команды, которая раньше делала Whisper-подобные модели для распознавания речи. 3 миллиарда параметров, поддержка 50 языков, встроенная система контроля интонации через текстовые промпты.

Технически Orpheus - самый продвинутый из открытых TTS на январь 2026. Но есть нюанс: размер. 3B параметров - это 12GB весов в FP16. Плюс ещё столько же для кэша. На практике это значит, что нужна либо карта с 24GB, либо сильно сжимать модель.

💡
Orpheus использует технику "интонационных эмбеддингов" - вы задаёте не просто текст, а текст с маркерами интонации. Например: "Это [взволнованно] потрясающе!" или "Я [саркастично] очень рад это слышать."

Сравнительная таблица:

Критерий Maya Orpheus 3B Разница
Эмоциональность 9.2/10 8.9/10 -0.3 балла
Естественность пауз 9.5/10 9.1/10 -0.4 балла
Мультиязычность 5 языков 50 языков Лучше
Контроль интонации Через API Текстовые маркеры Более гибко

Orpheus почти догнал Maya по натуральности, но проигрывает в одном - согласованности эмоций. Если в Maya эмоция плавно меняется в течение предложения, то в Orpheus она более дискретная. Как будто переключается между состояниями, а не течёт естественно.

3 Работа с Orpheus на ограниченном железе

# Установка с оптимизациями
pip install orpheus-tts[quantized]

# Загрузка квантованной версии
from orpheus import OrpheusTTS

# 8-битная квантованная версия занимает ~7GB
model = OrpheusTTS.from_pretrained(
    "orpheus-3b-int8",
    device="cuda",
    torch_dtype=torch.int8
)

# Генерация с контролем интонации
text = "Это [удивлённо] невероятно! Как они [задумчиво] это сделали?"
audio = model.generate(
    text,
    language="ru",
    speaker_style="neutral"
)

# Сохранение
import soundfile as sf
sf.write("orpheus_output.wav", audio, 24000)

Для русскоязычных проектов Orpheus - лучший выбор из трёх. Поддержка языка на уровне носителя, плюс контроль интонации через текстовые маркеры. Если сравнить с другими open-source моделями для TTS, он явно выделяется.

Итоговый вердикт: кто же победил?

Нет победителя. Есть выбор под задачу.

Если нужен баланс качества и скорости - Qwen3-TTS. Проигрывает в эмоциональности, но работает быстрее всех. Для озвучки технических текстов, документации, новостей - идеально.

Если эмоции важнее всего - Kyutai Moshi. Ближе всех к Maya по способности передавать сложные эмоциональные состояния. Но готовьтесь к долгой генерации и апгрейду видеокарты.

Если проект мультиязычный или нужен тонкий контроль - Orpheus 3B. Система текстовых маркеров интонации - гениальное решение. Русский язык работает почти идеально, что редкость для open-source TTS.

Ни одна из моделей не догнала Maya полностью. Sesame AI всё ещё держит секретный соус - вероятно, какую-то комбинацию архитектурных решений и данных для обучения. Но разрыв сократился с космического до ощутимого.

Что будет дальше? Прогноз на 2026-2027

Я вижу три тренда, которые изменят рынок open-source TTS в ближайший год:

  1. Специализированные модели для языков. Вместо одной модели на 50 языков появятся отдельные модели для русского, китайского, арабского с учётом фонетических особенностей. Как Soprano 1.1-80M, но для каждого языка отдельно.
  2. Квантование без потерь. Модели в 3-4B параметров будут работать на потребительских картах благодаря новым методам квантования. Orpheus уже показывает путь.
  3. TTS как сервис на устройстве. С появлением нейропроцессоров в смартфонах и ноутбуках, качественный синтез речи будет работать оффлайн. Посмотрите на Soprano-Factory - это только начало.

Мой совет на 2026 год: не гонитесь за самой новой моделью. Возьмите Orpheus 3B в квантованном виде, дообучите на своих данных (если они есть), и вы получите 90% качества Maya за 0% её стоимости. Оставшиеся 10% не стоят нервов и денег для большинства проектов.

Если же нужна скорость - посмотрите на Supertonic 2 TTS. Она не такая натуральная, но генерирует речь быстрее, чем вы её произносите. Иногда это важнее.

А Maya? Пусть остаётся эталоном. К которому стоит стремиться, но не обязательно достигать. Особенно когда бюджет ограничен, а требования к приватности - жёсткие.