Maya Sesame AI: почему все хотят её повторить?
В 2025 году Sesame AI выпустила Maya - TTS систему, которая заставила людей переслушивать сгенерированную речь по три раза. Не потому что слышали артефакты. А потому что не верили, что это нейросеть. Майя говорила с дыханием. С паузами в нужных местах. С легким смещением интонации, которое делает речь живой, а не роботизированной.
Проблема в том, что Maya закрыта. API платный, локального запуска нет, а для многих проектов это критично. Особенно когда речь о конфиденциальных данных или массовой генерации.
Вот и началась охота за открытыми альтернативами. На январь 2026 года у нас три основных претендента: Qwen3-TTS, Kyutai Moshi и Orpheus 3B. Я протестировал их на одних и тех же текстах, с одинаковыми настройками, и вот что получилось.
Методология: как сравнивать то, что нельзя измерить?
Натуральность голоса - штука субъективная. Но есть объективные метрики, которые показывают, где модель спотыкается:
- EMO-DB Score - насколько эмоционально окрашена речь (Maya здесь эталон)
- MOS (Mean Opinion Score) - средняя оценка от реальных слушателей
- Артефакты на согласных - шипящие звуки часто выдают нейросеть
- Естественность пауз - не там, где заканчивается предложение, а внутри него
- Вариативность интонации - одно и то же предложение должно звучать по-разному
Для тестов я взял три типа текстов:
- Новостной дикторский текст (нейтральный тон)
- Диалог из фильма (эмоциональные перепады)
- Техническая документация (сложные термины, цифры)
Qwen3-TTS: китайский гений, который говорит по-английски лучше англичан
Qwen3-TTS от Alibaba вышла в конце 2025 года и сразу удивила. Модель размером 1.5B параметров, но работает быстрее многих 500M версий. Архитектура - VITS с модификациями, которые они почему-то не описали в документации (классика).
Что получается в сравнении с Maya:
| Критерий | Maya | Qwen3-TTS | Разница |
|---|---|---|---|
| Эмоциональность | 9.2/10 | 7.8/10 | -1.4 балла |
| Естественность пауз | 9.5/10 | 8.1/10 | -1.4 балла |
| Скорость генерации | 1.2x realtime | 0.8x realtime | Медленнее |
| Артефакты на "с", "ш" | Почти нет | Заметны | Хуже |
Qwen3-TTS проигрывает в нюансах. Паузы ставятся логично, но без той микро-вариативности, которая есть у Maya. Эмоции работают, но как будто по шаблону: радость - повышаем тон, грусть - понижаем. У Maya же эмоции смешиваются, как у живого человека.
1 Как запустить Qwen3-TTS локально
# Клонируем репозиторий
pip install qwen-tts
# Базовая генерация
from qwen_tts import QwenTTS
tts = QwenTTS(model="qwen3-tts-1.5b")
text = "This is a test of natural speech synthesis."
audio = tts.generate(text, speaker="female_01", language="en")
# Сохраняем результат
tts.save(audio, "output.wav")
Проблема с Qwen3-TTS в том, что для русского языка нужно дообучать модель. Из коробки она говорит с заметным акцентом. Если нужен чистый русский - лучше посмотреть на Sonya TTS, которая заточена под славянские языки.
Kyutai Moshi: французский ответ на проблему эмоций
Kyutai выпустила Moshi в ноябре 2025 года. Это не просто TTS, а диалоговая система, которая умеет отвечать с эмоциями в реальном времени. Но нас интересует только синтез речи. Архитектура здесь совсем другая - диффузионная модель с кэшированием фичей.
Что это значит для конечного пользователя? Moshi генерирует речь с потрясающей эмоциональной окраской, но требует много памяти. На RTX 4090 с 24GB можно запустить только 700M версию, а полная 1.4B уже не влезает.
Moshi умеет то, что не умеет ни одна другая модель - смешивать эмоции в реальном времени. Можно сказать "скажи это грустно, но с надеждой в голосе", и она поймёт. Maya делает похоже, но через промпты, а не через описание эмоций.
Сравнение с Maya:
| Критерий | Maya | Kyutai Moshi | Разница |
|---|---|---|---|
| Эмоциональность | 9.2/10 | 9.0/10 | -0.2 балла |
| Естественность пауз | 9.5/10 | 8.7/10 | -0.8 балла |
| Скорость генерации | 1.2x realtime | 0.5x realtime | Вдвое медленнее |
| Потребление памяти | Неизвестно | 18GB VRAM | Очень много |
Moshi ближе всех к Maya по эмоциональности. Но платишь за это скоростью и памятью. И есть ещё одна проблема - модель тренирована в основном на английском и французском. Русский поддерживается, но качество заметно хуже.
2 Быстрый старт с Moshi
# Установка через pip (осторожно с зависимостями)
pip install kyutai-moshi
# Простейший пример
from moshi import MoshiTTS
# Инициализация модели
moshi = MoshiTTS(model_size="700m") # 1.4b требует 24GB+
# Генерация с эмоцией
text = "I can't believe this is actually working!"
emotion = "excited,happy" # Можно комбинировать эмоции
audio = moshi.synthesize(text, emotion=emotion, speaker_id=0)
# Сохранение
moshi.save_audio(audio, "moshi_output.wav")
Если нужна скорость - Moshi не ваш выбор. Но для озвучки коротких реплик в играх или интерактивных приложениях она подходит идеально. Особенно если использовать её диалоговые возможности, о которых я писал в обзоре альтернатив ElevenLabs.
Orpheus 3B: титаническая попытка сделать всё и сразу
Orpheus вышел в декабре 2025 года от команды, которая раньше делала Whisper-подобные модели для распознавания речи. 3 миллиарда параметров, поддержка 50 языков, встроенная система контроля интонации через текстовые промпты.
Технически Orpheus - самый продвинутый из открытых TTS на январь 2026. Но есть нюанс: размер. 3B параметров - это 12GB весов в FP16. Плюс ещё столько же для кэша. На практике это значит, что нужна либо карта с 24GB, либо сильно сжимать модель.
Сравнительная таблица:
| Критерий | Maya | Orpheus 3B | Разница |
|---|---|---|---|
| Эмоциональность | 9.2/10 | 8.9/10 | -0.3 балла |
| Естественность пауз | 9.5/10 | 9.1/10 | -0.4 балла |
| Мультиязычность | 5 языков | 50 языков | Лучше |
| Контроль интонации | Через API | Текстовые маркеры | Более гибко |
Orpheus почти догнал Maya по натуральности, но проигрывает в одном - согласованности эмоций. Если в Maya эмоция плавно меняется в течение предложения, то в Orpheus она более дискретная. Как будто переключается между состояниями, а не течёт естественно.
3 Работа с Orpheus на ограниченном железе
# Установка с оптимизациями
pip install orpheus-tts[quantized]
# Загрузка квантованной версии
from orpheus import OrpheusTTS
# 8-битная квантованная версия занимает ~7GB
model = OrpheusTTS.from_pretrained(
"orpheus-3b-int8",
device="cuda",
torch_dtype=torch.int8
)
# Генерация с контролем интонации
text = "Это [удивлённо] невероятно! Как они [задумчиво] это сделали?"
audio = model.generate(
text,
language="ru",
speaker_style="neutral"
)
# Сохранение
import soundfile as sf
sf.write("orpheus_output.wav", audio, 24000)
Для русскоязычных проектов Orpheus - лучший выбор из трёх. Поддержка языка на уровне носителя, плюс контроль интонации через текстовые маркеры. Если сравнить с другими open-source моделями для TTS, он явно выделяется.
Итоговый вердикт: кто же победил?
Нет победителя. Есть выбор под задачу.
Если нужен баланс качества и скорости - Qwen3-TTS. Проигрывает в эмоциональности, но работает быстрее всех. Для озвучки технических текстов, документации, новостей - идеально.
Если эмоции важнее всего - Kyutai Moshi. Ближе всех к Maya по способности передавать сложные эмоциональные состояния. Но готовьтесь к долгой генерации и апгрейду видеокарты.
Если проект мультиязычный или нужен тонкий контроль - Orpheus 3B. Система текстовых маркеров интонации - гениальное решение. Русский язык работает почти идеально, что редкость для open-source TTS.
Ни одна из моделей не догнала Maya полностью. Sesame AI всё ещё держит секретный соус - вероятно, какую-то комбинацию архитектурных решений и данных для обучения. Но разрыв сократился с космического до ощутимого.
Что будет дальше? Прогноз на 2026-2027
Я вижу три тренда, которые изменят рынок open-source TTS в ближайший год:
- Специализированные модели для языков. Вместо одной модели на 50 языков появятся отдельные модели для русского, китайского, арабского с учётом фонетических особенностей. Как Soprano 1.1-80M, но для каждого языка отдельно.
- Квантование без потерь. Модели в 3-4B параметров будут работать на потребительских картах благодаря новым методам квантования. Orpheus уже показывает путь.
- TTS как сервис на устройстве. С появлением нейропроцессоров в смартфонах и ноутбуках, качественный синтез речи будет работать оффлайн. Посмотрите на Soprano-Factory - это только начало.
Мой совет на 2026 год: не гонитесь за самой новой моделью. Возьмите Orpheus 3B в квантованном виде, дообучите на своих данных (если они есть), и вы получите 90% качества Maya за 0% её стоимости. Оставшиеся 10% не стоят нервов и денег для большинства проектов.
Если же нужна скорость - посмотрите на Supertonic 2 TTS. Она не такая натуральная, но генерирует речь быстрее, чем вы её произносите. Иногда это важнее.
А Maya? Пусть остаётся эталоном. К которому стоит стремиться, но не обязательно достигать. Особенно когда бюджет ограничен, а требования к приватности - жёсткие.