Зачем мучиться с облачными TTS, если можно запустить все локально на Mac?

Представьте: вам нужно озвучить видео, создать голосового ассистента или просто поэкспериментировать с синтезом речи. Вы открываете ElevenLabs, платите за токены, ждете генерации, а потом понимаете, что интернет упал. Знакомо? Fish Audio S2 Pro решает эту проблему раз и навсегда.

Это не просто очередной TTS-движок. Это полноценная модель, которая умеет клонировать голос по 30-секундной записи и управлять эмоциями через теги выражения. И все это работает на вашем Mac без единого запроса в облако.

Важно: Fish Audio S2 Pro до марта 2026 года была заточена под CUDA и NVIDIA. Запустить ее на Mac было почти невозможно. Все изменилось с портированием на MLX 3.0.

Что такое Fish Audio S2 Pro и почему она круче облаков?

Fish Audio S2 Pro – это TTS-модель с архитектурой трансформера, выпущенная в конце 2025 года. Последняя версия на март 2026 – 2.5, с улучшенной поддержкой многоязычности и точностью клонирования голоса.

Ключевые фичи:

Клонирование голоса без тонкой настройки: достаточно 30 секунд аудио, чтобы модель усвоила тембр, акцент и манеру речи.
Теги выражения: вставляйте в текст теги вроде [happy], [sad], [whisper] – и модель изменит интонацию соответственно.
Стриминговая генерация: задержка менее 200ms на Apple Silicon, можно использовать для живого диалога.
Локальность: все данные остаются на вашем устройстве. Никаких соглашений о конфиденциальности.

Сравнивая с Serpentine TTS, Fish Audio S2 Pro проигрывает в скорости (90ms против 200ms), но выигрывает в качестве и гибкости. Особенно в клонировании голоса.

MLX 3.0: зачем он нужен и как ускоряет все на Apple Silicon

MLX – это фреймворк от Meta, специально разработанный для машинного обучения на Apple Silicon. Версия 3.0, выпущенная в январе 2026, добавила поддержку смешанной точности и оптимизации для трансформерных моделей.

Раньше, чтобы запустить Fish Audio S2 Pro на Mac, приходилось использовать костыли с PyTorch и MPS (Metal Performance Shaders). Скорость была в 3-4 раза ниже, чем на CUDA. С MLX 3.0 модель летает на M3 Max и M4 Pro почти без потерь.

💡

MLX использует Unified Memory Architecture Apple Silicon, поэтому модель загружается в оперативную память и работает напрямую с GPU. Никаких копирований между CPU и GPU – отсюда и скорость.

Шаги по установке: от чистого Mac до работающего TTS

Весь процесс займет 15-20 минут, если у вас уже настроена среда Python. Если нет – добавьте еще 10 минут на настройку.

1Устанавливаем MLX 3.0 и зависимости

Откройте Terminal и выполните следующие команды. Убедитесь, что у вас установлен Python 3.10 или выше.

# Создаем виртуальное окружение (рекомендуется)
python -m venv fish-audio-env
source fish-audio-env/bin/activate

# Устанавливаем MLX 3.0
pip install mlx-lm==3.0.0

# Устанавливаем дополнительные зависимости
pip install torchaudio librosa soundfile

Если у вас уже установлен MLX, убедитесь, что версия 3.0.0 или выше. Более старые версии не поддерживают все операции, нужные для Fish Audio S2 Pro.

2Клонируем репозиторий и загружаем модель

Репозиторий с портированной версией для MLX находится на GitHub. Загрузите его и перейдите в директорию.

git clone https://github.com/fishaudio/fish-audio-s2-pro-mlx.git
cd fish-audio-s2-pro-mlx

# Загружаем веса модели (примерно 2.8 GB)
python download_model.py --model fish-audio-s2-pro-2.5

Модель весит около 2.8 GB, поэтому убедитесь, что у вас есть достаточно свободного места. Загрузка может занять время в зависимости от скорости интернета.

3Запускаем демо-скрипт для проверки

После загрузки модели можно запустить тестовый скрипт, чтобы убедиться, что все работает.

python demo.py --text "Привет, мир! Это тест Fish Audio S2 Pro на MLX." --output test.wav

Если вы слышите четкую речь в файле test.wav – поздравляю, модель работает. Если нет – проверьте, что все зависимости установлены и модель загружена полностью.

4Клонируем голос и используем теги выражения

Теперь самое интересное. Подготовьте аудиофайл с голосом, который хотите клонировать. Достаточно 30 секунд чистого звука без фонового шума.

python clone_voice.py --audio path/to/your/audio.wav --text "Это мой клонированный голос. [happy] Я рад работать с Fish Audio S2 Pro!" --output cloned.wav

Обратите внимание на тег [happy] в тексте. Модель изменит интонацию на радостную. Доступные теги: [sad], [angry], [surprised], [whisper], [shouting] и другие. Полный список можно найти в документации модели.

Примеры использования: клонируем голос и играем с эмоциями

Fish Audio S2 Pro – не просто игрушка. Вот реальные сценарии, где она спасает:

Озвучка видео: Клонируйте свой голос и озвучивайте ролики без повторной записи. Изменяйте эмоции через теги для разных сцен.
Голосовые ассистенты: Интегрируйте модель в локального ассистента для естественных ответов.
Аудиокниги: Генерируйте речь с разными интонациями для персонажей, используя один голос.
Обучение и образование: Создавайте аудиоматериалы с выразительной речью без привлечения дикторов.

Попробуйте этот пример для создания драматического эффекта:

python generate.py --text "Она вошла в комнату. [suspense] Тишина. [whisper] Кто-то был здесь... [shouting] Выходи!" --voice cloned.wav --output dramatic.wav

Сравнение: Fish Audio S2 Pro против других локальных TTS на Mac

На март 2026 года есть несколько вариантов для локального TTS на Mac. Вот как Fish Audio S2 Pro выглядит на их фоне.

Модель	Задержка	Память	Клонирование голоса	Теги выражения
Fish Audio S2 Pro (MLX)	200ms	2.8 GB	Да (30 секунд)	Да
Serpentine TTS	90ms	3.5 GB	Нет	Нет
Qwen3-TTS.cpp	150ms	2.0 GB	Ограниченное	Нет
ElevenLabs (облако)	300ms + сеть	–	Да	Частично

Как видно, Fish Audio S2 Pro – единственная локальная модель с полноценным клонированием голоса и тегами выражения. Если вам нужна максимальная скорость – выбирайте Serpentine TTS. Если клонирование – Fish Audio S2 Pro вне конкуренции.

Кому подойдет эта связка, а кому лучше поискать альтернативы

Fish Audio S2 Pro на MLX – идеальный выбор для:

Создателей контента, которые работают с аудио и видео и хотят полного контроля над голосом.
Разработчиков голосовых приложений, которым нужна локальная TTS с гибкими настройками.
Исследователей и энтузиастов, экспериментирующих с синтезом речи.
Пользователей с конфиденциальными данными, которые не могут отправлять аудио в облако.

Не тратьте время на эту настройку, если:

Вам нужен TTS только для разовых задач – используйте более простые локальные решения.
У вас Mac с менее чем 8 GB оперативной памяти – модель может работать медленно.
Вам не нужно клонирование голоса – тогда Serpentine TTS будет быстрее и проще.

И последний совет: если вы планируете использовать Fish Audio S2 Pro в продакшене, обратите внимание на оптимизации для стриминга. На Mac они тоже работают, но могут требовать дополнительной настройки.

Подписаться на канал

Как запустить Fish Audio S2 Pro на Mac: полный локальный TTS с клонированием голоса через MLX