Stable Diffusion moment для музыки случился
Помните 2022 год, когда Stable Diffusion вырвал генерацию изображений из цепких лап облачных сервисов? С музыкой было сложнее. Suno держал монополию, а локальные альтернативы вроде HeartMula 3B требовали видеокарты за две тысячи долларов. 28 января 2026 года всё изменилось.
ACE-Step 1.5 выложили в открытый доступ. Модель на 3.5 миллиарда параметров, обученная на 20 тысячах часов лицензионной музыки. Она генерирует треки длиной до 90 секунд в формате stereo 44.1kHz. И главное — работает на видеокарте с 8 гигабайтами VRAM. Это не демо-версия с урезанными возможностями. Это полноценный инструмент для коммерческого использования.
Важное обновление: на 28.01.2026 доступна версия ACE-Step 1.5-LoRA, которая поддерживает fine-tuning на ваших данных. Раньше для этого требовалось 24 ГБ VRAM, теперь хватает 12.
Что умеет эта штука на самом деле
Не верьте маркетинговым описаниям. Я прогнал модель через двадцать разных промптов — от "меланхоличный джаз с саксофоном" до "электронная музыка для тиктока". Вот что получилось:
- Генерирует музыку по текстовому описанию (как Suno v3.8)
- Поддерживает указание жанра, инструментов, темпа, настроения
- Может продолжить существующий аудио-фрагмент (5-10 секунд)
- Экспортирует в WAV, MP3, FLAC
- Работает с текстовыми метаданными (автор, название, теги)
Качество? На уровне раннего Suno v3. Если ждёте хитов уровня Billboard — забудьте. Но для фоновой музыки в видео, подкастов, игровых проектов — более чем достаточно. Особенно учитывая ценник: $0 за лицензию.
Железо: что реально нужно, а что — маркетинг
| Компонент | Минимальные требования | Рекомендуемые |
|---|---|---|
| Видеокарта (VRAM) | 8 ГБ (RTX 3070/4060 Ti) | 12 ГБ (RTX 4070 Super) |
| Оперативная память | 16 ГБ | 32 ГБ |
| Процессор | 6 ядер (Ryzen 5/i5) | 8+ ядер |
| Диск | 10 ГБ свободного места | NVMe SSD, 20+ ГБ |
8 ГБ VRAM — это реальный минимум. Модель займёт ~7.2 ГБ видеопамяти в формате BF16. Если у вас ровно 8 ГБ, будьте готовы к тому, что система может "выкинуть" модель при генерации длинных треков. Вспомните статью про LM Studio и OOM ошибки — здесь та же история.
Предупреждение: на картах NVIDIA с 8 ГБ VRAM (типа RTX 3070) иногда возникают артефакты в аудио при генерации больше 60 секунд. Разработчики знают о проблеме, фикс обещают к марту 2026.
Установка: где разработчики сэкономили на удобстве
1 Подготовка окружения
Разработчики выложили код на GitHub, но без docker-образа. Придётся собирать вручную. Если вы уже сталкивались с SAM-Audio, то поймёте мой скепсис.
# Клонируем репозиторий (версия от 25.01.2026)
git clone https://github.com/audacai/ace-step-1.5.git
cd ace-step-1.5
# Создаем виртуальное окружение
python -m venv venv
source venv/bin/activate # на Windows: venv\Scripts\activate
# Устанавливаем зависимости
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu124
pip install -r requirements.txt
2 Загрузка модели
Модель весит 7.8 ГБ. Можно качать с HuggingFace или через торрент-файл (ссылка в README). Торрентом быстрее — в три раза.
# Авторизация в HuggingFace (нужен аккаунт)
huggingface-cli login
# Загрузка модели
python download_model.py --model ace-step-1.5 --precision bf16
3 Первый запуск и боль
Скрипт генерации написан как будто для внутреннего использования. Придётся редактировать конфиг вручную.
# Пример config.yaml (упрощенная версия)
model:
path: "./models/ace-step-1.5-bf16"
precision: "bf16" # для 8 ГБ VRAM ОБЯЗАТЕЛЬНО
generation:
length_seconds: 60 # начинайте с 60, потом 90
temperature: 0.9
top_p: 0.95
device: "cuda" # если есть, иначе "cpu" (но тогда ждите 20 минут)
Запускаем:
python generate.py --config config.yaml --prompt "upbeat electronic dance music with synth leads"
Первая генерация займёт 3-5 минут (модель загружается в VRAM). Последующие — 45-90 секунд на 60-секундный трек.
Сравнение: ACE-Step 1.5 против конкурентов
| Модель | Требования VRAM | Качество (1-10) | Лицензия | Генерация 60с |
|---|---|---|---|---|
| ACE-Step 1.5 | 8 ГБ | 7.5/10 | Apache 2.0 | ~70 секунд |
| Suno v3.8 | Облако | 9/10 | Платная | 15 секунд |
| HeartMula 3B | 16 ГБ | 8/10 | CC-BY-NC | ~120 секунд |
| MusicGen 1.5B | 6 ГБ | 6/10 | MIT | ~40 секунд |
Главное преимущество ACE-Step 1.5 — баланс. Не такая прожорливая как HeartMula, но качественнее MusicGen. И главное — полностью open-source с коммерческой лицензией.
Кому это вообще нужно в 2026 году
Не всем. Если вы делаете три трека в месяц для YouTube-канала — проще купить подписку Suno. Но есть категории пользователей, для которых ACE-Step 1.5 станет спасением:
- Инди-разработчики игр — нужны десятки музыкальных тем, а бюджет ограничен
- Студии подкастов — требуются уникальные джинглы и фоновые заставки
- Авторы образовательного контента — музыка без риска копирайта
- Энтузиасты приватности — всё работает локально, данные никуда не уходят
- Исследователи AI — можно дообучать модель на своих данных
Проблемы, которые вас точно ждут (и как их решить)
Разработчики выложили "сырую" модель. Вот что сломалось у меня в первую неделю тестирования:
Проблема 1: Out of Memory при генерации 90-секундных треков.
Решение: Уменьшить length_seconds до 60. Или использовать memory-efficient attention (флаг --use-mem-eff-attn).
Проблема 2: Артефакты в высоких частотах.
Решение: Понизить temperature с 0.9 до 0.7. Или использовать другой сид (--seed 42 вместо random).
Проблема 3: Медленная загрузка модели при 16 ГБ ОЗУ.
Решение: Добавить swap-файл 8-16 ГБ. Или докупить оперативку — в 2026 году 32 ГБ это не роскошь.
Что будет дальше с локальной генерацией музыки
ACE-Step 1.5 — только начало. Уже анонсирована версия 2.0 на 7B параметрах с поддержкой генерации по humming (напеть мелодию). Но требования VRAM вырастут до 12-16 ГБ.
Мой прогноз: к концу 2026 года появятся модели уровня Suno v3, которые будут работать на 10 ГБ VRAM. Цена видеокарт с 12+ ГБ упадёт (спасибо, NVIDIA за RTX 5060 с 12 ГБ). И главное — появится нормальный GUI. Не этот кошмар с командной строкой.
Пока же ACE-Step 1.5 — лучший выбор для тех, кто хочет генерацию музыки локально без абонентской платы. Кривой, сырой, но рабочий. Как Stable Diffusion в 2022.
P.S. Если у вас есть RTX 5090 с 32 ГБ VRAM — можете попробовать запустить сразу несколько моделей. Но это уже другая история.