«Меланхоличный джаз» — и получаешь кашу
Запустили ACE-Step 1.5, написали в промпте "эпичный саундтрек" и получили что-то среднее между рейвом и маршем. Знакомо? Большинство так и делает — бросает пару слов и надеется на чудо. Чуда не будет.
ACE-Step 1.5 — не ChatGPT. Это модель, обученная на 20 тысячах часов музыки с конкретными метаданными. Она понимает не смысл слов, а паттерны в данных. И если вы не говорите на её языке, получите случайный результат.
Почему обычные промпты не работают
Потому что в тренировочных данных музыка была размечена структурно. Не просто "рок-песня", а:
| Что было в данных | Как это выглядело |
|---|---|
| Жанр | rock, alternative_rock, indie |
| Инструменты | electric_guitar:distortion, drums:acoustic, bass:synth |
| Темп | bpm:120 |
| Настроение | mood:energetic, intensity:high |
| Структура | intro:8_bars, verse:16_bars, chorus:8_bars |
Когда вы пишете "грустный блюз", модель ищет паттерны, где эти слова встречаются вместе. Но если в данных был конкретный тег "blues:melancholic", она его не найдёт. Результат — случайная комбинация признаков.
Разделяй и властвуй: теги vs текст
Самый важный приём. В ACE-Step 1.5 промпт состоит из двух частей, разделённых вертикальной чертой:
[теги, структура, параметры] | [текстовое описание, атмосфера, сюжет]Левая часть — для модели. Правая — для вас (и немного для модели).
Не путайте порядок. Если поставить текст перед тегами, модель попытается интерпретировать его как технические инструкции. Получится ерунда.
1Как НЕ делать
Мелодичная электронная музыка для медитации с плавными переходами и эмбиент-атмосферой, темп 60 bpm, синтезаторы pads, без ударныхМодель видит сплошной текст. Она попытается выделить ключевые слова, но сделает это случайно. Может взять "электронная музыка" и "ударные", хотя вы просили без них.
2Как делать правильно
genre:ambient, tempo:60, instruments:synth_pads, no_drums, structure:smooth_transitions | Медитативная электронная музыка для глубокого расслабления, атмосфера космического пространства, плавающие мелодииТеперь модель точно знает: жанр ambient, темп 60, только pads-синтезаторы, без ударных. Текст справа добавляет атмосферу, но не путает технические инструкции.
Полный промпт-шаблон: от идеи до реализации
Вот структура, которая работает в 90% случаев. Копируйте и меняйте значения:
genre:[жанр], subgenre:[поджанр], tempo:[число], key:[тональность], instruments:[инструмент1:стиль, инструмент2:стиль], mood:[настроение1, настроение2], intensity:[низкая/средняя/высокая], structure:[секция1:длительность, секция2:длительность] | [Текстовое описание атмосферы, сюжета, эмоций. Можно добавить отсылки к известным трекам или артистам.]Конкретные примеры, которые работают прямо сейчас
Электроника для видеоигры
genre:synthwave, subgenre:darksynth, tempo:128, key:c_minor, instruments:synth_bass:distorted, drum_machine:aggressive, lead_synth:arp, mood:cyberpunk, tension, intensity:high, structure:intro:4_bars, drop:16_bars, breakdown:8_bars | Музыка для уровня киберпанк-города в видеоигре, неон ночью, дождь на асфальте, ощущение преследования и технологической угрозы. В духе Carpenter Brut.Акустическая фоновая музыка
genre:folk, subgenre:indie_folk, tempo:85, key:d_major, instruments:acoustic_guitar:fingerstyle, cello:legato, vocal:harmonies, mood:nostalgic, warm, peaceful, intensity:low, structure:verse:16_bars, chorus:8_bars, bridge:8_bars | Музыка для осеннего дня, листья падают, теплое какао у камина. История о воспоминаниях детства и простых радостях.Трек для AI Jukebox (короткий формат)
genre:lofi_hiphop, tempo:75, key:f_minor, instruments:samples:vinyl_crackle, drum_kit:lo-fi, piano:soft, mood:chill, study, concentration, intensity:medium, structure:loop:32_bars | Идеальная фоновая музыка для работы или учебы, звук дождя за окном, ночной город, уютная комната с настольной лампой.Секрет структуры: почему это важно
Поле "structure" — не просто прихоть. ACE-Step 1.5 генерирует музыку последовательно, секция за секцией. Если не указать структуру, модель сама решит, где делать переходы. Обычно это получается неубедительно.
Что работает:
- intro:4_bars — интро на 4 такта
- verse:16_bars, chorus:8_bars — классическая структура
- build_up:8_bars, drop:16_bars — для электронной музыки
- a_b_a_b:form — форма с повторениями
Что не работает:
- «длинное интро» — нужно число тактов
- «куплет и припев» — без конкретики
- «динамичная структура» — пустые слова
LoRA и стилизация: когда базовой модели мало
Иногда нужно не просто сгенерировать трек в жанре, а имитировать конкретный звук. Например, музыку в стиле определённого лейбла или артиста. Для этого нужна ACE-Step 1.5-LoRA.
Как это работает в промпте:
[стандартные теги] + lora:name_of_lora:weight:0.8 | [описание]Пример для LoRA, обученной на саундтреках к фильмам Ханса Циммера:
genre:epic_orchestral, tempo:60, instruments:orchestra:full, choir:epic, mood:cinematic, heroic, grand, intensity:high, lora:zimmer_style:0.7 | Музыка для финальной битвы в эпическом фэнтези, восход солнца над полем боя, момент триумфа и жертвы.Вес LoRA (0.7 в примере) — критически важен. Слишком высокий (0.9+) — модель переобучится и выдаст кашу. Слишком низкий (0.3-) — эффекта не будет. Начинайте с 0.5-0.7.
Типичные ошибки и как их избежать
| Ошибка | Что происходит | Решение |
|---|---|---|
| Слишком много тегов | Модель путается в противоречивых инструкциях | 3-5 ключевых тегов + 2-3 инструмента |
| Субъективные слова в тегах | «Красивая мелодия» — модель не понимает | Используйте «melodic:high» или «melody:prominent» |
| Отсутствие темпа | Модель выбирает случайный, часто неподходящий | Всегда указывайте tempo:число |
| Смешивание жанров без указания | «Джаз-рок» без subgenre даёт странный гибрид | genre:rock, subgenre:jazz_rock или genre:fusion |
Что делать, если всё равно получается ерунда
Бывает. ACE-Step 1.5 — не HeartMula 3B с его предсказуемостью (и требованием к видеокарте за $2000).
План действий:
- Упростите промпт — оставьте только genre, tempo, instruments
- Проверьте синтаксис — запятые между тегами, вертикальная черта
- Используйте seed — если получился хороший фрагмент, зафиксируйте seed и меняйте только часть промпта
- Сгенерируйте несколько вариантов — иногда 3-4 попытки дают один стоящий результат
Будущее промпт-инжиниринга для музыки
К 09.02.2026 уже появляются инструменты вроде NEWAVE, которые пытаются понять намерения пользователя. Но пока что структурированные промпты — самый надёжный способ.
Совет напоследок: не пытайтесь заставить ACE-Step 1.5 создать хит. Это инструмент для быстрой генерации музыкальных заготовок, фоновой музыки, идей. Как Open WebUI + Ace Step 1.5 для мультимодальных задач, но для звука.
Лучшие результаты получаются, когда вы знаете, чего хотите. Не «крутой трек», а «техно с темпом 128, бас-линией на TB-303, минималистичными ударными и атмосферой заброшенного завода». Второе работает. Первое — нет.