Промпт-инжиниринг для ACE-Step 1.5: структурированные промпты для генерации музыки | AiManual
AiManual Logo Ai / Manual.
09 Фев 2026 Промпт

ACE-Step 1.5: промпты, которые работают, а не просто болтают

Конкретные техники промпт-инжиниринга для ACE-Step 1.5: разделение тегов и текста, управление структурой и ритмом. Практические примеры промптов для музыкантов

«Меланхоличный джаз» — и получаешь кашу

Запустили ACE-Step 1.5, написали в промпте "эпичный саундтрек" и получили что-то среднее между рейвом и маршем. Знакомо? Большинство так и делает — бросает пару слов и надеется на чудо. Чуда не будет.

ACE-Step 1.5 — не ChatGPT. Это модель, обученная на 20 тысячах часов музыки с конкретными метаданными. Она понимает не смысл слов, а паттерны в данных. И если вы не говорите на её языке, получите случайный результат.

💡
На 09.02.2026 доступны две основные версии: базовая ACE-Step 1.5 и ACE-Step 1.5-LoRA с поддержкой fine-tuning. LoRA-версия позволяет адаптировать стиль под ваши данные, но требует 12 ГБ VRAM вместо 8.

Почему обычные промпты не работают

Потому что в тренировочных данных музыка была размечена структурно. Не просто "рок-песня", а:

Что было в данныхКак это выглядело
Жанрrock, alternative_rock, indie
Инструментыelectric_guitar:distortion, drums:acoustic, bass:synth
Темпbpm:120
Настроениеmood:energetic, intensity:high
Структураintro:8_bars, verse:16_bars, chorus:8_bars

Когда вы пишете "грустный блюз", модель ищет паттерны, где эти слова встречаются вместе. Но если в данных был конкретный тег "blues:melancholic", она его не найдёт. Результат — случайная комбинация признаков.

Разделяй и властвуй: теги vs текст

Самый важный приём. В ACE-Step 1.5 промпт состоит из двух частей, разделённых вертикальной чертой:

[теги, структура, параметры] | [текстовое описание, атмосфера, сюжет]

Левая часть — для модели. Правая — для вас (и немного для модели).

Не путайте порядок. Если поставить текст перед тегами, модель попытается интерпретировать его как технические инструкции. Получится ерунда.

1Как НЕ делать

Мелодичная электронная музыка для медитации с плавными переходами и эмбиент-атмосферой, темп 60 bpm, синтезаторы pads, без ударных

Модель видит сплошной текст. Она попытается выделить ключевые слова, но сделает это случайно. Может взять "электронная музыка" и "ударные", хотя вы просили без них.

2Как делать правильно

genre:ambient, tempo:60, instruments:synth_pads, no_drums, structure:smooth_transitions | Медитативная электронная музыка для глубокого расслабления, атмосфера космического пространства, плавающие мелодии

Теперь модель точно знает: жанр ambient, темп 60, только pads-синтезаторы, без ударных. Текст справа добавляет атмосферу, но не путает технические инструкции.

Полный промпт-шаблон: от идеи до реализации

Вот структура, которая работает в 90% случаев. Копируйте и меняйте значения:

genre:[жанр], subgenre:[поджанр], tempo:[число], key:[тональность], instruments:[инструмент1:стиль, инструмент2:стиль], mood:[настроение1, настроение2], intensity:[низкая/средняя/высокая], structure:[секция1:длительность, секция2:длительность] | [Текстовое описание атмосферы, сюжета, эмоций. Можно добавить отсылки к известным трекам или артистам.]
💡
Темп (tempo) указывайте числом. «Медленно» или «быстро» — слишком субъективно. Модель обучена на числовых значениях BPM.

Конкретные примеры, которые работают прямо сейчас

Электроника для видеоигры

genre:synthwave, subgenre:darksynth, tempo:128, key:c_minor, instruments:synth_bass:distorted, drum_machine:aggressive, lead_synth:arp, mood:cyberpunk, tension, intensity:high, structure:intro:4_bars, drop:16_bars, breakdown:8_bars | Музыка для уровня киберпанк-города в видеоигре, неон ночью, дождь на асфальте, ощущение преследования и технологической угрозы. В духе Carpenter Brut.

Акустическая фоновая музыка

genre:folk, subgenre:indie_folk, tempo:85, key:d_major, instruments:acoustic_guitar:fingerstyle, cello:legato, vocal:harmonies, mood:nostalgic, warm, peaceful, intensity:low, structure:verse:16_bars, chorus:8_bars, bridge:8_bars | Музыка для осеннего дня, листья падают, теплое какао у камина. История о воспоминаниях детства и простых радостях.

Трек для AI Jukebox (короткий формат)

genre:lofi_hiphop, tempo:75, key:f_minor, instruments:samples:vinyl_crackle, drum_kit:lo-fi, piano:soft, mood:chill, study, concentration, intensity:medium, structure:loop:32_bars | Идеальная фоновая музыка для работы или учебы, звук дождя за окном, ночной город, уютная комната с настольной лампой.

Секрет структуры: почему это важно

Поле "structure" — не просто прихоть. ACE-Step 1.5 генерирует музыку последовательно, секция за секцией. Если не указать структуру, модель сама решит, где делать переходы. Обычно это получается неубедительно.

Что работает:

  • intro:4_bars — интро на 4 такта
  • verse:16_bars, chorus:8_bars — классическая структура
  • build_up:8_bars, drop:16_bars — для электронной музыки
  • a_b_a_b:form — форма с повторениями

Что не работает:

  • «длинное интро» — нужно число тактов
  • «куплет и припев» — без конкретики
  • «динамичная структура» — пустые слова

LoRA и стилизация: когда базовой модели мало

Иногда нужно не просто сгенерировать трек в жанре, а имитировать конкретный звук. Например, музыку в стиле определённого лейбла или артиста. Для этого нужна ACE-Step 1.5-LoRA.

Как это работает в промпте:

[стандартные теги] + lora:name_of_lora:weight:0.8 | [описание]

Пример для LoRA, обученной на саундтреках к фильмам Ханса Циммера:

genre:epic_orchestral, tempo:60, instruments:orchestra:full, choir:epic, mood:cinematic, heroic, grand, intensity:high, lora:zimmer_style:0.7 | Музыка для финальной битвы в эпическом фэнтези, восход солнца над полем боя, момент триумфа и жертвы.

Вес LoRA (0.7 в примере) — критически важен. Слишком высокий (0.9+) — модель переобучится и выдаст кашу. Слишком низкий (0.3-) — эффекта не будет. Начинайте с 0.5-0.7.

Типичные ошибки и как их избежать

ОшибкаЧто происходитРешение
Слишком много теговМодель путается в противоречивых инструкциях3-5 ключевых тегов + 2-3 инструмента
Субъективные слова в тегах«Красивая мелодия» — модель не понимаетИспользуйте «melodic:high» или «melody:prominent»
Отсутствие темпаМодель выбирает случайный, часто неподходящийВсегда указывайте tempo:число
Смешивание жанров без указания«Джаз-рок» без subgenre даёт странный гибридgenre:rock, subgenre:jazz_rock или genre:fusion

Что делать, если всё равно получается ерунда

Бывает. ACE-Step 1.5 — не HeartMula 3B с его предсказуемостью (и требованием к видеокарте за $2000).

План действий:

  1. Упростите промпт — оставьте только genre, tempo, instruments
  2. Проверьте синтаксис — запятые между тегами, вертикальная черта
  3. Используйте seed — если получился хороший фрагмент, зафиксируйте seed и меняйте только часть промпта
  4. Сгенерируйте несколько вариантов — иногда 3-4 попытки дают один стоящий результат

Будущее промпт-инжиниринга для музыки

К 09.02.2026 уже появляются инструменты вроде NEWAVE, которые пытаются понять намерения пользователя. Но пока что структурированные промпты — самый надёжный способ.

Совет напоследок: не пытайтесь заставить ACE-Step 1.5 создать хит. Это инструмент для быстрой генерации музыкальных заготовок, фоновой музыки, идей. Как Open WebUI + Ace Step 1.5 для мультимодальных задач, но для звука.

Лучшие результаты получаются, когда вы знаете, чего хотите. Не «крутой трек», а «техно с темпом 128, бас-линией на TB-303, минималистичными ударными и атмосферой заброшенного завода». Второе работает. Первое — нет.