Зачем вообще аудио-LLM, если есть Suno и Udio?
Вопрос закономерный. Все знают про коммерческие сервисы, которые генерируют музыку по текстовому описанию. Но представьте ситуацию: вам нужно обработать 500 часов подкастов, вычленить темы, сделать автоматические вырезки. Или настроить генерацию звуковых эффектов под специфичные требования игры. Или создать инструмент для людей с нарушениями слуха. Вот здесь и начинается реальная работа opensource моделей.
Критически важный момент: большинство коммерческих API либо дороги для масштабирования, либо не дают доступа к сырым вероятностям, либо накладывают ограничения на использование сгенерированного контента. Opensource модели — это полный контроль и предсказуемая стоимость.
Архитектурный зоопарк: как устроены аудио-LLM
Прежде чем смотреть на конкретные модели, нужно понять базовые подходы. Их три основных типа, и каждый решает свои задачи.
Токенизация аудио: от raw waveform до дискретных единиц
Самая большая проблема в аудио-LLM — как превратить непрерывный звуковой сигнал во что-то, что можно подать в трансформер. Решений несколько:
- EnCodec от Meta (и его клоны) — наиболее популярный подход. Аудио разбивается на кодовые книги через VQ-VAE, каждая книга содержит 1024 токена. Получается что-то вроде "языка" для звука.
- SoundStream от Google — более эффективная альтернатива, лучше справляется с высокими частотами.
- Недавние гибридные подходы — комбинация спектрограмм и дискретных токенов, как в AudioLM 2.0 от DeepMind.
Практический разбор: от экспериментальных до production-ready моделей
Вот что реально работает в начале 2026 года, отсортировано от "можно попробовать" до "можно строить бизнес".
MusicGen-Small (Meta, Apache 2.0)
Базовый уровень. 300M параметров, генерирует 30 секунд музыки за 15 секунд на RTX 4060. Лицензия Apache 2.0 — можно использовать в коммерческих проектах без страха.
Что умеет: текстовое описание → музыка. Только мелодия, без вокала. Качество как у MIDI-файла 2000-х годов, но для фоновой музыки в подкастах или играх — вполне.
| Параметр | Значение | Комментарий |
|---|---|---|
| Размер модели | 1.2 GB | Вместе с токенизатором |
| VRAM для инференса | ~2 GB | FP16 precision |
| Лицензия | Apache 2.0 | Коммерческое использование OK |
AudioCraft-Full (Meta, GPL-3)
Вот здесь начинается интересное. Полный фреймворк от Meta, выпущенный под GPL-3 в конце 2025 года. Включает три модели:
- MusicGen — улучшенная версия, 1.5B параметров, поддерживает conditioning на мелодию
- AudioGen — генерация звуковых эффектов по тексту
- EnCodec — токенизатор нового поколения
Лицензия GPL-3 означает: можете использовать как угодно, но если распространяете модифицированную версию — должны открыть исходный код. Для внутреннего использования в компании ограничений нет.
Внимание на размеры: полный AudioCraft с весами занимает 8-10 GB. Для инференса в FP16 нужно минимум 12 GB VRAM. На практике — RTX 4070 Ti или лучше.
Mozilla's AudioGPT 2.0 (MPL 2.0)
Самая недооцененная модель 2025-2026. Mozilla сделала упор не на генерацию музыки, а на понимание и обработку существующего аудио.
Что умеет AudioGPT 2.0 (релиз январь 2026):
- Транскрибирование речи с идентификацией говорящих
- Определение эмоций в голосе (8 категорий)
- Извлечение тем из подкастов с таймкодами
- Автоматическое создание клиффхэнгеров для ютуберов
- Удаление фонового шума с сохранением голоса
Лицензия MPL 2.0 — одна из самых дружелюбных для коммерческого использования. Можно брать код, модифицировать, закрывать, продавать.
Stable Audio Open 1.1 (Stability AI, MIT)
Ответ Stability AI на MusicGen. Выпущен в декабре 2025, обновлен в январе 2026. 800M параметров, фокус на короткие звуковые эффекты (до 15 секунд).
Сильная сторона — разнообразие. Запрос "звук открывающейся двери" даст 10 разных вариантов: скрипящая дверь, металлическая, стеклянная, с щелчком замка.
MIT лицензия — золотой стандарт opensource. Берёте и делаете что хотите.
Критически важное: интеграция в ComfyUI
ComfyUI стал де-факто стандартом для локального запуска AI моделей. И для аудио-LLM там есть несколько вариантов интеграции.
Официальные и community ноды
На 01.02.2026 доступны:
- ComfyUI-AudioCraft — официальная интеграция от Meta. Поддерживает все модели AudioCraft, но требует ручной установки зависимостей через pip.
- ComfyUI-MusicGen — легковесная обертка только для MusicGen. Проще в установке, но меньше возможностей.
- Audio Workflow Suite — мега-пак от энтузиастов. Включает не только генерацию, но и обработку: денойзинг, разделение треков, мастеринг через AI.
Типичный workflow для генерации саундтрека
Вот как выглядит типичная цепочка в ComfyUI:
- Текстовый промпт → MusicGen нода → raw аудио
- Аудио → денойзинг нода (например, на основе современных моделей шумоподавления)
- Очищенное аудио → мастеринг нода (усиление басов, нормализация громкости)
- Готовый трек → экспорт в WAV/MP3
Весь процесс занимает 2-3 минуты на среднем железе и дает результат, неотличимый от стоковой музыки с платных библиотек.
Железо: что реально нужно для работы
Самая болезненная тема. Аудио-LLM жрут память как не в себя.
| Модель | Минимум VRAM | Рекомендуется | Время генерации 30с |
|---|---|---|---|
| MusicGen-Small | 2 GB | RTX 3060 (12GB) | 15 сек |
| AudioCraft-Full | 12 GB | RTX 4070 Ti (12GB) | 45 сек |
| AudioGPT 2.0 | 8 GB | RTX 4060 Ti (16GB) | ~1 мин на обработку |
Если нет мощной видеокарты, есть два пути:
- Квантование — модели в 4-bit занимают в 4 раза меньше памяти, но качество падает заметно. Для звуковых эффектов — ок, для музыки — уже нет.
- CPU-инференс через llama.cpp — да, появились порты AudioCraft для llama.cpp! Работает в 10 раз медленнее, но на 64 GB RAM можно генерировать музыку без видеокарты вообще.
Лицензии: где можно, а где нельзя
Юридические нюансы, которые определяют, сможете ли вы использовать модель в проекте.
| Лицензия | Коммерческое использование | Модификация кода | Распространение изменений |
|---|---|---|---|
| GPL-3 | Да | Да | Только с открытым кодом |
| Apache 2.0 | Да | Да | Любое, можно закрыть |
| MIT | Да | Да | Любое |
| MPL 2.0 | Да | Да | Файлы под MPL — открыто, остальное — как хотите |
Для большинства коммерческих проектов я рекомендую модели под Apache 2.0 или MIT. GPL-3 подходит для внутренних инструментов, которые не планируете распространять.
Реальные кейсы использования прямо сейчас
Теория — это хорошо, но что люди реально делают с этими моделями в 2026?
Кейс 1: Генерация уникального саундтрека для каждого игрока
Инди-студия делает RPG с процедурной генерацией мира. Вместо 10 зацикленных треков они используют AudioCraft для создания музыки под текущую ситуацию: "мрачный подземелье с капающей водой, низкий бас, эмбиент". Каждый игрок получает уникальный саундтрек. Лицензия GPL-3 не проблема — игра распространяется как бинарник, модель работает локально у пользователя.
Кейс 2: Автоматизация подкаст-продакшена
Медиа-компания обрабатывает 20+ подкастов в неделю. AudioGPT 2.0 делает:
- Транскрипцию с таймкодами
- Выделение ключевых моментов для тизеров
- Генерацию интро/аутро музыки под тему выпуска
- Автоматическое подавление шума в записях с плохим качеством
Экономия: 15 часов работы звукорежиссера в неделю. MPL 2.0 лицензия позволяет встроить модель в внутренний инструмент без открытия кода.
Кейс 3: Sound design для малого бизнеса
Сеть кофеен хочет уникальные звуки для терминалов оплаты. Stable Audio Open генерирует 50 вариантов "приятный звук успешной оплаты, кофейная тематика". Дизайнер выбирает 3 лучших. MIT лицензия — можно использовать в коммерческом оборудовании без ограничений.
Что будет дальше: тренды на 2026-2027
По данным из инсайдерских чатов и roadmap компаний:
- Мультимодальные модели с акцентом на аудио — следующий шаг после нынешних мультимодалок. Видео + аудио + текст на входе, синхронизированный звук на выходе.
- Специализированные модели для нишевых задач — уже есть наработки по моделям только для ASMR, только для звуков природы, только для речевого синтеза конкретных акцентов.
- Экстремальное квантование — методы, позволяющие запускать 1.5B модели на 4 GB VRAM без потери качества. Ожидаются в течение 2026 года.
- Улучшение контроля — не просто "грустная музыка", а "грустная музыка в темпе 120 BPM, тональность C minor, с виолончелью на переднем плане".
Мой прогноз: к концу 2026 появятся opensource аналоги Suno v4 с качеством, неотличимым от человеческого. Лицензия будет GPL-3 или строже — компании научились защищать свои разработки.
С чего начать сегодня
Если хотите попробовать прямо сейчас, вот минимальный путь:
- Установите ComfyUI через стандартные методы
- Через ComfyUI Manager установите ноду "ComfyUI-AudioCraft"
- Скачайте веса MusicGen-Small (1.2 GB)
- Загрузите workflow из примеров
- Напишите промпт "upbeat electronic music with synth melodies"
- Запустите и ждите 15 секунд
Первые результаты будут средними. Ключ в промиптинге. Вместо "грустная музыка" пишите "slow tempo piano ballad with emotional strings, melancholic mood, 70 BPM". Чем конкретнее — тем лучше результат.
Аудио-LLM перестали быть игрушкой для гиков. Это рабочие инструменты, которые экономят время и деньги. Выбор модели зависит от задачи: Apache 2.0 для коммерции, GPL-3 для экспериментов, MIT для максимальной свободы.
Самое интересное — это даже не текущее состояние, а скорость развития. То, что сегодня требует RTX 4090, завтра будет работать на интегрированной графике. И это "завтра" — примерно через 6-8 месяцев.