Сбер открыл код аудиотокенизатора, который перепрыгивает EnCodec и DAC
Июнь 2026 запомнится не только жарой и санкциями. Сбер выложил в открытый доступ KVAE-Audio — аудиотокенизатор на базе вариационного автоэнкодера (VAE). Код, веса, документация — всё под MIT. Никаких «скоро», «для партнёров» или «по запросу». Заходи на GitHub, качай и встраивай в свой пайплайн генеративного аудио.
Честно говоря, я ожидал очередную калитку от EnCodec с чуть лучшим PSNR. Но ребята из SberDevices выкатили нечто, что в лоб обходит Descript Audio Codec (DAC) и SoundStream по качеству реконструкции при том же битрейте. И всё это под лицензией, с которой можно делать что угодно — даже зашить в коммерческий продукт.
Только цифры: при битрейте 6 кбит/с KVAE-Audio показывает ViSQOL на 0.3 выше, чем EnCodec с 24 кбит/с. Это как слоёный пирог за 50 рублей, который вкуснее ресторанного за 500.
Главная фишка — скрытое пространство без потерь семантики
Обычные аудиокодеки (вроде Voxtral Codec) работают в два этапа: сначала нейросеть жмёт сигнал в латентное представление, потом квантует — и на этом половина информации теряется. KVAE-Audio использует непрерывное латентное пространство без квантования. Звучит как ересь для codec-инженеров, но работает: энкодер превращает 1 секунду аудио (16 кГц, 16000 сэмплов) в 25 чисел — 25-dimensional latent. Это в 640 раз меньше исходника.
Декодер восстанавливает сэмплы обратно. И тут главный трюк: модель обучили не тупо копировать вход, а предсказывать «содержимое» — частотные маски, фазу, спектр. Поэтому даже при 6 кбит/с (упаковка 25 чисел в битстрим через энтропийное кодирование) звук не превращается в «кашу». Проморгаешь — не отличишь от оригинала.
На практике это означает, что KVAE-Audio можно заткнуть в любой генеративный пайплайн: Step-Audio-R1.1, Amazon Nova Sonic или самописную TTS. И получать на выходе чистый звук, который не надо дочищать а-ля NovaSR или LavaSR v2.
Сравнительная таблица: KVAE-Audio против мейнстрима
| Модель | Битрейт (кбит/с) | ViSQOL | Латентное пространство | Open source |
|---|---|---|---|---|
| EnCodec (Meta) | 24, 12, 6 | 3.8 / 4.2 / 3.2 | дискретное (квантование) | MIT |
| SoundStream (Google) | 12, 6 | 3.9 / 3.5 | дискретное | Apache 2.0 |
| Descript Audio Codec | 16, 8, 4 | 4.1 / 3.8 / 3.0 | дискретное (RVQ) | MIT |
| KVAE-Audio (Сбер) | 6, 3, 1.5 | 4.5 / 4.1 / 3.6 | непрерывное (VAE) | MIT |
Как видно, KVAE-Audio при 6 кбит/с выдаёт ViSQOL 4.5 — выше, чем у любого аналога на сопоставимом битрейте. А при 1.5 кбит/с (даже я перепроверил: это меньше, чем у Voxtral Codec) модель всё ещё сохраняет узнаваемость речи. Хотя для музыки такой битрейт даёт артефакты — но для голосовых ассистентов самое то.
Важно: KVAE-Audio обучен на одном датасете (LibriTTS-R + стихийные звуки). Если планируете гонять через него барабаны или гитары — результат может быть нестабильным. Дорожим открытостью: код дообучения на своём датасете есть в репозитории.
Установка — три строчки, никакого шаманства
Создатели явно хотели, чтобы модель тянули все кому не лень. PyTorch, einops, torchaudio, huggingface_hub. Никаких проприетарных зависимостей. Клонируем, ставим, скачиваем веса с Hugging Face.
git clone https://github.com/sberdevices/kvae-audio.git
cd kvae-audio
pip install -r requirements.txt
python download_weights.pyГотово. Теперь можно токенизировать аудио:
import torch
from kvae import KVAE
model = KVAE.from_pretrained("sberdevices/kvae-audio-16khz")
wav, sr = torchaudio.load("speech.wav")
latent = model.encode(wav) # [1, 25, T]
recon = model.decode(latent)
torchaudio.save("reconstructed.wav", recon, 16000)Весь пайплайн занимает ~15 мс на секунду аудио на RTX 4090. На CPU — около 100 мс. Для реалтайма, конечно, нужно джедайство с инференсом в ONNX, но авторы обещают экспорт. Kanade Tokenizer на CPU быстрее, но он специализируется на голосе, а не на универсальном аудио.
Где это пригодится прямо сейчас
Первое — заменяем EnCodec в диффузионках. Модели вроде Step-Audio-R1.1 генерируют латентный код, который декодируется в звук. Чем лучше токенизатор, тем чище финальный аудиофайл. KVAE-Audio в связке с диффузионными декодерами даёт прирост ViSQOL на 0.5-0.7.
Второе — конверсия голоса с сохранением интонации. Токенизируем исходную речь, заменяем speaker embedding на целевой, декодируем. KVAE-Audio не квантует — значит тембр, акценты и даже дыхание почти не страдают. Chatterbox Extended для этой задачи теперь можно заменить на связку KVAE + маленький диффузор, и качество вырастет в разы.
Третье — музыкальная генерация. Пока сыровато, но авторы дообучают модель на музыке. Следите за репозиторием.
Кому эта модель спасёт проект
Исследователям генеративного аудио — замена дискретных кодеков на непрерывный VAE даёт гладкое latent space, с которым можно экспериментировать с интерполяцией и морфингом звуков. Разработчикам TTS — прямое улучшение качества синтеза без смены архитектуры. Open-source-энтузиастам — модель можно переобучить под собственные данные (музыку, шумы, эмбиент) и получить токенизатор с уникальными характеристиками.
Если вы собираете голосового ассистента и вам нужно сжать речь до нескольких кбит/с без потери разборчивости — KVAE-Audio с битрейтом 3 кбит/с даёт ViSQOL 4.1, что близко к перцептивному идеалу. Voxtral-Mini 4B для транскрипции в реалтайме, а KVAE — для сжатия и передачи. Связка — зверь.
Через полгода все диффузионные аудио-модели будут комплектоваться KVAE-декодером по умолчанию. Просто потому что дешевле, быстрее и открыто. Сбер сделал подарок не хуже, чем Meta с EnCodec три года назад. Подпишитесь на апдейты репозитория — уверен, через месяц появится модель на 48 кГц.