Сбер открыл код аудиотокенизатора, который перепрыгивает EnCodec и DAC

Июнь 2026 запомнится не только жарой и санкциями. Сбер выложил в открытый доступ KVAE-Audio — аудиотокенизатор на базе вариационного автоэнкодера (VAE). Код, веса, документация — всё под MIT. Никаких «скоро», «для партнёров» или «по запросу». Заходи на GitHub, качай и встраивай в свой пайплайн генеративного аудио.

Честно говоря, я ожидал очередную калитку от EnCodec с чуть лучшим PSNR. Но ребята из SberDevices выкатили нечто, что в лоб обходит Descript Audio Codec (DAC) и SoundStream по качеству реконструкции при том же битрейте. И всё это под лицензией, с которой можно делать что угодно — даже зашить в коммерческий продукт.

Только цифры: при битрейте 6 кбит/с KVAE-Audio показывает ViSQOL на 0.3 выше, чем EnCodec с 24 кбит/с. Это как слоёный пирог за 50 рублей, который вкуснее ресторанного за 500.

Главная фишка — скрытое пространство без потерь семантики

Обычные аудиокодеки (вроде Voxtral Codec) работают в два этапа: сначала нейросеть жмёт сигнал в латентное представление, потом квантует — и на этом половина информации теряется. KVAE-Audio использует непрерывное латентное пространство без квантования. Звучит как ересь для codec-инженеров, но работает: энкодер превращает 1 секунду аудио (16 кГц, 16000 сэмплов) в 25 чисел — 25-dimensional latent. Это в 640 раз меньше исходника.

Декодер восстанавливает сэмплы обратно. И тут главный трюк: модель обучили не тупо копировать вход, а предсказывать «содержимое» — частотные маски, фазу, спектр. Поэтому даже при 6 кбит/с (упаковка 25 чисел в битстрим через энтропийное кодирование) звук не превращается в «кашу». Проморгаешь — не отличишь от оригинала.

На практике это означает, что KVAE-Audio можно заткнуть в любой генеративный пайплайн: Step-Audio-R1.1, Amazon Nova Sonic или самописную TTS. И получать на выходе чистый звук, который не надо дочищать а-ля NovaSR или LavaSR v2.

Сравнительная таблица: KVAE-Audio против мейнстрима

Модель	Битрейт (кбит/с)	ViSQOL	Латентное пространство	Open source
EnCodec (Meta)	24, 12, 6	3.8 / 4.2 / 3.2	дискретное (квантование)	MIT
SoundStream (Google)	12, 6	3.9 / 3.5	дискретное	Apache 2.0
Descript Audio Codec	16, 8, 4	4.1 / 3.8 / 3.0	дискретное (RVQ)	MIT
KVAE-Audio (Сбер)	6, 3, 1.5	4.5 / 4.1 / 3.6	непрерывное (VAE)	MIT

Как видно, KVAE-Audio при 6 кбит/с выдаёт ViSQOL 4.5 — выше, чем у любого аналога на сопоставимом битрейте. А при 1.5 кбит/с (даже я перепроверил: это меньше, чем у Voxtral Codec) модель всё ещё сохраняет узнаваемость речи. Хотя для музыки такой битрейт даёт артефакты — но для голосовых ассистентов самое то.

Важно: KVAE-Audio обучен на одном датасете (LibriTTS-R + стихийные звуки). Если планируете гонять через него барабаны или гитары — результат может быть нестабильным. Дорожим открытостью: код дообучения на своём датасете есть в репозитории.

Установка — три строчки, никакого шаманства

Создатели явно хотели, чтобы модель тянули все кому не лень. PyTorch, einops, torchaudio, huggingface_hub. Никаких проприетарных зависимостей. Клонируем, ставим, скачиваем веса с Hugging Face.

git clone https://github.com/sberdevices/kvae-audio.git
cd kvae-audio
pip install -r requirements.txt
python download_weights.py

Готово. Теперь можно токенизировать аудио:

import torch
from kvae import KVAE

model = KVAE.from_pretrained("sberdevices/kvae-audio-16khz")
wav, sr = torchaudio.load("speech.wav")
latent = model.encode(wav)  # [1, 25, T]
recon = model.decode(latent)
torchaudio.save("reconstructed.wav", recon, 16000)

Весь пайплайн занимает ~15 мс на секунду аудио на RTX 4090. На CPU — около 100 мс. Для реалтайма, конечно, нужно джедайство с инференсом в ONNX, но авторы обещают экспорт. Kanade Tokenizer на CPU быстрее, но он специализируется на голосе, а не на универсальном аудио.

Где это пригодится прямо сейчас

Первое — заменяем EnCodec в диффузионках. Модели вроде Step-Audio-R1.1 генерируют латентный код, который декодируется в звук. Чем лучше токенизатор, тем чище финальный аудиофайл. KVAE-Audio в связке с диффузионными декодерами даёт прирост ViSQOL на 0.5-0.7.

Второе — конверсия голоса с сохранением интонации. Токенизируем исходную речь, заменяем speaker embedding на целевой, декодируем. KVAE-Audio не квантует — значит тембр, акценты и даже дыхание почти не страдают. Chatterbox Extended для этой задачи теперь можно заменить на связку KVAE + маленький диффузор, и качество вырастет в разы.

Третье — музыкальная генерация. Пока сыровато, но авторы дообучают модель на музыке. Следите за репозиторием.

Кому эта модель спасёт проект

Исследователям генеративного аудио — замена дискретных кодеков на непрерывный VAE даёт гладкое latent space, с которым можно экспериментировать с интерполяцией и морфингом звуков. Разработчикам TTS — прямое улучшение качества синтеза без смены архитектуры. Open-source-энтузиастам — модель можно переобучить под собственные данные (музыку, шумы, эмбиент) и получить токенизатор с уникальными характеристиками.

Если вы собираете голосового ассистента и вам нужно сжать речь до нескольких кбит/с без потери разборчивости — KVAE-Audio с битрейтом 3 кбит/с даёт ViSQOL 4.1, что близко к перцептивному идеалу. Voxtral-Mini 4B для транскрипции в реалтайме, а KVAE — для сжатия и передачи. Связка — зверь.

💡

Совет: не пытайтесь сразу воткнуть KVAE-Audio в production без дообучения на вашем домене. На зашумлённой речи с улицы модель может нагенерировать артефактов. Зато на чистых записях работает как часы.

Через полгода все диффузионные аудио-модели будут комплектоваться KVAE-декодером по умолчанию. Просто потому что дешевле, быстрее и открыто. Сбер сделал подарок не хуже, чем Meta с EnCodec три года назад. Подпишитесь на апдейты репозитория — уверен, через месяц появится модель на 48 кГц.

Подписаться на канал

KVAE-Audio: новый аудиотокенизатор от Сбера с открытым кодом — обзор, установка и сравнение с аналогами