Яндекс сжал рекомендательную нейросеть до 100 КБ для офлайн-Музыки | TinyML

Зачем сжимать нейросеть до размеров иконки?

Вы в метро. Сеть пропала. Ваш плейлист внезапно закончился. Знакомая история? Для Яндекс Музыки она стала инженерным вызовом. Их ответ на 27 марта 2026 года - рекомендательная модель, которая помещается в 100 килобайт. Примерно как старая пиксельная картинка.

До этого момента офлайн-режим в стримингах был синонимом проигрывания кэша. Никакой интеллектуальной подборки. Ты либо слушаешь то, что заранее скачал, либо тишину. Инженеры Яндекса решили, что это несправедливо. И бросили вызов законам физики, упаковав сложную логику предсказаний в крошечный бинарник.

💡

Для контекста: 100 КБ - это в 5000 раз меньше, чем весит обычная фотография с современного смартфона. И в 100 000 раз меньше, чем стандартная модель для рекомендаций образца 2023 года.

Что внутри этого 100 КБ монстра?

Секрет не в одной волшебной технологии, а в комбинации жестоких оптимизаций. Архитектура - гибридная.

Сверхразреженные эмбеддинги. Вместо dense-векторов на 256 значений используются 16-битные разреженные представления. Экономия памяти - 94%.
Бинаризованные веса. После обучения веса большинства слоев квантуются до -1, 0 или +1. Это убивает точность? Да. Но не смертельно, если правильно подготовить данные.
Микро-трансформер на 4 слоя. Ядро модели - миниатюрная версия архитектуры трансформер с 4 головами внимания, но размером окна всего 32 последних трека. Контекст короткий, зато быстрый.

Обучение проходило в облаке на гигантских кластерах, используя принципы активации sparse-моделей, но финальный инференсный движок лишен всякого жира.

Компонент	Размер (оригинал)	Размер (TinyML)	Сжатие
Модель эмбеддингов треков	~15 МБ	~45 КБ	>99%
Рекомендательная нейросеть	~85 МБ	~55 КБ	>99%
Общий размер	~100 МБ	~100 КБ	99.9%

Как это работает в реальности? От метро до самолета

Модель зашита в последнее обновление Яндекс Музыки (версия 6.1.0 на 27.03.2026). При первом запуске в онлайн-режиме она качает свежие эмбеддинги для вашей библиотеки - это еще ~2-5 МБ в зависимости от количества треков. Дальше - магия.

Вы слушаете трек. Модель, работая целиком в памяти процессора (даже не GPU), анализирует последние 10-15 минут вашего прослушивания. И предлагает следующий трек из офлайн-кэша. Задержка - менее 5 мс. Потребление энергии - незаметная строчка в статистике батареи.

Важный нюанс: модель не генерирует музыку, как ACE-Step 1.5 или тяжеловесный HeartMula 3B. Она только ранжирует уже скачанные треки. Генерация - это другая весовая категория.

Точность? Инженеры признаются: по метрике NDCG@5 модель проигрывает облачному аналогу 15-20%. Но в условиях полного отсутствия сети это бесконечно лучше, чем ничего. А главное - работает на любом устройстве, даже на древних Android-смартфонах.

Почему не CatBoost? Или почему да?

Резонный вопрос. В 2026 году градиентный бустинг все еще доминирует в рекомендациях из-за скорости и точности. Но для офлайн-сценария есть проблема: даже сжатая модель CatBoost для задачи ранжирования треков весит несколько мегабайт. Не 100 КБ.

Нейросеть выбрали из-за гибкости архитектуры. Ее можно «нарезать» и квантовать агрессивнее, чем деревья. Особенно с помощью техник вроде тех, что использовались в Minimax m2.1 DWQ MLX. Деревья же начинают разваливаться при таком уровне сжатия.

Это тот редкий случай, где нейросеть выигрывает не точностью, а ужимаемостью. Иронично, но факт.

Что дальше? TinyML выходит в мейнстрим

Успех Яндекса - не единичный эксперимент. Это часть тренда. Компании вроде IBM уже выпускают специальные edge-модели для микроконтроллеров. А проекты вроде локального подавления шума показывают, что даже сложные аудиозадачи можно решать на устройстве.

Следующий логический шаг - перенос других функций стримингов офлайн. Персонализированные миксы, адаптация громкости под окружение, даже простой отбор треков по настроению на основе анализа локальной библиотеки.

💡

Совет для разработчиков: если хотите экспериментировать с подобным сжатием, смотрите в сторону фреймворков типа TensorFlow Lite Micro или ONNX Runtime для мобильных. И не забудьте про оптимизацию под аппаратные ускорители, вроде Apple Neural Engine. Это даст еще один порядок экономии.

Прогноз на 2027 год? Каждый крупный стриминг - от музыки до видео - будет иметь подобный офлайн-ИИ. Не как фича для галочки, а как конкурентное преимущество. Потому что пользователь уже не понимает, почему при пропаже сети его приложение «тупеет». И он прав.

Яндекс просто оказался первым, кто довел идею до продукта. И теперь у них есть 100 килобайт, которые делают миллионы пользователей немного счастливее в метро, самолете или глухой деревне. Иногда прогресс измеряется не гигафлопсами, а тем, насколько элегантно ты убрал все лишнее.

Подписаться на канал

TinyML на практике: как Яндекс ужал рекомендательную нейросеть до 100 КБ для офлайн-работы в Музыке

Зачем сжимать нейросеть до размеров иконки?

Что внутри этого 100 КБ монстра?

Как это работает в реальности? От метро до самолета

Почему не CatBoost? Или почему да?

Что дальше? TinyML выходит в мейнстрим

Подписывайтесь на наш канал!