Архитектура Discovery-платформы VK: AI-стек, рекомендации, метрики роста

Пять раз. Это не маркетинг

Когда в январе 2026 года команда Discovery VK публикует цифры, даже скептики замолкают. Time-to-market для новых рекомендательных моделей сократился с 3 месяцев до 18 дней. Пять раз. Не в теории, а в ленте новостей, музыке, видео и маркетплейсе для 90+ миллионов пользователей.

За этим стоит не одна волшебная модель, а пересобранная с нуля архитектура. Единый AI-стек, который убил хаос из 40+ разрозненных пайплайнов, 15 разных фреймворков для инференса и ручное управление фичами. История, которая начинается с боли, знакомой любому ML-инженеру в большой компании.

Контекст: на начало 2024 года Discovery-экосистема VK (лента, музыка, видео, товары) работала на лоскутном одеяле из ML-систем. Каждая команда строила свой пайплайн. Фичи рассчитывались в 7 разных местах. Инференс-модели жили кто где. Добавить новую сигнатуру в модель означало согласовать 5 команд и ждать 2 недели.

Три кита, которые держат всё

Архитектура, которую построили к 2026 году, стоит на трех платформах. Не на слайдах, а в продакшене.

1 Stream Flow: где рождаются фичи

Раньше: событие клика из ленты шло в Kafka, потом в Flink-джоб команды А, потом в отдельный процессинг команды B, и только через сутки попадало в фича-стор. Теперь: единый потоковый граф вычислений. Все сырые события (просмотры, лайки, поиски) попадают в один вход. Декларативно описываешь, какие агрегаты нужны: скользящее окно просмотров за час, уникальные авторы за день, CTR по категориям.

Фишка в кэше. Горячие фичи (последние 10 минут активности пользователя) живут в RAM с latency <5 мс. Холодные — уходят в Feature Store на основе ClickHouse. Когда модель в инференсе запрашивает фичи, она не ждет пересчета. Она получает готовое значение из ближайшего кэша. Это решает проблему, о которой мы писали в статье про деградацию RAG — латентность убивает пользовательский опыт.

2 Inference Platform: одна платформа для всех моделей

Здесь была самая большая боль. На 2024 год: TensorFlow Serving для одних моделей, собственный C++ фреймворк для других, PyTorch Serve для третьих. Каждый со своими конфигами, мониторингом и способами деплоя.

Inference Platform 2026 — это единый оркестратор для инференса. Не важно, что внутри: LightGBM, трансформер для эмбеддингов, кастомная нейросеть на Rust. Ты описываешь модель в конфиге (формат, необходимые ресурсы, фичи на входе), и платформа сама разворачивает её в оптимальном количестве реплик, балансирует нагрузку, собирает метрики перцентилей latency.

💡

Ключевое отличие от облачных решений вроде SageMaker: платформа заточена под рекомендательные модели с тысячами запросов в секунду и строгими SLA <50 мс. Здесь нет overhead на универсальность. Только инференс, максимально близкий к данным.

3 Feature Flow: как фичи попадают в модели

Раньше: ML-инженер пишет скрипт на Python, который тянет фичи из пяти разных источников, склеивает их в DataFrame и подает в модель. Потом этот же скрипт нужно переписать на C++ для продакшена. Расхождения гарантированы.

Feature Flow — это декларативный язык описания фич. Ты определяешь схему: какие фичи нужны, откуда брать, как трансформировать. Система генерирует код для обучения (Python) и для продакшена (Rust) из одного описания. Нулевое расхождение. Добавил новую фичу — она автоматически появляется и в обучающей выборке, и в инференсе.

Цифры, которые заставляют поверить

Вся эта архитектура — не академическое упражнение. К концу 2025 года она дала конкретные бизнес-метрики:

Метрика	Рост	Что это значит
Время просмотра в ленте	+17.4%	Пользователи дольше остаются в сервисе
Подписки на сообщества	+43%	Лучше работают рекомендации контента
Time-to-market новой модели	С 3 мес → 18 дней	В 5 раз быстрее экспериментов
P99 latency инференса	С 120 мс → 45 мс	Рекомендации появляются мгновенно

Что под капотом у скорости

Пять раз — это не магия. Это конкретные инженерные решения, которые можно украсть (в хорошем смысле).

Единый Feature Store вместо семи разных баз. Все фичи в одном месте, с одним API. Модель запрашивает 200 фич за один вызов, а не делает 200 отдельных запросов.
Автоматическая генерация кода из декларативных описаний. Ты больше не пишешь boilerplate для фич дважды (обучение + продакшен).
Слои кэширования от RAM до SSD. Горячие данные — в памяти, теплые — в KV-сторе, холодные — в колоночной БД. Как в нашем разборе поиска для агентов, но для фич.
Стандартизированный мониторинг для всех моделей. Больше нет ситуации, когда одна команда смотрит на графики в Grafana, а другая — в собственной админке.

Важный нюанс: VK не стала строить универсальную AI-платформу «для всего». Они сфокусировались только на рекомендательных системах. Это позволило сделать каждую компоненту максимально специализированной и эффективной для своей задачи.

А что с агентами и RAG?

Интересный вопрос. Discovery-платформа VK в 2026 году всё еще в основном про классические рекомендательные модели (матричные разложения, графовые нейросети, LightGBM). Но архитектура уже готова к гибридному будущему.

Feature Flow умеет работать с эмбеддингами из LLM как с обычными фичами. Inference Platform может запускать инференс небольших языковых моделей (типа Qwen2.5 7B) рядом с рекомендательными. Это открывает дорогу к персонализированным агентам, которые понимают контекст пользователя не через правила, а через семантику.

Но пока что, как показывает практика Яндекс DeepResearch, массовые рекомендательные системы живут на классическом ML. LLM добавляют сверху для обработки сложных запросов и генерации объяснений.

Что это значит для остальных

Вы не VK с 90 миллионами пользователей. Но уроки применимы к любому масштабу.

Стандартизируйте фичи раньше, чем кажется нужным. Когда у вас 10 моделей и 3 источника данных — уже поздно. Начинайте с единого Feature Store, даже если это просто PostgreSQL с кэшем Redis.
Декларативные описания побеждают императивный код. Описывайте, что нужно сделать с данными, а не как это делать. Система сама сгенерирует оптимальный код.
Инференс — это отдельная платформа, а не скрипт. Не запускайте модели в Docker-контейнерах с ручным балансировщиком. Постройте (или возьмите готовую) платформу, которая умеет масштабировать, мониторить и откатывать модели.

Самое главное — архитектура Discovery VK показывает, что в 2026 году конкурентное преимущество создается не одной супер-моделью, а скоростью итераций. Кто быстрее тестирует гипотезы, тот выигрывает. И для этого нужна не гениальная команда Data Scientists, а скучная, надежная инфраструктура, которая работает как швейцарские часы.

P.S. Если вы строите что-то похожее в меньшем масштабе, посмотрите на каталог инструментов для локального ИИ. Там есть всё, чтобы собрать свой стек, не изобретая велосипед.

Discovery VK: как единый AI-стек за 18 месяцев ускорил рекомендации в 5 раз