Пять раз. Это не маркетинг
Когда в январе 2026 года команда Discovery VK публикует цифры, даже скептики замолкают. Time-to-market для новых рекомендательных моделей сократился с 3 месяцев до 18 дней. Пять раз. Не в теории, а в ленте новостей, музыке, видео и маркетплейсе для 90+ миллионов пользователей.
За этим стоит не одна волшебная модель, а пересобранная с нуля архитектура. Единый AI-стек, который убил хаос из 40+ разрозненных пайплайнов, 15 разных фреймворков для инференса и ручное управление фичами. История, которая начинается с боли, знакомой любому ML-инженеру в большой компании.
Контекст: на начало 2024 года Discovery-экосистема VK (лента, музыка, видео, товары) работала на лоскутном одеяле из ML-систем. Каждая команда строила свой пайплайн. Фичи рассчитывались в 7 разных местах. Инференс-модели жили кто где. Добавить новую сигнатуру в модель означало согласовать 5 команд и ждать 2 недели.
Три кита, которые держат всё
Архитектура, которую построили к 2026 году, стоит на трех платформах. Не на слайдах, а в продакшене.
1 Stream Flow: где рождаются фичи
Раньше: событие клика из ленты шло в Kafka, потом в Flink-джоб команды А, потом в отдельный процессинг команды B, и только через сутки попадало в фича-стор. Теперь: единый потоковый граф вычислений. Все сырые события (просмотры, лайки, поиски) попадают в один вход. Декларативно описываешь, какие агрегаты нужны: скользящее окно просмотров за час, уникальные авторы за день, CTR по категориям.
Фишка в кэше. Горячие фичи (последние 10 минут активности пользователя) живут в RAM с latency <5 мс. Холодные — уходят в Feature Store на основе ClickHouse. Когда модель в инференсе запрашивает фичи, она не ждет пересчета. Она получает готовое значение из ближайшего кэша. Это решает проблему, о которой мы писали в статье про деградацию RAG — латентность убивает пользовательский опыт.
2 Inference Platform: одна платформа для всех моделей
Здесь была самая большая боль. На 2024 год: TensorFlow Serving для одних моделей, собственный C++ фреймворк для других, PyTorch Serve для третьих. Каждый со своими конфигами, мониторингом и способами деплоя.
Inference Platform 2026 — это единый оркестратор для инференса. Не важно, что внутри: LightGBM, трансформер для эмбеддингов, кастомная нейросеть на Rust. Ты описываешь модель в конфиге (формат, необходимые ресурсы, фичи на входе), и платформа сама разворачивает её в оптимальном количестве реплик, балансирует нагрузку, собирает метрики перцентилей latency.
3 Feature Flow: как фичи попадают в модели
Раньше: ML-инженер пишет скрипт на Python, который тянет фичи из пяти разных источников, склеивает их в DataFrame и подает в модель. Потом этот же скрипт нужно переписать на C++ для продакшена. Расхождения гарантированы.
Feature Flow — это декларативный язык описания фич. Ты определяешь схему: какие фичи нужны, откуда брать, как трансформировать. Система генерирует код для обучения (Python) и для продакшена (Rust) из одного описания. Нулевое расхождение. Добавил новую фичу — она автоматически появляется и в обучающей выборке, и в инференсе.
Цифры, которые заставляют поверить
Вся эта архитектура — не академическое упражнение. К концу 2025 года она дала конкретные бизнес-метрики:
| Метрика | Рост | Что это значит |
|---|---|---|
| Время просмотра в ленте | +17.4% | Пользователи дольше остаются в сервисе |
| Подписки на сообщества | +43% | Лучше работают рекомендации контента |
| Time-to-market новой модели | С 3 мес → 18 дней | В 5 раз быстрее экспериментов |
| P99 latency инференса | С 120 мс → 45 мс | Рекомендации появляются мгновенно |
Что под капотом у скорости
Пять раз — это не магия. Это конкретные инженерные решения, которые можно украсть (в хорошем смысле).
- Единый Feature Store вместо семи разных баз. Все фичи в одном месте, с одним API. Модель запрашивает 200 фич за один вызов, а не делает 200 отдельных запросов.
- Автоматическая генерация кода из декларативных описаний. Ты больше не пишешь boilerplate для фич дважды (обучение + продакшен).
- Слои кэширования от RAM до SSD. Горячие данные — в памяти, теплые — в KV-сторе, холодные — в колоночной БД. Как в нашем разборе поиска для агентов, но для фич.
- Стандартизированный мониторинг для всех моделей. Больше нет ситуации, когда одна команда смотрит на графики в Grafana, а другая — в собственной админке.
Важный нюанс: VK не стала строить универсальную AI-платформу «для всего». Они сфокусировались только на рекомендательных системах. Это позволило сделать каждую компоненту максимально специализированной и эффективной для своей задачи.
А что с агентами и RAG?
Интересный вопрос. Discovery-платформа VK в 2026 году всё еще в основном про классические рекомендательные модели (матричные разложения, графовые нейросети, LightGBM). Но архитектура уже готова к гибридному будущему.
Feature Flow умеет работать с эмбеддингами из LLM как с обычными фичами. Inference Platform может запускать инференс небольших языковых моделей (типа Qwen2.5 7B) рядом с рекомендательными. Это открывает дорогу к персонализированным агентам, которые понимают контекст пользователя не через правила, а через семантику.
Но пока что, как показывает практика Яндекс DeepResearch, массовые рекомендательные системы живут на классическом ML. LLM добавляют сверху для обработки сложных запросов и генерации объяснений.
Что это значит для остальных
Вы не VK с 90 миллионами пользователей. Но уроки применимы к любому масштабу.
- Стандартизируйте фичи раньше, чем кажется нужным. Когда у вас 10 моделей и 3 источника данных — уже поздно. Начинайте с единого Feature Store, даже если это просто PostgreSQL с кэшем Redis.
- Декларативные описания побеждают императивный код. Описывайте, что нужно сделать с данными, а не как это делать. Система сама сгенерирует оптимальный код.
- Инференс — это отдельная платформа, а не скрипт. Не запускайте модели в Docker-контейнерах с ручным балансировщиком. Постройте (или возьмите готовую) платформу, которая умеет масштабировать, мониторить и откатывать модели.
Самое главное — архитектура Discovery VK показывает, что в 2026 году конкурентное преимущество создается не одной супер-моделью, а скоростью итераций. Кто быстрее тестирует гипотезы, тот выигрывает. И для этого нужна не гениальная команда Data Scientists, а скучная, надежная инфраструктура, которая работает как швейцарские часы.
P.S. Если вы строите что-то похожее в меньшем масштабе, посмотрите на каталог инструментов для локального ИИ. Там есть всё, чтобы собрать свой стек, не изобретая велосипед.