SageMaker Feature Store 2026: Iceberg, стриминг и Lake Formation

Feature Store долго был той самой тихой гаванью, где фичи лежат мёртвым грузом, пока инженеры бьются с метаданными. AWS решила это исправить — и вкатила три апдейта, которые заставляют взглянуть на хранилище признаков иначе. Apache Iceberg, стриминг в реальном времени и Lake Formation. Звучит как набор модных слов, но за ними стоит реальная боль: как не утонуть в копиях фич и синхронизировать данные для train и inference.

Раньше Feature Store работал как простая табличка в S3 с Parquet. Теперь — Iceberg на уровне таблиц, стриминг через Kinesis и управление доступом через Lake Formation. Разберём, что это даёт на практике и кому реально нужно.

Iceberg: не просто ещё один формат

Apache Iceberg — это не очередной файловый формат, а табличный слой поверх S3. Его главная фишка — атомарные коммиты и time travel. В контексте Feature Store это значит, что вы перестаёте плодить версии фич вручную. Iceberg сам отслеживает, какой срез данных был на момент обучения, и подтягивает его в инференс.

Раньше, если вы обновили фичу, приходилось либо перезаписывать партицию, что ломало предыдущие модели, либо городить костыли с отдельными таблицами. Iceberg решает это через snapshot isolation. Вы можете спокойно делать offline-обучение на старом снепшоте, пока онлайн-пайплайн пишет новые данные.

Совет: используйте Time Travel для отладки. Если модель на проде вдруг начала выдавать чушь, всегда можно откатить Feature Store к моменту, когда она работала, и сравнить фичи.

По сравнению с Feast или Tecton, где Iceberg тоже появляется, но интеграция с SageMaker всё равно глубже. Feast требует отдельного сервиса для управления метаданными, а здесь всё завязано на единый SageMaker SDK. Для тех, кто уже в AWS, это меньше головной боли.

Стриминг: когда latency решает всё

Вторая новинка — native streaming ingestion через Kinesis Data Streams. Теперь фичи могут поступать в Feature Store с задержкой в секунды, а не минуты, как было при батчевой загрузке. Критично для антифрода, real-time рекомендаций или мониторинга оборудования.

Раньше приходилось писать собственный коннектор, который дёргал PutRecord, а потом запускать батч-джобу. AWS наконец сделала это стандартной возможностью. Под капотом — автоматическая запись в Iceberg, так что вы получаете и стриминг, и ACID-транзакции.

В контексте streaming datasets от Hugging Face это выглядит логичным: данные текут непрерывно, и Feature Store должен подхватывать их без пауз. Но не ждите магии — если ваш пайплайн обучения всё ещё батчевый, стриминг в Feature Store будет избыточным. Он нужен только там, где модель потребляет фичи онлайн.

Важно: стриминг не бесплатный. Каждая запись в Kinesis стоит денег, а если фич много (миллионы пользователей × десятки признаков), расходы могут удивить. Считайте заранее.

Lake Formation: фичи под замком

Третий апдейт — интеграция с Lake Formation. Раньше доступ к Feature Store настраивался через IAM, но это было грубо: либо ты админ, либо нет. Lake Formation добавляет row-level security и column-level filtering. Теперь можно сказать: "эта команда видит только фичи по Европе, а эта — без credit_score".

Особенно актуально для компаний, где данные моделей пересекаются с персональными (GDPR, CCPA). Вместо того чтобы клонировать Feature Store под каждый юридический периметр, вы просто разграничиваете доступ на уровне таблицы. И аудит — всё логируется в CloudTrail.

Сравните с Databricks Feature Store: там похожая история через Unity Catalog, но Unity — это надстройка, которая тоже стоит денег. Lake Formation — часть AWS, и если вы уже используете его для Data Lake, то получаете Feature Store с той же политикой.

Как это стыкуется с ML-пайплайнами

Теперь про практику. Представьте: вы строите рекомендательную систему для интернет-магазина. Данные о просмотрах поступают стримом, фичи пользователя считаются на лету и пишутся в Feature Store с Iceberg. Модель обучения тянет снепшот за последнюю неделю. Инференс-эндпойнт дёргает те же фичи через онлайн-сервис — и гарантированно получает срез, который видел трейн.

Если вы раньше мучились с рассинхроном между train и serve (например, трекинг моделей с DVC и MLflow), то Iceberg снимает этот вопрос на уровне хранилища.

А если магазин работает в regulated-индустрии (финансы, медицина) — Lake Formation закрывает compliance. Каждый запрос к Feature Store логируется, и вы можете доказать аудитору, что модель не видела запрещённых данных.

Кому это реально нужно

Инженеры данных, которые устали от ручного версионирования фич и хотят Iceberg — это ваш инструмент.
ML-инженеры, которые обслуживают real-time модели и задыхаются без стриминга — апдейт для вас.
Data Governance — если у вас несколько команд с разными уровнями доступа к данным, Lake Formation избавит от копирования таблиц.

Но если у вас простые батчевые модели и одна команда — обновление может быть оверкиллом. Старый Feature Store с Parquet и IAM справится не хуже.

💡

Лайфхак: начните с Iceberg, даже если не планируете стриминг сразу. Он даёт time travel и дедупликацию, а миграция с Parquet — одна команда в SageMaker SDK (версия 2.127 и выше).

Что дальше? Вероятно, AWS прикрутит automatic feature importance на уровне хранилища — чтобы не просто хранить фичи, а сразу ранжировать их по влиянию на модель. Но пока радуемся тому, что есть.

Подписаться на канал

Новые возможности SageMaker Feature Store: Iceberg, streaming и Lake Formation для ML-пайплайнов

Iceberg: не просто ещё один формат

Стриминг: когда latency решает всё

Lake Formation: фичи под замком

Как это стыкуется с ML-пайплайнами

Кому это реально нужно

Подписывайтесь на наш канал!