Ваша модель врет. Вы этого еще не знаете

Все началось с идеальной метрики. Ваша ML-модель показывает 99% точности на тестовых данных. ROC-кривая идеальна. Команда ликует. Вы запускаете модель в продакшн. И через месяц оказывается, что она не просто не работает – она делает хуже.

Реальный случай из медицинского ML: модель предсказывала риск повторной госпитализации пациентов. Внедрили – количество повторных госпитализаций выросло на 17%. Потому что модель училась на корреляциях, а не на причинно-следственных связях. Она видела, что пациенты, которые получали определенное лечение, чаще возвращались в больницу. И рекомендовала не назначать это лечение. Хотя на самом деле лечение назначали самым тяжелым пациентам – тем, кто и так бы вернулся. Модель перепутала причину и следствие.

Корреляция vs причинность: самая дорогая ошибка в ML

Классическое машинное обучение построено на статистических зависимостях. Модель видит: X и Y часто встречаются вместе. Она заключает: X вызывает Y. Но мир сложнее.

Три типа проблем, которые вы не замечаете

Confounding (смешивающие факторы): Вам кажется, что кофе вызывает рак. Потому что пьющие кофе чаще болеют раком. Но они еще и чаще курят. Курение – смешивающий фактор, который вызывает и потребление кофе, и рак. Ваша модель этого не видит.
Collider bias (систематическая ошибка отбора): Вы изучаете связь между талантом и красотой у актеров. Видите отрицательную корреляцию: самые талантливые – не самые красивые. Но вы смотрите только на успешных актеров (тех, кто попал в выборку). Чтобы попасть в выборку, нужно быть или очень талантливым, или очень красивым. Между этими переменными в генеральной совокупности может не быть никакой связи.
Mediation (посредничество): Реклама → больше кликов → больше продаж. Модель видит: реклама и продажи коррелируют. Выключает рекламу. Продажи падают. Но она не понимает цепочки: реклама вызывает клики, которые вызывают продажи.

В 2026 году инструменты causal inference стали достаточно зрелыми, чтобы решать эти проблемы в production. Но 90% команд все еще ими не пользуются. Потому что «у нас и так хорошо работает».

💡

Проблема не в том, что ваша модель неправильно учится. Проблема в том, что она правильно учится неправильным вещам. Она идеально находит корреляции в исторических данных. Но мир меняется. И корреляции исчезают.

Инструменты 2026 года: causal inference выходит из академии

До 2023 года causal inference был уделом академических исследований. В 2024-2025 появились production-готовые инструменты. К 2026 они стали стандартом для компаний, которые действительно зависят от своих ML-моделей.

Инструмент	Версия (2026)	Что делает	Когда использовать
DoWhy	0.9+	Полный пайплайн causal inference: идентификация, оценка, проверка	Когда нужен структурированный подход от предположений до результата
EconML	0.15+	Методы оценки индивидуального причинного эффекта (CATE)	Персонализированные вмешательства: кому показывать рекламу, кому давать скидку
CausalNex	0.14+	Bayesian networks для причинного вывода	Сложные системы с множеством переменных и неочевидными связями
PyWhy	0.3+	Единая экосистема causal inference инструментов (от Microsoft Research)	Для интеграции в существующие ML-пайплайны

Но инструменты – это только половина дела. Вторая половина – изменение мышления.

Четыре шага к модели, которая не врет

1 Нарисуйте причинную диаграмму до написания первой строчки кода

Не начинайте с данных. Начните с domain knowledge. Соберите экспертов – не data scientist, а тех, кто понимает процесс. Врачей для медицинской модели. Маркетологов для модели оттока. Нарисуйте DAG (Directed Acyclic Graph) – направленный ациклический граф.

Что влияет на отток клиентов? Цены, качество поддержки, появление конкурентов. Но что влияет на цены? Себестоимость, стратегия компании. Каждая стрелка – это ваше предположение о причинно-следственной связи. Эти предположения будут проверяться.

DAG – это контракт между data scientist и бизнесом. «Мы считаем, что мир устроен вот так». Если модель не работает – возможно, контракт неверен. Это лучше, чем черный ящик, который «просто не работает».

2 Идентифицируйте смешивающие факторы до того, как они смешают всё

Посмотрите на свой DAG. Какие переменные влияют и на причину, и на следствие? Это потенциальные конфайндеры. Сезонность в retail: она влияет и на проведение акций (причина), и на продажи (следствие). Если не учесть – решите, что акции не работают.

Совет: используйте LLM для извлечения причинных признаков из текстовых данных: описаний процессов, интервью с экспертами. Нейросеть найдет связи, которые вы упустили.

3 Выберите метод оценки, который соответствует вашим данным

Все методы causal inference требуют допущений. Ваша задача – выбрать метод, чьи допущения наиболее реалистичны в вашем случае.

Matching (пропенсити-скор): если у вас много наблюдений и вы считаете, что все смешивающие факторы измерены.
Instrumental variables: если есть переменная, которая влияет на причину, но не на следствие (редко, но бывает).
Difference-in-differences: если у вас есть естественный эксперимент (изменение политики в одной группе, но не в другой).
Regression discontinuity: если вмешательство происходит при достижении порога (скидка при покупке от 5000 рублей).

Начните с простого. DoWhy автоматически предложит несколько методов – сравните результаты. Если сильно различаются – ваши допущения, вероятно, неверны.

4 Проведите robustness checks – тесты на прочность

Классическое ML: валидация на holdout выборке. Causal inference: проверка устойчивости к нарушениям допущений.

Что если мы ошиблись в DAG? Что если есть ненаблюдаемый смешивающий фактор? Современные инструменты позволяют оценить, насколько сильным должен быть ненаблюдаемый конфайндер, чтобы опровергнуть наш вывод.

Пример: мы считаем, что новая функция увеличивает retention на 10%. Robustness check показывает: чтобы этот эффект был нулевым, нужен ненаблюдаемый фактор, который в 3 раза сильнее влияет на retention, чем все наблюдаемые факторы вместе. Маловероятно. Можно запускать.

Ошибки, которые вы совершите (я их уже совершил за вас)

Ошибка 1: Использовать causal inference как черный ящик. «Вот библиотека, она все сделает». Не сделает. Без domain knowledge и правильно построенного DAG вы получите красивый мусор.

Ошибка 2: Игнорировать временные эффекты. Причина предшествует следствию. Но в данных timestamp может быть неточным. Лечение назначено в 14:00, температура упала в 13:58. Модель решит, что лечение подняло температуру.

Ошибка 3: Переусложнить DAG. 100 вершин, 300 стрелок. Вы не проверите такие допущения. Начинайте с минимальной жизнеспособной причинной модели. Добавляйте сложность постепенно.

Самая опасная ошибка – не использовать causal inference вообще. Потому что тогда ваша модель будет делать вид, что предсказывает будущее, а на самом деле – экстраполировать прошлые корреляции. Которые уже изменились. Как в случае с моделью, которая идеально работала в тестах и полностью провалилась в продакшене.

Скептику на заметку

«У нас нет экспериментальных данных. Без A/B тестов causal inference невозможен». Неправда. Методы like synthetic control и regression discontinuity работают на наблюдательных данных. Они требуют более сильных допущений, но дают ответы там, где A/B тест этически или технически невозможен (например, в медицине или экономике).

«Это слишком сложно для нашей команды». Начните с одного use case. Не со всей системы рекомендаций – с одного канала коммуникации. Сравните результаты causal модели и классической. Увидите разницу – появится мотивация.

«Наши модели и так приносят миллионы». Возможно. Но сколько они теряют из-за ложных корреляций? Одна финтех-компания после внедрения causal inference обнаружила, что их модель кредитного скоринга дискриминировала не по доходу, а по почтовому индексу (коррелировавшему с доходом). Исправили – увеличили approval rate на 8% без роста дефолтов.

Что будет дальше?

К 2027 году causal inference станет обязательным модулем в ML-пайплайнах. Не потому, что это модно. Потому что без него компании теряют деньги на неверных решениях. Уже сейчас появляются инструменты автоматического построения DAG из логов и текстовых описаний. LLM, обученные на научных статьях, предлагают гипотезы о причинно-следственных связях.

Но самый важный сдвиг – в культуре. От «предсказать» к «понять». От «точность модели» к «устойчивость выводов». От черных ящиков к объяснимым причинным моделям, где каждая стрелка – это проверяемое предположение.

Ваша следующая модель не должна просто предсказывать. Она должна понимать, почему. Иначе она сломается при первом же изменении мира. А мир меняется постоянно. Особенно сейчас.

💡

Проведите ревизию ваших production-моделей. Для каждой спросите: «Какие смешивающие факторы мы не учли?» Если не знаете ответ – значит, модель уже ошибается. Просто вы еще не видите последствий.

Подписаться на канал

Causal Inference против корреляции: почему ваши ML-модели ошибаются в продакшене и как это исправить