Ваша модель врет. Вы этого еще не знаете
Все началось с идеальной метрики. Ваша ML-модель показывает 99% точности на тестовых данных. ROC-кривая идеальна. Команда ликует. Вы запускаете модель в продакшн. И через месяц оказывается, что она не просто не работает – она делает хуже.
Реальный случай из медицинского ML: модель предсказывала риск повторной госпитализации пациентов. Внедрили – количество повторных госпитализаций выросло на 17%. Потому что модель училась на корреляциях, а не на причинно-следственных связях. Она видела, что пациенты, которые получали определенное лечение, чаще возвращались в больницу. И рекомендовала не назначать это лечение. Хотя на самом деле лечение назначали самым тяжелым пациентам – тем, кто и так бы вернулся. Модель перепутала причину и следствие.
Корреляция vs причинность: самая дорогая ошибка в ML
Классическое машинное обучение построено на статистических зависимостях. Модель видит: X и Y часто встречаются вместе. Она заключает: X вызывает Y. Но мир сложнее.
Три типа проблем, которые вы не замечаете
- Confounding (смешивающие факторы): Вам кажется, что кофе вызывает рак. Потому что пьющие кофе чаще болеют раком. Но они еще и чаще курят. Курение – смешивающий фактор, который вызывает и потребление кофе, и рак. Ваша модель этого не видит.
- Collider bias (систематическая ошибка отбора): Вы изучаете связь между талантом и красотой у актеров. Видите отрицательную корреляцию: самые талантливые – не самые красивые. Но вы смотрите только на успешных актеров (тех, кто попал в выборку). Чтобы попасть в выборку, нужно быть или очень талантливым, или очень красивым. Между этими переменными в генеральной совокупности может не быть никакой связи.
- Mediation (посредничество): Реклама → больше кликов → больше продаж. Модель видит: реклама и продажи коррелируют. Выключает рекламу. Продажи падают. Но она не понимает цепочки: реклама вызывает клики, которые вызывают продажи.
В 2026 году инструменты causal inference стали достаточно зрелыми, чтобы решать эти проблемы в production. Но 90% команд все еще ими не пользуются. Потому что «у нас и так хорошо работает».
Инструменты 2026 года: causal inference выходит из академии
До 2023 года causal inference был уделом академических исследований. В 2024-2025 появились production-готовые инструменты. К 2026 они стали стандартом для компаний, которые действительно зависят от своих ML-моделей.
| Инструмент | Версия (2026) | Что делает | Когда использовать |
|---|---|---|---|
| DoWhy | 0.9+ | Полный пайплайн causal inference: идентификация, оценка, проверка | Когда нужен структурированный подход от предположений до результата |
| EconML | 0.15+ | Методы оценки индивидуального причинного эффекта (CATE) | Персонализированные вмешательства: кому показывать рекламу, кому давать скидку |
| CausalNex | 0.14+ | Bayesian networks для причинного вывода | Сложные системы с множеством переменных и неочевидными связями |
| PyWhy | 0.3+ | Единая экосистема causal inference инструментов (от Microsoft Research) | Для интеграции в существующие ML-пайплайны |
Но инструменты – это только половина дела. Вторая половина – изменение мышления.
Четыре шага к модели, которая не врет
1 Нарисуйте причинную диаграмму до написания первой строчки кода
Не начинайте с данных. Начните с domain knowledge. Соберите экспертов – не data scientist, а тех, кто понимает процесс. Врачей для медицинской модели. Маркетологов для модели оттока. Нарисуйте DAG (Directed Acyclic Graph) – направленный ациклический граф.
Что влияет на отток клиентов? Цены, качество поддержки, появление конкурентов. Но что влияет на цены? Себестоимость, стратегия компании. Каждая стрелка – это ваше предположение о причинно-следственной связи. Эти предположения будут проверяться.
DAG – это контракт между data scientist и бизнесом. «Мы считаем, что мир устроен вот так». Если модель не работает – возможно, контракт неверен. Это лучше, чем черный ящик, который «просто не работает».
2 Идентифицируйте смешивающие факторы до того, как они смешают всё
Посмотрите на свой DAG. Какие переменные влияют и на причину, и на следствие? Это потенциальные конфайндеры. Сезонность в retail: она влияет и на проведение акций (причина), и на продажи (следствие). Если не учесть – решите, что акции не работают.
Совет: используйте LLM для извлечения причинных признаков из текстовых данных: описаний процессов, интервью с экспертами. Нейросеть найдет связи, которые вы упустили.
3 Выберите метод оценки, который соответствует вашим данным
Все методы causal inference требуют допущений. Ваша задача – выбрать метод, чьи допущения наиболее реалистичны в вашем случае.
- Matching (пропенсити-скор): если у вас много наблюдений и вы считаете, что все смешивающие факторы измерены.
- Instrumental variables: если есть переменная, которая влияет на причину, но не на следствие (редко, но бывает).
- Difference-in-differences: если у вас есть естественный эксперимент (изменение политики в одной группе, но не в другой).
- Regression discontinuity: если вмешательство происходит при достижении порога (скидка при покупке от 5000 рублей).
Начните с простого. DoWhy автоматически предложит несколько методов – сравните результаты. Если сильно различаются – ваши допущения, вероятно, неверны.
4 Проведите robustness checks – тесты на прочность
Классическое ML: валидация на holdout выборке. Causal inference: проверка устойчивости к нарушениям допущений.
Что если мы ошиблись в DAG? Что если есть ненаблюдаемый смешивающий фактор? Современные инструменты позволяют оценить, насколько сильным должен быть ненаблюдаемый конфайндер, чтобы опровергнуть наш вывод.
Пример: мы считаем, что новая функция увеличивает retention на 10%. Robustness check показывает: чтобы этот эффект был нулевым, нужен ненаблюдаемый фактор, который в 3 раза сильнее влияет на retention, чем все наблюдаемые факторы вместе. Маловероятно. Можно запускать.
Ошибки, которые вы совершите (я их уже совершил за вас)
Ошибка 1: Использовать causal inference как черный ящик. «Вот библиотека, она все сделает». Не сделает. Без domain knowledge и правильно построенного DAG вы получите красивый мусор.
Ошибка 2: Игнорировать временные эффекты. Причина предшествует следствию. Но в данных timestamp может быть неточным. Лечение назначено в 14:00, температура упала в 13:58. Модель решит, что лечение подняло температуру.
Ошибка 3: Переусложнить DAG. 100 вершин, 300 стрелок. Вы не проверите такие допущения. Начинайте с минимальной жизнеспособной причинной модели. Добавляйте сложность постепенно.
Самая опасная ошибка – не использовать causal inference вообще. Потому что тогда ваша модель будет делать вид, что предсказывает будущее, а на самом деле – экстраполировать прошлые корреляции. Которые уже изменились. Как в случае с моделью, которая идеально работала в тестах и полностью провалилась в продакшене.
Скептику на заметку
«У нас нет экспериментальных данных. Без A/B тестов causal inference невозможен». Неправда. Методы like synthetic control и regression discontinuity работают на наблюдательных данных. Они требуют более сильных допущений, но дают ответы там, где A/B тест этически или технически невозможен (например, в медицине или экономике).
«Это слишком сложно для нашей команды». Начните с одного use case. Не со всей системы рекомендаций – с одного канала коммуникации. Сравните результаты causal модели и классической. Увидите разницу – появится мотивация.
«Наши модели и так приносят миллионы». Возможно. Но сколько они теряют из-за ложных корреляций? Одна финтех-компания после внедрения causal inference обнаружила, что их модель кредитного скоринга дискриминировала не по доходу, а по почтовому индексу (коррелировавшему с доходом). Исправили – увеличили approval rate на 8% без роста дефолтов.
Что будет дальше?
К 2027 году causal inference станет обязательным модулем в ML-пайплайнах. Не потому, что это модно. Потому что без него компании теряют деньги на неверных решениях. Уже сейчас появляются инструменты автоматического построения DAG из логов и текстовых описаний. LLM, обученные на научных статьях, предлагают гипотезы о причинно-следственных связях.
Но самый важный сдвиг – в культуре. От «предсказать» к «понять». От «точность модели» к «устойчивость выводов». От черных ящиков к объяснимым причинным моделям, где каждая стрелка – это проверяемое предположение.
Ваша следующая модель не должна просто предсказывать. Она должна понимать, почему. Иначе она сломается при первом же изменении мира. А мир меняется постоянно. Особенно сейчас.