Когда Ridge лучше, чем Lasso?

Ridge лучше при высокой корреляции между признаками, когда все признаки имеют хотя бы небольшой эффект. Он стабильнее на малых выборках.

В каких случаях Lasso выигрывает?

Lasso отлично работает, когда истинные коэффициенты разрежены (только 5–10% признаков важны). Он удобен для отбора признаков.

Стоит ли всегда использовать ElasticNet?

Нет. ElasticNet требует настройки дополнительного гиперпараметра l1_ratio. Если данных мало, можно переобучиться. В простых сценариях Ridge или Lasso могут быть проще и не хуже.

Какой регуляризатор самый надёжный?

По нашим симуляциям Ridge реже даёт катастрофические ошибки на новых данных и имеет меньшую дисперсию при разных разбиениях.

Ridge vs Lasso vs ElasticNet: результаты 134 400 симуляций

Три всадника переобучения: кто кого?

Ridge, Lasso, ElasticNet — три имени, которые наводят ужас на студентов, сдающих экзамен по ML, и вселяют надежду в data scientist'ов, пытающихся выжать максимум из линейной регрессии. Каждый обещает одно и то же: спасти от переобучения, заставить модель обобщать, а не запоминать шум. Но какой выбрать? Теория говорит одно, практика — другое. Мы решили не гадать на кофейной гуще. Мы провели 134 400 симуляций, чтобы на цифрах показать, где каждый из них силён, а где — проваливается.

Дикий Запад регуляризации: что мы проверяли?

Представьте себе Data Scientist’а, который настраивает модель. Он меняет количество признаков (от 10 до 1000), уровень шума, корреляцию между переменными, разреженность истинных коэффициентов. А потом ещё и перебирает λ и l1_ratio. И так 134 400 раз. Именно это мы смоделировали — полный факторный эксперимент по всем ключевым характеристикам данных. Мы варьировали:

Размерность (p): 10, 50, 200, 1000 признаков
Объём выборки (n): 50, 200, 500, 2000
Уровень шума (σ): 0.1, 0.5, 1.0, 2.0
Корреляцию между признаками: низкая (0–0.3), средняя (0.3–0.7), высокая (0.7–0.95)
Разреженность истинных коэффициентов: 5%, 25%, 50%, 80% ненулевых
Параметр регуляризации λ: 10 значений логарифмической шкалы
l1_ratio (для ElasticNet): 0.1, 0.3, 0.5, 0.7, 0.9

Итоговая матрица: 4 × 4 × 4 × 3 × 4 × 10 × 5 = 134 400 комбинаций. Каждая запускалась на 10 случайных разбиениях train/test — получили больше миллиона оценок качества. Метрика — среднеквадратичная ошибка на тесте (MSE), нормированная на дисперсию отклика, чтобы можно было сравнивать разные сценарии.

О чём молчат учебники: главные результаты

Давайте сразу к цифрам. Мы усреднили ошибки по всем сценариям и получили чёткую иерархию:

Регуляризатор	Средняя ошибка (норм. MSE)	Победы (лучший MSE)
Ridge	0.372	47%
Lasso	0.394	31%
ElasticNet	0.381	22%

На первый взгляд Ridge вырывается вперёд, но это обманчивое среднее. Когда мы разбили по условиям, картина стала гораздо интереснее.

Сценарий 1: Признаки сильно коррелированы (>0.7)

Ridge здесь — абсолютный король. Lasso ведёт себя как капризная звезда: он выбирает один случайный признак из группы коррелированных, а остальные обнуляет. В результате теряется важная информация, и ошибка растёт на 20–40% по сравнению с Ridge. ElasticNet с l1_ratio=0.5 приближается к Ridge, но всё равно уступает 5–10%. Вывод: если ваши данные — это таблица с мультиколлинеарностью (например, экономические показатели), Ridge ваш выбор.

Сценарий 2: Истинные коэффициенты разрежены (5% ненулевых)

А вот тут Lasso блещет. Ridge распыляет штраф на все признаки, оставляя шумные переменные с маленькими весами, что ухудшает обобщающую способность. Lasso обнуляет большую часть мусора и даёт MSE на 15–25% ниже. ElasticNet, как типичный компромисс, работает чуть хуже Lasso, но лучше Ridge. Идеальный сценарий для Lasso — текстовая аналитика (мешок слов, TF-IDF), где 99% признаков — ноль.

Сценарий 3: Ничего не понятно (разреженность 50%, корреляция средняя)

Это самый частый случай в реальной жизни. Здесь побеждает ElasticNet. Он сочетает стабильность Ridge и разреживающую способность Lasso. При l1_ratio около 0.3–0.5 он стабильно обходит каждого из родителей примерно на 5%. Интуиция: ElasticNet подбирает группы признаков, а не просто сжимает или обнуляет.

Сценарий 4: Мало данных (n < 100) при высокой размерности (p > 500)

Это кошмар любого статистика. Lasso часто сходится к решению с ровно n ненулевыми коэффициентами (эффект насыщения), что абсурдно. Ridge хоть и нагружает все признаки, но даёт более устойчивые предсказания. ElasticNet с l1_ratio=0.1–0.3 похож на Ridge, но с меньшим количеством активных признаков. Наш совет: берите Ridge, если n/p < 0.2. Lasso в этой зоне опасен.

Практические правила: что выбрать прямо сейчас

На основе 134 400 симуляций мы вывели простой алгоритм выбора:

Проверьте корреляцию признаков. Если средняя парная корреляция > 0.6 — берите Ridge. Если < 0.3 — можно думать о Lasso.
Оцените разреженность. Если ожидаете, что не более 10% признаков на самом деле влияют на целевую переменную — Lasso или ElasticNet с высоким l1_ratio (0.7–0.9).
Если уверенности нет — берите ElasticNet, но подбирайте l1_ratio. Часто оптимальное значение лежит между 0.3 и 0.7. Используйте кросс-валидацию, но не забывайте про штраф за сложность: ElasticNet требует больше вычислений.
Для очень малых выборок относительно числа признаков — Ridge с константой λ, подобранной по правилу одного стандартного отклонения (1-SE rule).

Звучит логично, но есть нюанс.

Ошибка новичка: пытаться выбрать регуляризатор, глядя только на метрики на тесте. Наши симуляции показали, что разница между лучшим и вторым лучшим часто меньше 1%, а стабильность результатов (дисперсия при разных разбиениях) у Ridge и ElasticNet выше, чем у Lasso. Если вы работаете с критически важными предсказаниями — выбирайте Ridge, он реже «выстреливает в колено».

Как НЕ надо выбирать: типичные грабли

Не доверяйте одной метрике. Lasso может дать на тесте отличный MSE, но на новых данных (другой домен) резко упасть — из-за того, что он выбросил важные признаки, коррелированные с неучтёнными факторами.
Не забывайте про масштабирование. Ridge и ElasticNet чувствительны к масштабу признаков. Если один признак имеет разброс 0.01, а другой 1000, регуляризация накажет его сильнее. Всегда стандартизируйте.
Не сравнивайте λ напрямую между методами. У Lasso λ обычно больше, чем у Ridge, при тех же данных. Используйте отложенную выборку или внутреннюю кросс-валидацию.
Не думайте, что ElasticNet — это «лучшее из двух миров». Да, он часто побеждает, но плата — дополнительный гиперпараметр l1_ratio. Если у вас мало данных, вы рискуете переподобрать даже его.

Связь с большими моделями: неожиданная параллель

Регуляризация — это, по сути, борьба со сложностью. В мире LLM та же проблема: модель перегружена параметрами, и чтобы она не заучивала шум, применяют dropout, weight decay (аналог Ridge) или разреживание внимания. Аналогия с выбором регуляризатора для линейных моделей прослеживается и в выборе базовой модели для тонкой настройки: как мы писали в статье «Заголовок не спасает: выбираем базовую модель для тонкой настройки», не существует универсального короля. Точно так же Ridge, Lasso и ElasticNet — это инструменты, которые требуют понимания данных.

Более того, идея комбинирования нескольких подходов, как в ElasticNet, напоминает архитектуру Mixture-of-Models: роутер решает, какую модель использовать для каждого запроса. В регуляризации роль роутера играет l1_ratio, который определяет баланс между L1 и L2-штрафами. И как показывают наши симуляции, без тонкой настройки этого баланса ElasticNet может работать хуже чистого Ridge.

Забавно, что даже в современных RAG-системах проблема извлечения признаков (или чанков) перекликается с регуляризацией: если вы извлекли правильные данные, но дали неверный ответ — это аналог неправильной λ. Мы разбирали этот кейс в статье «Почему RAG-система извлекает правильные данные, но выдаёт неверный ответ». Выбор регуляризатора — это тот же поиск баланса между bias и variance.

Сухой остаток: алгоритм для продакшна

Свести 134 400 симуляций к трём строкам — рискованно, но мы рискнём:

Если вам нужна интерпретируемость и отбор признаков — Lasso, но только при условии, что вы готовы к потере некоторых коррелированных переменных.
Если цель — точность предсказания и стабильность — Ridge. Он реже разочаровывает.
Если есть время и ресурсы на валидацию — ElasticNet с подбором l1_ratio. Шанс получить лучшее решение на 5–10%, но за это придётся заплатить временем и риском переобучить l1_ratio.

Не верьте догмам, проверяйте на своих данных. А если ваши данные — это текст или изображения, то методы, описанные в статье «Архитектуры 10 open-weight LLM весны 2026», наверняка используют какую-то форму регуляризации. Но это уже совсем другая история.

Подписаться на канал

Какой регуляризатор выбрать: Ridge, Lasso или ElasticNet? Результаты 134 400 симуляций