Градиентный бустинг свергнут с трона. На синтетическом полигоне, где у классических моделей было преимущество, победил алгоритм, о котором полгода назад никто не слышал. Знакомьтесь: полигармонический каскад.
Исследовательская группа из MIPT и Skoltech (Москва, 2026) устроила турнир 21 алгоритма машинного обучения на специально сгенерированном датасете. Цель — проверить, как методы справляются с многомерными нелинейными зависимостями, где присутствуют скрытые периодические паттерны и резкие разрывы. Датасет: 1000 признаков, 500 000 строк, синтезирован через суперпозицию 50 гармоник с шумом и каскадными взаимодействиями.
Взбесившийся частотомер
Полигармонический каскад (PHC) — это не очередная вариация градиентного бустинга или трансформера. Алгоритм раскладывает целевую функцию в ряд Фурье с адаптивным выбором частот, а затем обучает каскад слабых регрессоров, каждый из которых корректирует остатки на определенной гармонике. Звучит как магия? На практике PHC v1.0 (релиз апрель 2026) на тестовой выборке показал R² = 0.994, в то время как XGBoost 2.2 — 0.937, а CatBoost 1.5 — 0.928.
| Алгоритм | R² (тест) | Время обучения (мин) |
|---|---|---|
| Полигармонический каскад | 0.994 | 47 |
| XGBoost 2.2 | 0.937 | 12 |
| LightGBM 4.6 | 0.931 | 8 |
| TabNet 3.0 | 0.902 | 34 |
| FT-Transformer | 0.895 | 89 |
Таблица дает понять: на синтетике с доминирующими периодическими составляющими PHC просто shredдит конкурентов. Но цена — время обучения. 47 минут против 8 у LightGBM. Однако в задачах, где точность критична (анализ сигналов, финансовая инженерия, генерация синтетических данных для RL), это окупается.
Почему это важно — и почему не панацея
В последние годы табличные данные считались вотчиной градиентного бустинга. Статья о смене роли математики в ML предсказывала возврат к аналитическим методам. И вот — Фурье-анализ, который десятилетиями использовался в обработке сигналов, неожиданно выигрывает у глубокого обучения на структурированных данных.
Но есть нюанс. На классических UCI-датасетах (iris, wine, adult) PHC показывает результаты на уровне случайного леса. Почему? Потому что в реальных данных периодичность часто забита шумом и нерегулярностью. Однако в специально сконструированных средах — например, для обучения агентов в симуляторах с циклическими паттернами — PHC творит чудеса. Новый RL-алгоритм без TD-обучения отлично комбинируется с PHC в качестве предсказателя среды.
Кстати, турнир выявил и другую тенденцию: нейросетевые подходы (TabNet, FT-Transformer, SAINT) заняли места с 5-го по 12-е. Они оказались слишком прожорливыми и не вытянули сложную частотную структуру. История с Chess GPT показывает, что маленькие специализированные модели могут побеждать гигантов — здесь похожий принцип.
Когда готовите эксперимент на синтетике — проверьте, не подгоняете ли вы данные под алгоритм. Примеры таких ошибок разобраны в критическом разборе предобработки — там же указано, как правильно валидировать обобщающую способность.
Что дальше: бум спектральных методов?
Полигармонический каскад — не единственный в новом семействе. Уже анонсированы PHC-v2 (с нерегулярной сеткой частот) и гибрид с вейвлетами. Исследователи из MIPT обещают открыть код в ближайшие недели. Если тренд подтвердится на реальных кейсах (медицина, промышленность), нас ждет смена парадигмы: вместо «накорми нейросеть сырыми фичами» — «сперва разложи сигнал, потом обучи простую модель».
Но не спешите хоронить XGBoost. В 90% production-задач табличные данные не имеют жесткой периодики, и градиентный бустинг остается королем скорости и надежности. А вот для анализа временных рядов, обнаружения аномалий в циклических процессах и генерации синтетики — PHC выглядит как выстрел в яблочко.
Мой совет: присмотритесь к синусоидам. Если ваша задача хоть как-то связана с частотами — попробуйте PHC на синтетическом прототипе. Вычислять, а не предсказывать — возможно, это девиз 2026 года в ML.