21 алгоритм ML против синтетики: полигармонический каскад разгромил XGBoost | AiManual
AiManual Logo Ai / Manual.
08 Июн 2026 Новости

Сравнение 21 алгоритма ML на синтетических данных: неожиданный победитель — Полигармонический каскад

Бенчмарк 21 ML-алгоритма на синтетических данных с периодическими структурами. Полигармонический каскад обошел XGBoost, LightGBM и нейросети. Почему математика

Реклама
hor_partv1

Градиентный бустинг свергнут с трона. На синтетическом полигоне, где у классических моделей было преимущество, победил алгоритм, о котором полгода назад никто не слышал. Знакомьтесь: полигармонический каскад.

Исследовательская группа из MIPT и Skoltech (Москва, 2026) устроила турнир 21 алгоритма машинного обучения на специально сгенерированном датасете. Цель — проверить, как методы справляются с многомерными нелинейными зависимостями, где присутствуют скрытые периодические паттерны и резкие разрывы. Датасет: 1000 признаков, 500 000 строк, синтезирован через суперпозицию 50 гармоник с шумом и каскадными взаимодействиями.

💡
Синтетические данные — идеальный полигон для стресс-теста: они позволяют контролировать сложность зависимостей и избегать утечек, свойственных реальным датасетам. Как избежать иллюзии смысла в подобных экспериментах — разбирали вот здесь.

Взбесившийся частотомер

Полигармонический каскад (PHC) — это не очередная вариация градиентного бустинга или трансформера. Алгоритм раскладывает целевую функцию в ряд Фурье с адаптивным выбором частот, а затем обучает каскад слабых регрессоров, каждый из которых корректирует остатки на определенной гармонике. Звучит как магия? На практике PHC v1.0 (релиз апрель 2026) на тестовой выборке показал R² = 0.994, в то время как XGBoost 2.2 — 0.937, а CatBoost 1.5 — 0.928.

АлгоритмR² (тест)Время обучения (мин)
Полигармонический каскад0.99447
XGBoost 2.20.93712
LightGBM 4.60.9318
TabNet 3.00.90234
FT-Transformer0.89589

Таблица дает понять: на синтетике с доминирующими периодическими составляющими PHC просто shredдит конкурентов. Но цена — время обучения. 47 минут против 8 у LightGBM. Однако в задачах, где точность критична (анализ сигналов, финансовая инженерия, генерация синтетических данных для RL), это окупается.

Почему это важно — и почему не панацея

В последние годы табличные данные считались вотчиной градиентного бустинга. Статья о смене роли математики в ML предсказывала возврат к аналитическим методам. И вот — Фурье-анализ, который десятилетиями использовался в обработке сигналов, неожиданно выигрывает у глубокого обучения на структурированных данных.

Но есть нюанс. На классических UCI-датасетах (iris, wine, adult) PHC показывает результаты на уровне случайного леса. Почему? Потому что в реальных данных периодичность часто забита шумом и нерегулярностью. Однако в специально сконструированных средах — например, для обучения агентов в симуляторах с циклическими паттернами — PHC творит чудеса. Новый RL-алгоритм без TD-обучения отлично комбинируется с PHC в качестве предсказателя среды.

Кстати, турнир выявил и другую тенденцию: нейросетевые подходы (TabNet, FT-Transformer, SAINT) заняли места с 5-го по 12-е. Они оказались слишком прожорливыми и не вытянули сложную частотную структуру. История с Chess GPT показывает, что маленькие специализированные модели могут побеждать гигантов — здесь похожий принцип.

Когда готовите эксперимент на синтетике — проверьте, не подгоняете ли вы данные под алгоритм. Примеры таких ошибок разобраны в критическом разборе предобработки — там же указано, как правильно валидировать обобщающую способность.

Что дальше: бум спектральных методов?

Полигармонический каскад — не единственный в новом семействе. Уже анонсированы PHC-v2 (с нерегулярной сеткой частот) и гибрид с вейвлетами. Исследователи из MIPT обещают открыть код в ближайшие недели. Если тренд подтвердится на реальных кейсах (медицина, промышленность), нас ждет смена парадигмы: вместо «накорми нейросеть сырыми фичами» — «сперва разложи сигнал, потом обучи простую модель».

Но не спешите хоронить XGBoost. В 90% production-задач табличные данные не имеют жесткой периодики, и градиентный бустинг остается королем скорости и надежности. А вот для анализа временных рядов, обнаружения аномалий в циклических процессах и генерации синтетики — PHC выглядит как выстрел в яблочко.

Мой совет: присмотритесь к синусоидам. Если ваша задача хоть как-то связана с частотами — попробуйте PHC на синтетическом прототипе. Вычислять, а не предсказывать — возможно, это девиз 2026 года в ML.

Подписаться на канал