Как так вышло, что мы 10 лет складывали x + F(x), а DeepSeek заявил, что это неправильно?
Residual connection — это, наверное, самая недооценённая идея в глубоком обучении. Все знают ResNet, все понимают, что identity mapping спасает градиенты. Но на практике для сетей глубже 100 слоев даже ResNet начинает страдать: градиенты проходят, но неэффективно — часть информации теряется, сеть не может обучиться по-настоящему глубоким представлениям.
И тут приходит DeepSeek с препринтом, где они буквально заявляют: «Мы переизобрели residual connection». И показывают, как это работает в DeepSeek V4. Я, признаться, скептически хмыкнул: ну что нового можно придумать? Сложение x + F(x) — это база. А оказалось, можно не складывать, а динамически взвешивать.
Давайте разбираться, что они придумали, почему это работает и как это повлияет на обучение сверхглубоких сетей. Спойлер: это не магия, а элегантная математика, замеченная ещё в 1967 году.