Скандал в академии: 10 лет складывали x + F(x), а DeepSeek заявил, что это неправильно
7 июня 2026 года. Лян Вэньфэн, основатель DeepSeek, публикует в личном блоге короткий пост: «Мы переизобрели residual connection. Код в репозитории». Буквально через час серверы GitHub падают от наплыва желающих посмотреть на препринт. В AI-сообществе — настоящий шторм.
Спойлер: они не просто заменили сложение на что-то другое. Они взяли матричную трансформацию, известную с 1967 года, и встроили её в самый фундамент трансформеров. Если идея взлетит, нас ждет пересмотр архитектуры всех современных LLM — от GPT-5 до Llama 5.
Давайте честно: residual connection — это та самая невидимая деталь, благодаря которой нейросети стали глубокими. ResNet в 2015 году сломал потолок в 100 слоев. Но DeepSeek утверждает, что складывать x + F(x) — все равно что пытаться удержать воду в решете: градиенты проходят, но часть информации гарантированно теряется.
В их новом препринте (arXiv: 2605.xxxxx) предлагается заменить жесткое сложение на динамическое взвешивание с помощью параметризованной ортогональной матрицы. А параметризуется эта матрица через произведение Householder-отражений — той самой конструкции из 1967 года, которую использовали для QR-разложения и решения задач линейной алгебры.
Для тех, кто пропустил. О предыдущей статье про переизобретение residual connection мы писали здесь. Там детально разобрано, почему классический identity mapping неэффективен для сверхглубоких сетей.
Что не так с x + F(x)?
Формула ResNet гениальна своей простотой:
y = x + F(x, W)Но за 10 лет выяснился неприятный факт: при такой записи градиент к нижним слоям идет по двум путям — через F и напрямую через x. Проблема в том, что эти пути смешиваются. Если F начинает доминировать, информация из x просто затирается. Становятся неотличимы важные фичи.
DeepSeek предлагает превратить сложение в обучаемую операцию. Вместо жесткого суммирования — взвешенная комбинация, где веса задаются ортогональной матрицей, которая не деградирует при обратном распространении ошибки.
Звучит как магия? Но за этим стоит строгая математика. Матрица Householder (обозначим ее H) обладает свойством H^T = H^(-1), то есть она сохраняет норму и углы. Если сделать residual connection зависящим от такой матрицы, градиенты не взрываются и не затухают — они просто поворачиваются в пространстве признаков.
Householder в трансформерах: почему это сработало именно сейчас?
Идея parameterized Householder преобразования для нейросетей не нова — ее использовали для ортогональных RNN еще в 2018 году. Но применить её к residual connection в трансформерах догадались только в DeepSeek. Почему?
Все упирается в масштаб. DeepSeek V4 — это модель с 1.6 триллионами параметров (мы писали обзор архитектуры тут). На такой глубине даже небольшие потери градиента на каждом слое превращаются в лавину ошибок. Householder-матрица гарантирует: каждый residual connection — это унитарное (ортогональное) преобразование, которое не меняет норму градиента. Никакого затухания, никакого взрыва.
В препринте DeepSeek показывают: если взять стандартный ResNet-152 и заменить x + F(x) на H(x) + F(x) (где H — learnable Householder), то градиент к нижним слоям остается почти неизменным по величине. А это значит, что можно строить сети из 1000+ слоев, которые будут обучаться так же эффективно, как 10-слойные.
Как это работает внутри трансформера?
В архитектуре DeepSeek V4 каждый блок трансформера содержит классический self-attention и FFN, но residual connection перед ними заменены на два последовательных Householder-преобразования. Выглядит это так:
- Вход x проходит через H_1 (обучаемую матрицу отражения).
- Параллельно вычисляется F(x) (attention или FFN).
- Результат суммируется: y = H_1(x) + F(x).
Но главный сюрприз — H_1 сама зависит от x! То есть матрица отражения динамически адаптируется к текущему представлению, сохраняя при этом ортогональность.
DeepSeek утверждает, что такое решение улучшило стабильность обучения при длине контекста до 1M токенов (мы подробно разбирали это в deep dive по long-context). Ах да, и ещё: количество параметров, добавляемых таким residual connection, — всего 4% от общего числа. То есть апгрейд почти бесплатный по памяти.
Убийца градиентного затухания или просто еще одна модная фича?
Скептики уже зашумели: «Да это просто ортогональная инициализация, притянутая за уши». Но есть нюанс. При ортогональной инициализации веса после обучения перестают быть ортогональными. А здесь сама операция residual является ортогональной всегда — она не зафиксирована один раз, а остается такой на всем протяжении обучения благодаря параметризации через Householder.
Сравните с подходом Microsoft — Differential Transformer V2 (наш обзор тут). Там тоже улучшают градиентный поток, но через дифференциальное внимание. DeepSeek бьет в самое сердце проблемы — в residual connection.
На бенчмарках DeepSeek V4 с новыми residual connection показывает +3.5% на MMLU-Pro и +2.1% на HumanEval по сравнению с той же моделью, но с обычными суммированиями. Цифры скромные, но для такой гигантской модели — это прорыв.
Что дальше? Прогнозы на 2027 год
Лично я ставлю на то, что к концу 2026 года все топовые лаборатории встроят Householder residual в свои архитектуры. Слишком уж элегантное решение: минимум изменений в коде, максимум выгоды.
DeepSeek уже открыла код своей реализации (репозиторий deepseek-ai/deepseek-v4-hr). Ожидайте адаптаций для PyTorch и JAX в ближайшие недели. А если DeepSeek V4 и правда станет базой для нового поколения агентных моделей (вспомните сравнение с GPT-5), то мы стоим на пороге эры, где residual connection — не просто байпас, а интеллектуальный адаптивный слой.
P.S. Если вдруг захотите проверить, как новая архитектура устойчива к adversarial атакам — у нас есть свежий бенчмарк. Спойлер: ортогональность помогает.