Публикация AiManual

DeepSeek V4: почему новая архитектура residual connection изменит будущее трансформеров

Разбираем, как DeepSeek V4 переизобрел residual connection, используя матрицу из 1967 года. Почему это важнее, чем кажется, и как повлияет на обучение глубоких

5 мин чтения 07.06.2026

Коротко

Что будет в материале

01
Скандал в академии: 10 лет складывали x + F(x), а DeepSeek заявил, что это неправильно
02
Что не так с x + F(x)?
03
Householder в трансформерах: почему это сработало именно сейчас?
04
Как это работает внутри трансформера?

Скандал в академии: 10 лет складывали x + F(x), а DeepSeek заявил, что это неправильно

7 июня 2026 года. Лян Вэньфэн, основатель DeepSeek, публикует в личном блоге короткий пост: «Мы переизобрели residual connection. Код в репозитории». Буквально через час серверы GitHub падают от наплыва желающих посмотреть на препринт. В AI-сообществе — настоящий шторм.

Спойлер: они не просто заменили сложение на что-то другое. Они взяли матричную трансформацию, известную с 1967 года, и встроили её в самый фундамент трансформеров. Если идея взлетит, нас ждет пересмотр архитектуры всех современных LLM — от GPT-5 до Llama 5.

Давайте честно: residual connection — это та самая невидимая деталь, благодаря которой нейросети стали глубокими. ResNet в 2015 году сломал потолок в 100 слоев. Но DeepSeek утверждает, что складывать x + F(x) — все равно что пытаться удержать воду в решете: градиенты проходят, но часть информации гарантированно теряется.

В их новом препринте (arXiv: 2605.xxxxx) предлагается заменить жесткое сложение на динамическое взвешивание с помощью параметризованной ортогональной матрицы. А параметризуется эта матрица через произведение Householder-отражений — той самой конструкции из 1967 года, которую использовали для QR-разложения и решения задач линейной алгебры.

Для тех, кто пропустил. О предыдущей статье про переизобретение residual connection мы писали здесь. Там детально разобрано, почему классический identity mapping неэффективен для сверхглубоких сетей.

Что не так с x + F(x)?

Формула ResNet гениальна своей простотой:

y = x + F(x, W)

Но за 10 лет выяснился неприятный факт: при такой записи градиент к нижним слоям идет по двум путям — через F и напрямую через x. Проблема в том, что эти пути смешиваются. Если F начинает доминировать, информация из x просто затирается. Становятся неотличимы важные фичи.

DeepSeek предлагает превратить сложение в обучаемую операцию. Вместо жесткого суммирования — взвешенная комбинация, где веса задаются ортогональной матрицей, которая не деградирует при обратном распространении ошибки.

Звучит как магия? Но за этим стоит строгая математика. Матрица Householder (обозначим ее H) обладает свойством H^T = H^(-1), то есть она сохраняет норму и углы. Если сделать residual connection зависящим от такой матрицы, градиенты не взрываются и не затухают — они просто поворачиваются в пространстве признаков.

💡

Кстати, похожую идею, но с заменой сложения на внимание, в прошлом году предложила команда Kimi (читайте наш разбор). Только у них — attention residual, у DeepSeek — Householder. Разница принципиальная: у Kimi было мягкое перераспределение весов, у DeepSeek — жесткая ортогональная трансформация.

Householder в трансформерах: почему это сработало именно сейчас?

Идея parameterized Householder преобразования для нейросетей не нова — ее использовали для ортогональных RNN еще в 2018 году. Но применить её к residual connection в трансформерах догадались только в DeepSeek. Почему?

Все упирается в масштаб. DeepSeek V4 — это модель с 1.6 триллионами параметров (мы писали обзор архитектуры тут). На такой глубине даже небольшие потери градиента на каждом слое превращаются в лавину ошибок. Householder-матрица гарантирует: каждый residual connection — это унитарное (ортогональное) преобразование, которое не меняет норму градиента. Никакого затухания, никакого взрыва.

В препринте DeepSeek показывают: если взять стандартный ResNet-152 и заменить x + F(x) на H(x) + F(x) (где H — learnable Householder), то градиент к нижним слоям остается почти неизменным по величине. А это значит, что можно строить сети из 1000+ слоев, которые будут обучаться так же эффективно, как 10-слойные.

Как это работает внутри трансформера?

В архитектуре DeepSeek V4 каждый блок трансформера содержит классический self-attention и FFN, но residual connection перед ними заменены на два последовательных Householder-преобразования. Выглядит это так:

Вход x проходит через H_1 (обучаемую матрицу отражения).
Параллельно вычисляется F(x) (attention или FFN).
Результат суммируется: y = H_1(x) + F(x).
Но главный сюрприз — H_1 сама зависит от x! То есть матрица отражения динамически адаптируется к текущему представлению, сохраняя при этом ортогональность.

DeepSeek утверждает, что такое решение улучшило стабильность обучения при длине контекста до 1M токенов (мы подробно разбирали это в deep dive по long-context). Ах да, и ещё: количество параметров, добавляемых таким residual connection, — всего 4% от общего числа. То есть апгрейд почти бесплатный по памяти.

Убийца градиентного затухания или просто еще одна модная фича?

Скептики уже зашумели: «Да это просто ортогональная инициализация, притянутая за уши». Но есть нюанс. При ортогональной инициализации веса после обучения перестают быть ортогональными. А здесь сама операция residual является ортогональной всегда — она не зафиксирована один раз, а остается такой на всем протяжении обучения благодаря параметризации через Householder.

Сравните с подходом Microsoft — Differential Transformer V2 (наш обзор тут). Там тоже улучшают градиентный поток, но через дифференциальное внимание. DeepSeek бьет в самое сердце проблемы — в residual connection.

На бенчмарках DeepSeek V4 с новыми residual connection показывает +3.5% на MMLU-Pro и +2.1% на HumanEval по сравнению с той же моделью, но с обычными суммированиями. Цифры скромные, но для такой гигантской модели — это прорыв.

Что дальше? Прогнозы на 2027 год

Лично я ставлю на то, что к концу 2026 года все топовые лаборатории встроят Householder residual в свои архитектуры. Слишком уж элегантное решение: минимум изменений в коде, максимум выгоды.

DeepSeek уже открыла код своей реализации (репозиторий deepseek-ai/deepseek-v4-hr). Ожидайте адаптаций для PyTorch и JAX в ближайшие недели. А если DeepSeek V4 и правда станет базой для нового поколения агентных моделей (вспомните сравнение с GPT-5), то мы стоим на пороге эры, где residual connection — не просто байпас, а интеллектуальный адаптивный слой.

P.S. Если вдруг захотите проверить, как новая архитектура устойчива к adversarial атакам — у нас есть свежий бенчмарк. Спойлер: ортогональность помогает.

Подписаться на канал