Что такое Attention Residuals?

Attention Residuals – это архитектурный подход от Kimi, который заменяет традиционные residual connections (остаточные связи) в трансформерах на механизм внимания. Вместо простого сложения входа и выхода слоя, модель использует внимание, чтобы выбирать, какую информацию сохранить.

Какие преимущества дают Attention Residuals?

Согласно исследованию Kimi от марта 2026 года, Attention Residuals улучшают результаты моделей на 3-7.5 пунктов на бенчмарке MMLU и позволяют экономить до 20% вычислений (FLOPs) при том же качестве, решая проблему разбавления информации.

Attention Residuals заменяют residual connections в LLM: прорыв от Kimi | 20.03.2026

Остаточные связи в трансформерах – как воздух: все ими дышат, но никто не замечает, пока не начнёт задыхаться. С 2017 года residual connections считались обязательным компонентом любой глубокой нейросети. Но что если этот "воздух" на самом деле разбавляет информацию, мешая модели учиться?

Residual connections: священная корова, которая стала тесной

Каждый слой в трансформере добавляет свой выход к входу – это residual connection. Простое сложение. Оно помогает градиентам течь и позволяет обучать очень глубокие сети. Но есть проблема: информация разбавляется.

💡

Разбавление информации: когда вы складываете выход слоя с его входом, вы смешиваете старую и новую информацию. После десятков слоев это приводит к "информационному шуму" – модель теряет четкие сигналы.

Исследователи из Kimi решили, что хватит это терпеть. Вместо сложения – внимание. Их метод, названный Attention Residuals, использует механизм внимания, чтобы решить, какую информацию передавать дальше.

Attention Residuals: как это работает

Вместо простого x_{l+1} = x_l + F(x_l), где F – слой трансформера, Kimi предлагает x_{l+1} = Attention(x_l, F(x_l)). Но не обычное внимание, а специально разработанное для этой задачи.

Конкретнее: для каждого токена, механизм внимания решает, сколько информации взять из оригинального входа x_l, а сколько из преобразованного выхода F(x_l). Это позволяет модели сохранять важные детали и отфильтровывать шум.

Важно: Attention Residuals не добавляют значительных вычислительных затрат. По словам исследователей Kimi, overhead составляет менее 5% по сравнению с традиционными residual connections, при этом качество растет существенно.

Цифры: на что способны Attention Residuals

В исследовании, опубликованном 15 марта 2026 года, Kimi приводит результаты тестов на моделях размером от 1B до 70B параметров.

Модель	Традиционные Residual	Attention Residuals	Улучшение
Kimi K2.5-7B	68.3 (MMLU)	75.8 (MMLU)	+7.5 пунктов
Kimi K2.5-70B	82.1 (MMLU)	85.4 (MMLU)	+3.3 пункта
Экономия FLOPs	До 20% при том же качестве

Улучшение на 3-7.5 пунктов на MMLU – это не просто статистическая погрешность. Это архитектурный прорыв, который меняет правила игры.

DeepSeek mHC: параллельная революция

Пока Kimi работала над Attention Residuals, DeepSeek анонсировала свою прорывную архитектуру – mHC (multi-head continuous). Как мы уже писали, mHC тоже отказывается от традиционных residual connections, но использует другой подход – continuous integration через multiple heads.

Чем отличаются подходы? Attention Residuals фокусируются на selective information flow, в то время как DeepSeek mHC использует параллельные головы для непрерывной интеграции. Оба метода решают одну проблему, но с разных сторон.

Интересно, что Kimi в своем исследовании провела прямое сравнение: на моделях того же размера Attention Residuals показывают немного лучшее качество, но DeepSeek mHC более эффективна в вычислениях для длинных контекстов.

Что это значит для разработчиков?

Если вы тренируете или используете LLM, готовьтесь к изменениям. Архитектура трансформеров только что получила серьезный апгрейд.

Обучение новых моделей: Attention Residuals могут быть интегрированы в существующие фреймворки, такие как Hugging Face Transformers. Ожидайте появления конфигураций с этой архитектурой в ближайшие месяцы.
Инференс: Модели с Attention Residuals требуют немного больше памяти для внимания, но зато дают лучшее качество. Для production систем это может означать переход на новые версии.
Исследования: Догма residual connections сломана. Теперь можно экспериментировать с другими механизмами интеграции информации.

Kimi уже интегрировала Attention Residuals в свою флагманскую модель Kimi K2.5, которая, как мы рассказывали ранее, оптимизирована для vLLM и SGLang.

Неочевидный совет: не спешите переписывать все свои модели

Attention Residuals – это прорыв, но он не означает, что все старые модели устарели мгновенно. Вот что стоит сделать прямо сейчас:

Протестировать новые модели с Attention Residuals на ваших задачах. Kimi выложила веса для K2.5 с этой архитектурой.
Если вы тренируете свои модели, попробуйте заменить residual connections на attention residuals в экспериментальном режиме. Но учтите: нужно настроить гиперпараметры внимания.
Следить за развитием DeepSeek mHC и других альтернатив. Архитектурные войны только начинаются.

Мой прогноз: к концу 2026 года residual connections в их традиционном виде исчезнут из большинства новых LLM. Их заменят либо attention residuals, либо подобные механизмы. А те, кто продолжит использовать старое доброе сложение, будут платить за это качеством.

И да, если вы все еще используете GPT-3 архитектуру – даже не думайте. Мир уже перешел на GPT-4 и далее, а теперь и на внимание вместо сложения.

Что дальше? Возможно, скоро мы увидим, как attention residuals применяются не только в LLM, но и в vision transformers, и в мультимодальных моделях. Как обучают агентов-оркестраторов в Kimi, так и архитектурные инновации будут проникать во все области AI.

Остаточные связи были хороши, но время пришло. Внимание – это все.

Подписаться на канал

Attention Residuals от Kimi: как замена сложения вниманием ломает архитектуру трансформеров