Остаточные связи в трансформерах – как воздух: все ими дышат, но никто не замечает, пока не начнёт задыхаться. С 2017 года residual connections считались обязательным компонентом любой глубокой нейросети. Но что если этот "воздух" на самом деле разбавляет информацию, мешая модели учиться?
Residual connections: священная корова, которая стала тесной
Каждый слой в трансформере добавляет свой выход к входу – это residual connection. Простое сложение. Оно помогает градиентам течь и позволяет обучать очень глубокие сети. Но есть проблема: информация разбавляется.
Исследователи из Kimi решили, что хватит это терпеть. Вместо сложения – внимание. Их метод, названный Attention Residuals, использует механизм внимания, чтобы решить, какую информацию передавать дальше.
Attention Residuals: как это работает
Вместо простого x_{l+1} = x_l + F(x_l), где F – слой трансформера, Kimi предлагает x_{l+1} = Attention(x_l, F(x_l)). Но не обычное внимание, а специально разработанное для этой задачи.
Конкретнее: для каждого токена, механизм внимания решает, сколько информации взять из оригинального входа x_l, а сколько из преобразованного выхода F(x_l). Это позволяет модели сохранять важные детали и отфильтровывать шум.
Важно: Attention Residuals не добавляют значительных вычислительных затрат. По словам исследователей Kimi, overhead составляет менее 5% по сравнению с традиционными residual connections, при этом качество растет существенно.
Цифры: на что способны Attention Residuals
В исследовании, опубликованном 15 марта 2026 года, Kimi приводит результаты тестов на моделях размером от 1B до 70B параметров.
| Модель | Традиционные Residual | Attention Residuals | Улучшение |
|---|---|---|---|
| Kimi K2.5-7B | 68.3 (MMLU) | 75.8 (MMLU) | +7.5 пунктов |
| Kimi K2.5-70B | 82.1 (MMLU) | 85.4 (MMLU) | +3.3 пункта |
| Экономия FLOPs | До 20% при том же качестве | ||
Улучшение на 3-7.5 пунктов на MMLU – это не просто статистическая погрешность. Это архитектурный прорыв, который меняет правила игры.
DeepSeek mHC: параллельная революция
Пока Kimi работала над Attention Residuals, DeepSeek анонсировала свою прорывную архитектуру – mHC (multi-head continuous). Как мы уже писали, mHC тоже отказывается от традиционных residual connections, но использует другой подход – continuous integration через multiple heads.
Чем отличаются подходы? Attention Residuals фокусируются на selective information flow, в то время как DeepSeek mHC использует параллельные головы для непрерывной интеграции. Оба метода решают одну проблему, но с разных сторон.
Интересно, что Kimi в своем исследовании провела прямое сравнение: на моделях того же размера Attention Residuals показывают немного лучшее качество, но DeepSeek mHC более эффективна в вычислениях для длинных контекстов.
Что это значит для разработчиков?
Если вы тренируете или используете LLM, готовьтесь к изменениям. Архитектура трансформеров только что получила серьезный апгрейд.
- Обучение новых моделей: Attention Residuals могут быть интегрированы в существующие фреймворки, такие как Hugging Face Transformers. Ожидайте появления конфигураций с этой архитектурой в ближайшие месяцы.
- Инференс: Модели с Attention Residuals требуют немного больше памяти для внимания, но зато дают лучшее качество. Для production систем это может означать переход на новые версии.
- Исследования: Догма residual connections сломана. Теперь можно экспериментировать с другими механизмами интеграции информации.
Kimi уже интегрировала Attention Residuals в свою флагманскую модель Kimi K2.5, которая, как мы рассказывали ранее, оптимизирована для vLLM и SGLang.
Неочевидный совет: не спешите переписывать все свои модели
Attention Residuals – это прорыв, но он не означает, что все старые модели устарели мгновенно. Вот что стоит сделать прямо сейчас:
- Протестировать новые модели с Attention Residuals на ваших задачах. Kimi выложила веса для K2.5 с этой архитектурой.
- Если вы тренируете свои модели, попробуйте заменить residual connections на attention residuals в экспериментальном режиме. Но учтите: нужно настроить гиперпараметры внимания.
- Следить за развитием DeepSeek mHC и других альтернатив. Архитектурные войны только начинаются.
Мой прогноз: к концу 2026 года residual connections в их традиционном виде исчезнут из большинства новых LLM. Их заменят либо attention residuals, либо подобные механизмы. А те, кто продолжит использовать старое доброе сложение, будут платить за это качеством.
И да, если вы все еще используете GPT-3 архитектуру – даже не думайте. Мир уже перешел на GPT-4 и далее, а теперь и на внимание вместо сложения.
Что дальше? Возможно, скоро мы увидим, как attention residuals применяются не только в LLM, но и в vision transformers, и в мультимодальных моделях. Как обучают агентов-оркестраторов в Kimi, так и архитектурные инновации будут проникать во все области AI.
Остаточные связи были хороши, но время пришло. Внимание – это все.