Ещё одна попытка починить сломанное колесо
Механизм внимания в трансформерах — это одновременно его главная сила и проклятие. Он позволяет моделям понимать контекст, но требует квадратичных вычислений относительно длины последовательности. К 2026 году мы уже видели десятки попыток это исправить: от Infini-Attention до Routed GQA. Теперь Google Research бросает в бой Sequential Attention.
Идея проста до безобразия: вместо того чтобы вычислять внимание для всех токенов одновременно, делать это последовательно. Звучит как возврат к RNN? Именно. Но с одной хитрой деталью.
Sequential Attention показал ускорение inference в 2.3 раза для моделей размером до 70B параметров при сохранении 99.7% точности на стандартных бенчмарках. Результаты опубликованы 3 февраля 2026 года.
Как это работает (если коротко)
Представьте, что вы читаете книгу. Вы не пытаетесь одновременно удерживать в голове все предложения — вы читаете последовательно, но постоянно обновляете своё понимание контекста. Sequential Attention делает то же самое с вычислениями.
Вместо матрицы внимания размером N×N (где N — длина последовательности), метод строит её постепенно. Каждый новый токен получает доступ к сжатому представлению предыдущего контекста, а не ко всем предыдущим токенам напрямую.
Почему это не очевидная ерунда
Первая реакция любого инженера: «Так мы же теряем параллелизацию!». Да, теряем. Но выигрываем в памяти и общих вычислениях. Особенно для длинных контекстов.
Вот что получается на практике:
| Длина контекста | Обычное внимание | Sequential Attention | Ускорение |
|---|---|---|---|
| 2048 токенов | 1.0x (база) | 1.8x | 80% |
| 8192 токенов | 1.0x | 2.3x | 130% |
| 32768 токенов | 1.0x | 3.1x | 210% |
Чем длиннее контекст — тем больше выигрыш. Потому что квадратичная сложность обычного внимания начинает душить даже самые мощные GPU.
А что с качеством?
Вот здесь начинается самое интересное. Sequential Attention не просто сохраняет качество — в некоторых задачах он его улучшает. Звучит как маркетинг, но есть объяснение.
Когда модель обрабатывает информацию последовательно, она вынуждена создавать более плотные, сжатые представления контекста. Это похоже на эффект от Grafted Titans, но достигается архитектурно, а не через дообучение.
Важный нюанс: Sequential Attention особенно хорошо работает с моделями, которые уже прошли RLHF или DPO. Потому что эти методы выравнивания часто создают артефакты внимания — паттерны, которые мешают нормальной работе. Последовательная обработка их сглаживает.
Где собака зарыта (спойлер: в обучении)
Основная проблема Sequential Attention — не inference, а обучение. Тренировать модель с таким механизмом внимания сложнее. Нужно специально подбирать гиперпараметры, использовать техники вроде Entropy-Adaptive Finetuning, чтобы модель не забывала важную информацию.
Google решает это через двухэтапный процесс:
- Обучают обычную модель с полным вниманием
- Заменяют механизм внимания на Sequential и дообучают с замороженными весами
Это работает, но требует дополнительных вычислительных ресурсов. Хотя они окупаются за счёт ускоренного inference.
Что это значит для нас?
Во-первых, ждите появления Sequential Attention в следующих версиях Gemini. Скорее всего, в Gemini 3 Ultra или следующей итерации. Google уже тестирует метод на внутренних моделях.
Во-вторых, это ещё один шаг к специализированным моделям. Sequential Attention особенно эффективен для задач с длинными контекстами: анализ документов, программирование, научные исследования. Для чатов или классификации он даёт меньший выигрыш.
В-третьих, готовьтесь к новой волне оптимизаций. Как только один крупный игрок внедряет такую технологию, остальные вынуждены догонять. Уже сейчас есть слухи, что Anthropic и Meta работают над своими версиями.
Стоит ли бежать переписывать свои модели?
Нет. Пока что Sequential Attention — исследовательская технология. Код открыт, но интегрировать его в существующие пайплайны сложно. Особенно если вы используете стандартные фреймворки вроде Hugging Face.
Но следить за развитием — определённо стоит. Потому что если метод действительно масштабируется до моделей размером с GPT-5 или Gemini 4, это изменит экономику inference. Дешевле в 2-3 раза — это не просто оптимизация, это возможность запускать более крупные модели на том же железе.
И последнее: Sequential Attention — не серебряная пуля. Это компромисс. Как и Tuneable Attention, он решает одну проблему, создавая другие. Но в мире, где каждый миллисекунд inference стоит денег, такие компромиссы начинают выглядеть очень привлекательно.
Особенно когда за ними стоит Google с его ресурсами и упрямством.