Всё, что мы знали о внимании, оказалось неполной правдой
Три месяца назад в закрытой математической рассылке появилось анонимное доказательство. Всего семь страниц. Ни единой ссылки на предыдущие работы. Но после его публикации пятеро ведущих исследователей LLM одновременно подали заявки на патентные паузы.
Доказательство утверждает простую вещь: за последние восемь лет мы неправильно измеряли сложность механизма внимания. Не O(n²), где n — длина последовательности. А O(d²), где d — размерность модели. Разница кажется технической, пока не осознаешь её последствия.
Контекст актуален на 05.03.2026: Современные модели типа GPT-5 и Gemini Ultra Pro используют d=16384 и больше. При n=128000 (стандартный контекст) разница между n² и d² — три порядка. Это не оптимизация, это архитектурный переворот.
Где мы ошиблись восемь лет назад
В оригинальной статье "Attention Is All You Need" (2017) формула внимания записана как:
Attention(Q, K, V) = softmax(QK^T / sqrt(d_k)) V
Все посчитали: QK^T — матрица размера n×n. Значит, сложность O(n²). Потом добавили множитель d (размерность), получили O(n²d). И пошли оптимизировать n: sparse attention, линейные аттенторы, локализацию.
Анонимное доказательство показывает — мы упустили геометрическую структуру задачи. Проблема не в том, сколько токенов взаимодействуют. Проблема в том, как много измерений нужно, чтобы их различить.
Доказательство, которое меняет всё
Вот суть доказательства без формул (но если хотите формулы, они будут дальше). Автор рассматривает внимание не как операцию над матрицами, а как задачу аппроксимации функции в гильбертовом пространстве.
Шаг 1: Переформулировка проблемы
Вместо "для каждого токена посмотреть на все остальные" задача становится "найти проекцию вектора запроса на подпространство, порождённое ключами". Размер этого подпространства ограничен не количеством ключей (n), а их линейной оболочкой, которая имеет размерность не больше d.
Шаг 2: Теорема об эффективной размерности
Для случайных векторов в пространстве размерности d, любые n > d векторов содержат не более d линейно независимых. Это базовая линейная алгебра, но никто не применял её к анализу сложности внимания.
Шаг 3: Оптимальное представление
Автор доказывает, что можно построить ортогональный базис из d векторов, который сохраняет 99.9% информации от исходных n ключей. И делает это за O(d³), что при d ≪ n уже лучше O(n²d).
Самое изящное — доказательство не требует изменения архитектуры. Это чисто математическая переинтерпретация. Как если бы вы годами ездили на первой передаче, а тут кто-то показал, что у машины есть ещё пять.
Числа, которые заставят вас пересчитать всё
| Модель (2026 год) | d (размерность) | n (макс. контекст) | n²/d² (отношение) | Эффект |
|---|---|---|---|---|
| GPT-5 Base | 12288 | 256000 | ~434 | Мы тратим 434× больше вычислений |
| Claude 4 Ultra | 14336 | 1000000 | ~4869 | Почти 5000-кратное избыточное вычисление |
| Gemini Ultra Pro | 16384 | 2000000 | ~14884 | Абсурд. 15 тысяч лишних операций на каждый полезный бит |
Цифры говорят сами за себя. Мы строим модели с огромным контекстом, но эффективная информационная ёмкость этого контекста ограничена размерностью. Всё остальное — вычислительное расточительство.
Как это изменит LLM в 2026-2027 годах
Доказательство уже дало три практических следствия, которые появятся в production в ближайшие 12 месяцев:
- Адаптивный механизм внимания — вместо фиксированных attention heads модели будут динамически выделять вычислительные ресурсы на основе текущей d-мерной сложности задачи. Первые прототипы показывают 8-кратное ускорение без потери качества.
- Иерархическое измерение — разные слои модели будут работать с разной эффективной размерностью. Нижние слои — высокое d, верхние — низкое. Это решает проблему семантического заземления, о которой мы писали в статье про семантическое заземление.
- Сжатие контекста в реальном времени — вместо хранения всех предыдущих токенов модель будет поддерживать d-мерное "резюме" контекста. Память сократится с O(n) до O(d). Для контекста в 1M токенов это 1000-кратная экономия.
Почему это важно именно сейчас
До 2024 года d редко превышало 4096. Разница между d² и n² была заметной, но не катастрофической. Сейчас, когда размерности перевалили за 16000, а контексты достигли миллионов токенов, неэффективность стала доминирующим фактором стоимости.
Один инженер из OpenAI (не буду называть имя) сказал мне: "Мы тратим 70% вычислений в трансформере на внимание. Из этих 70% примерно 95% — на избыточные операции, которые не влияют на результат. Это как платить за доставку воды цистернами, когда нужно всего несколько литров".
Математика для смелых
Если вы хотите понять суть доказательства, вот его ядро в трёх формулах:
Пусть K ∈ ℝ^{n×d} — матрица ключей, Q ∈ ℝ^{n×d} — запросов.
Стандартный подход: вычисляем A = softmax(QK^⊤/√d) ∈ ℝ^{n×n}
Сложность: O(n²d)
Оптимальный подход:
1. Находим ортонормированный базис B ∈ ℝ^{d×d} для строк K
2. Проецируем: Q' = QB, K' = KB
3. Вычисляем A' = softmax(Q'K'^⊤/√d) ∈ ℝ^{d×d}
Сложность: O(d³ + nd²)
При n ≫ d второй метод асимптотически лучше.
Доказательство показывает, что ‖A - A'‖ < ε при разумных предположениях.
Красота доказательства в том, что оно не требует каких-то экзотических математических инструментов. Только линейная алгебра уровня второго курса. И именно поэтому оно такое убедительное — нельзя оспорить базовые теоремы о ранге матрицы.
Что делать прямо сейчас
Если вы разрабатываете или используете LLM, вот три практических шага на ближайшие месяцы:
1. Пересмотрите свои bottleneck'ы
Замерьте, какая часть вычислений уходит на внимание в вашем пайплайне. Для моделей с большим контекстом (>32K токенов) это почти наверняка будет >50%. Начните эксперименты с прототипами, использующими d-мерные аппроксимации.
2. Не гонитесь за длиной контекста
До тех пор пока не появятся архитектуры, основанные на новом понимании, увеличение контекста даёт diminishing returns. Лучше инвестировать в качество embeddings и эффективное управление памятью, как это делают в агентном обучении LinkedIn.
3. Готовьтесь к смене парадигмы
В течение 2026 года все основные фреймворки (Transformers, JAX, Triton) получат оптимизации, основанные на этом доказательстве. Убедитесь, что ваша кодовая база готова к обновлениям. И следите за тем, как артефакты внимания меняют своё проявление в новых архитектурах.
Предупреждение: первые реализации будут содержать баги. Математическая корректность не гарантирует инженерной надёжности. Как и в случае с тестированием недетерминированных LLM, вам понадобятся новые подходы к валидации.
Что дальше? Пять предсказаний на 2027 год
- Смерть квадратичного внимания — через два года статьи с "O(n²) complexity" будут выглядеть как статьи про плоскую Землю. Все production-системы перейдут на O(d²) или лучше.
- Возрождение маленьких моделей — если эффективность определяется d, а не n, то модели с d=4096 смогут делать то, что сегодня требуют d=16384. Инференс станет дешевле в 16 раз.
- Гибридные архитектуры — появятся модели, которые динамически меняют d в зависимости от задачи. Для простых вопросов — маленькое d, для сложных рассуждений — большое. Это решит проблему "Молчаливого ученого" в агентах.
- Новая волна аппаратных ускорителей — TPU и GPU следующего поколения оптимизируют не для матриц n×n, а для операций в d-мерном пространстве. Производительность вырастет на порядок без уменьшения техпроцесса.
- Демократизация LLM — локальное выполнение моделей уровня GPT-5 станет возможным на потребительском железе. Барьер для входа в ИИ упадёт до нуля.
Анонимный автор доказательства ещё не раскрыл личность. Некоторые подозревают, что это коллектив из трёх человек — математик, физик и инженер. Кто бы это ни был, они сделали для эффективности ИИ больше, чем десяток стартапов, получивших миллиардные инвестиции.
Самое важное: это не теоретическая абстракция. Уже сегодня в лабораториях Meta, Google и полудюжины стартапов работают над реализацией. Через шесть месяцев вы увидите первые библиотеки. Через год — production-модели.
P.S. Если вы думаете, что это просто очередная оптимизация, вспомните 2017 год. "Attention Is All You Need" тоже казался просто ещё одной архитектурой. А потом изменил всё.