Что такое subquadratic attention?

Subquadratic attention (SQA) — это новая архитектура внимания от NVIDIA, которая снижает вычислительную сложность с O(n²) до O(n log n) за счёт иерархического сжатия KV-пар и динамического перебалансирования.

На каком оборудовании работает subquadratic attention?

SQA оптимально работает на RTX 5090 с тензорными ядрами 5-го поколения. На предыдущих поколениях (RTX 4090) производительность значительно ниже.

Когда выйдет open-source реализация subquadratic attention?

NVIDIA планирует интегрировать SQA в Nemotron Nano с открытым исходным кодом к концу марта 2026 года.

Subquadratic Attention NVIDIA: 1M контекст на одном GPU в 2026 году

Контекстная бомба: когда 128k — это смешно

Ещё вчера 128 тысяч токенов казались роскошью. Сегодня это детский лепет. Пока все игрались с Mistral Vibe на 256k и гордились кластерами из трёх карт, NVIDIA тихо готовила переворот.

Статья на arXiv от 15 января 2026 года: "Subquadratic Attention for Million-Token Context Windows". Не обещание, не теория — рабочий код. На одной RTX 5090 с 48 ГБ VRAM запускают 30-миллиардную модель с контекстом в 1 048 576 токенов. Скорость inference: 12 токенов в секунду. Это не опечатка.

Архитектура subquadratic attention — это не просто очередной трюк с кэшем. Это фундаментальный пересмотр того, как внимание работает в трансформерах. Вместо O(n²) сложности — O(n log n). Вместо гигантских KV-кэшей — сжатые представления.

Как они это сделали? (Спойлер: не магией)

Забудьте про Flash Attention. Забудьте про Ring Attention. Это следующий уровень. Subquadratic attention (SQA) основан на трёх столпах:

Иерархическое сжатие KV-пар: вместо хранения каждого ключа и значения отдельно, SQA группирует их в деревья с адаптивным разрешением. Далёкие токены? Низкое разрешение. Близкие? Высокое.
Динамическое перебалансирование: алгоритм постоянно перестраивает дерево в зависимости от паттернов внимания в текущем контексте.
Аппаратная акселерация на тензорных ядрах 5-го поколения: специальные ядра в RTX 5090 заточены именно под операции сжатия/восстановления KV-пар.

Результат? Для контекста в 1M токенов традиционный attention требует ~500 ГБ памяти только на KV-кэш. SQA ужимает это до 8-12 ГБ. Вот откуда берутся цифры.

Метод	Контекст	Память KV-кэша	Скорость (токен/с)
Традиционный Attention	128k	64 ГБ	~45
Flash Attention 3	256k	32 ГБ	~28
Subquadratic Attention	1M	8-12 ГБ	12-15

А что с качеством? (Не всё так гладко)

Вот здесь начинаются нюансы. SQA — lossy compression. Вы теряете информацию. NVIDIA честно показывает метрики: на задачах, требующих точного цитирования из середины длинного документа, точность падает на 3-7% по сравнению с идеальным attention.

Но! Для большинства практических задач — анализ тональности в длинных тредах, суммаризация документов, поиск паттернов — разница почти незаметна. Алгоритм умно распределяет ошибки: важные (близкие) токены сохраняются точно, дальние — приблизительно.

💡

Subquadratic attention особенно хорош для RAG-систем. Вместо того чтобы разбивать документ на чанки и терять контекст между ними, вы загружаете весь 500-страничный PDF целиком. Модель видит все связи сразу.

Кому это нужно прямо сейчас?

Если вы всё ещё боретесь с запуском 128k на двух RTX 3090 через vLLM, SQA покажется вам научной фантастикой. Но есть категории пользователей, для которых эта технология меняет всё:

Юридические и финансовые аналитики: договоры на 300+ страниц, годовые отчёты, судебные дела. Один контекст вместо десятков чанков.
Исследователи в bioinformatics: полные геномы, научные статьи с тысячами ссылок. Контекст в 1M токенов — это примерно 700 страниц текста.
Разработчики агентных систем: представьте агента, который помнит всю историю взаимодействия с пользователем за год. Каждый диалог, каждый файл, каждый контекст.

Для сравнения: Unsloth GRPO с контекстом 380k требовал специальной оптимизации и всё равно работал на пределе. SQA делает это тривиальным.

А как быть без RTX 5090? (Грустные новости)

Здесь плохие новости. Subquadratic attention завязан на аппаратные особенности тензорных ядер 5-го поколения. На RTX 4090 или даже RTX 4090 Ti с ядрами 4-го поколения производительность падает в 4-5 раз.

NVIDIA обещает backport для предыдущих архитектур, но с серьёзными ограничениями. На RTX 4090 максимальный контекст — около 400k токенов при той же 30B модели. И скорость будет 3-4 токена в секунду.

Важный момент: SQA не решает проблему загрузки самой модели в память. 30B модель в FP8 — это всё ещё ~30 ГБ. Плюс 8-12 ГБ на KV-кэш. Итого ~40 ГБ минимум. RTX 5090 с 48 ГБ — идеально. На картах с меньшей памятью придётся использовать квантование или стратегии масштабирования.

Когда ждать в open source? (Недвусмысленные намёки)

NVIDIA анонсировала интеграцию SQA в Nemotron Nano — их open-source семейство моделей, оптимизированных для локального запуска. По слухам из инсайдерских чатов, релиз запланирован на конец марта 2026 года.

Что это значит на практике? Вы сможете скачать Nemotron Nano 30B с поддержкой SQA, загрузить на RTX 5090 и сразу работать с контекстом в 1M токенов. Без танцев с бубном, без кастомных ядер, без недельной настройки.

Для сообщества это важнее, чем сама технология. Вместо того чтобы собирать mixed-vendor кластеры из RTX 3090 и RX 7900 XT для запуска больших моделей, вы получаете решение из коробки на одной карте.

Что дальше? (Спекуляции от инсайдеров)

Если SQA работает на 30B модели с 1M контекстом, что мешает запустить 70B модель с 500k контекстом? Или 10B модель с 2M контекстом? Математика позволяет.

Следующий логичный шаг — multi-GPU SQA. Иерархическое сжатие идеально ложится на распределённые системы. Вместо синхронизации гигантских KV-кэшей между картами, вы синхронизируете сжатые представления.

Представьте: 100B модель с контекстом в 5M токенов на кластере из четырёх RTX 5090. Это уже не science fiction — это roadmap NVIDIA на 2027 год.

А пока совет простой: если планируете апгрейд в 2026 году и работаете с длинными контекстами, смотрите в сторону RTX 5090. 48 ГБ памяти, тензорные ядра 5-го поколения и готовность к subquadratic attention. Всё остальное устаревает на глазах.

P.S. Интересный побочный эффект: с появлением SXA бенчмарки LLM придётся переписывать. Раньше считали качество на коротких контекстах. Теперь будут считать, насколько хорошо модель использует миллион токенов. Игры только начинаются.

Subquadratic Attention: как NVIDIA взломала 1M контекст на одном RTX 5090