Subquadratic Attention NVIDIA: 1M контекст на одном GPU в 2026 году | AiManual
AiManual Logo Ai / Manual.
27 Янв 2026 Инструмент

Subquadratic Attention: как NVIDIA взломала 1M контекст на одном RTX 5090

Разбор технологии subquadratic attention от NVIDIA: как получить контекст 1M токенов на 30B модели с одной видеокартой. Архитектура, бенчмарки, сравнение с альт

Контекстная бомба: когда 128k — это смешно

Ещё вчера 128 тысяч токенов казались роскошью. Сегодня это детский лепет. Пока все игрались с Mistral Vibe на 256k и гордились кластерами из трёх карт, NVIDIA тихо готовила переворот.

Статья на arXiv от 15 января 2026 года: "Subquadratic Attention for Million-Token Context Windows". Не обещание, не теория — рабочий код. На одной RTX 5090 с 48 ГБ VRAM запускают 30-миллиардную модель с контекстом в 1 048 576 токенов. Скорость inference: 12 токенов в секунду. Это не опечатка.

Архитектура subquadratic attention — это не просто очередной трюк с кэшем. Это фундаментальный пересмотр того, как внимание работает в трансформерах. Вместо O(n²) сложности — O(n log n). Вместо гигантских KV-кэшей — сжатые представления.

Как они это сделали? (Спойлер: не магией)

Забудьте про Flash Attention. Забудьте про Ring Attention. Это следующий уровень. Subquadratic attention (SQA) основан на трёх столпах:

  • Иерархическое сжатие KV-пар: вместо хранения каждого ключа и значения отдельно, SQA группирует их в деревья с адаптивным разрешением. Далёкие токены? Низкое разрешение. Близкие? Высокое.
  • Динамическое перебалансирование: алгоритм постоянно перестраивает дерево в зависимости от паттернов внимания в текущем контексте.
  • Аппаратная акселерация на тензорных ядрах 5-го поколения: специальные ядра в RTX 5090 заточены именно под операции сжатия/восстановления KV-пар.

Результат? Для контекста в 1M токенов традиционный attention требует ~500 ГБ памяти только на KV-кэш. SQA ужимает это до 8-12 ГБ. Вот откуда берутся цифры.

Метод Контекст Память KV-кэша Скорость (токен/с)
Традиционный Attention 128k 64 ГБ ~45
Flash Attention 3 256k 32 ГБ ~28
Subquadratic Attention 1M 8-12 ГБ 12-15

А что с качеством? (Не всё так гладко)

Вот здесь начинаются нюансы. SQA — lossy compression. Вы теряете информацию. NVIDIA честно показывает метрики: на задачах, требующих точного цитирования из середины длинного документа, точность падает на 3-7% по сравнению с идеальным attention.

Но! Для большинства практических задач — анализ тональности в длинных тредах, суммаризация документов, поиск паттернов — разница почти незаметна. Алгоритм умно распределяет ошибки: важные (близкие) токены сохраняются точно, дальние — приблизительно.

💡
Subquadratic attention особенно хорош для RAG-систем. Вместо того чтобы разбивать документ на чанки и терять контекст между ними, вы загружаете весь 500-страничный PDF целиком. Модель видит все связи сразу.

Кому это нужно прямо сейчас?

Если вы всё ещё боретесь с запуском 128k на двух RTX 3090 через vLLM, SQA покажется вам научной фантастикой. Но есть категории пользователей, для которых эта технология меняет всё:

  • Юридические и финансовые аналитики: договоры на 300+ страниц, годовые отчёты, судебные дела. Один контекст вместо десятков чанков.
  • Исследователи в bioinformatics: полные геномы, научные статьи с тысячами ссылок. Контекст в 1M токенов — это примерно 700 страниц текста.
  • Разработчики агентных систем: представьте агента, который помнит всю историю взаимодействия с пользователем за год. Каждый диалог, каждый файл, каждый контекст.

Для сравнения: Unsloth GRPO с контекстом 380k требовал специальной оптимизации и всё равно работал на пределе. SQA делает это тривиальным.

А как быть без RTX 5090? (Грустные новости)

Здесь плохие новости. Subquadratic attention завязан на аппаратные особенности тензорных ядер 5-го поколения. На RTX 4090 или даже RTX 4090 Ti с ядрами 4-го поколения производительность падает в 4-5 раз.

NVIDIA обещает backport для предыдущих архитектур, но с серьёзными ограничениями. На RTX 4090 максимальный контекст — около 400k токенов при той же 30B модели. И скорость будет 3-4 токена в секунду.

Важный момент: SQA не решает проблему загрузки самой модели в память. 30B модель в FP8 — это всё ещё ~30 ГБ. Плюс 8-12 ГБ на KV-кэш. Итого ~40 ГБ минимум. RTX 5090 с 48 ГБ — идеально. На картах с меньшей памятью придётся использовать квантование или стратегии масштабирования.

Когда ждать в open source? (Недвусмысленные намёки)

NVIDIA анонсировала интеграцию SQA в Nemotron Nano — их open-source семейство моделей, оптимизированных для локального запуска. По слухам из инсайдерских чатов, релиз запланирован на конец марта 2026 года.

Что это значит на практике? Вы сможете скачать Nemotron Nano 30B с поддержкой SQA, загрузить на RTX 5090 и сразу работать с контекстом в 1M токенов. Без танцев с бубном, без кастомных ядер, без недельной настройки.

Для сообщества это важнее, чем сама технология. Вместо того чтобы собирать mixed-vendor кластеры из RTX 3090 и RX 7900 XT для запуска больших моделей, вы получаете решение из коробки на одной карте.

Что дальше? (Спекуляции от инсайдеров)

Если SQA работает на 30B модели с 1M контекстом, что мешает запустить 70B модель с 500k контекстом? Или 10B модель с 2M контекстом? Математика позволяет.

Следующий логичный шаг — multi-GPU SQA. Иерархическое сжатие идеально ложится на распределённые системы. Вместо синхронизации гигантских KV-кэшей между картами, вы синхронизируете сжатые представления.

Представьте: 100B модель с контекстом в 5M токенов на кластере из четырёх RTX 5090. Это уже не science fiction — это roadmap NVIDIA на 2027 год.

А пока совет простой: если планируете апгрейд в 2026 году и работаете с длинными контекстами, смотрите в сторону RTX 5090. 48 ГБ памяти, тензорные ядра 5-го поколения и готовность к subquadratic attention. Всё остальное устаревает на глазах.

P.S. Интересный побочный эффект: с появлением SXA бенчмарки LLM придётся переписывать. Раньше считали качество на коротких контекстах. Теперь будут считать, насколько хорошо модель использует миллион токенов. Игры только начинаются.