Контекстная бомба: когда 128k — это смешно
Ещё вчера 128 тысяч токенов казались роскошью. Сегодня это детский лепет. Пока все игрались с Mistral Vibe на 256k и гордились кластерами из трёх карт, NVIDIA тихо готовила переворот.
Статья на arXiv от 15 января 2026 года: "Subquadratic Attention for Million-Token Context Windows". Не обещание, не теория — рабочий код. На одной RTX 5090 с 48 ГБ VRAM запускают 30-миллиардную модель с контекстом в 1 048 576 токенов. Скорость inference: 12 токенов в секунду. Это не опечатка.
Архитектура subquadratic attention — это не просто очередной трюк с кэшем. Это фундаментальный пересмотр того, как внимание работает в трансформерах. Вместо O(n²) сложности — O(n log n). Вместо гигантских KV-кэшей — сжатые представления.
Как они это сделали? (Спойлер: не магией)
Забудьте про Flash Attention. Забудьте про Ring Attention. Это следующий уровень. Subquadratic attention (SQA) основан на трёх столпах:
- Иерархическое сжатие KV-пар: вместо хранения каждого ключа и значения отдельно, SQA группирует их в деревья с адаптивным разрешением. Далёкие токены? Низкое разрешение. Близкие? Высокое.
- Динамическое перебалансирование: алгоритм постоянно перестраивает дерево в зависимости от паттернов внимания в текущем контексте.
- Аппаратная акселерация на тензорных ядрах 5-го поколения: специальные ядра в RTX 5090 заточены именно под операции сжатия/восстановления KV-пар.
Результат? Для контекста в 1M токенов традиционный attention требует ~500 ГБ памяти только на KV-кэш. SQA ужимает это до 8-12 ГБ. Вот откуда берутся цифры.
| Метод | Контекст | Память KV-кэша | Скорость (токен/с) |
|---|---|---|---|
| Традиционный Attention | 128k | 64 ГБ | ~45 |
| Flash Attention 3 | 256k | 32 ГБ | ~28 |
| Subquadratic Attention | 1M | 8-12 ГБ | 12-15 |
А что с качеством? (Не всё так гладко)
Вот здесь начинаются нюансы. SQA — lossy compression. Вы теряете информацию. NVIDIA честно показывает метрики: на задачах, требующих точного цитирования из середины длинного документа, точность падает на 3-7% по сравнению с идеальным attention.
Но! Для большинства практических задач — анализ тональности в длинных тредах, суммаризация документов, поиск паттернов — разница почти незаметна. Алгоритм умно распределяет ошибки: важные (близкие) токены сохраняются точно, дальние — приблизительно.
Кому это нужно прямо сейчас?
Если вы всё ещё боретесь с запуском 128k на двух RTX 3090 через vLLM, SQA покажется вам научной фантастикой. Но есть категории пользователей, для которых эта технология меняет всё:
- Юридические и финансовые аналитики: договоры на 300+ страниц, годовые отчёты, судебные дела. Один контекст вместо десятков чанков.
- Исследователи в bioinformatics: полные геномы, научные статьи с тысячами ссылок. Контекст в 1M токенов — это примерно 700 страниц текста.
- Разработчики агентных систем: представьте агента, который помнит всю историю взаимодействия с пользователем за год. Каждый диалог, каждый файл, каждый контекст.
Для сравнения: Unsloth GRPO с контекстом 380k требовал специальной оптимизации и всё равно работал на пределе. SQA делает это тривиальным.
А как быть без RTX 5090? (Грустные новости)
Здесь плохие новости. Subquadratic attention завязан на аппаратные особенности тензорных ядер 5-го поколения. На RTX 4090 или даже RTX 4090 Ti с ядрами 4-го поколения производительность падает в 4-5 раз.
NVIDIA обещает backport для предыдущих архитектур, но с серьёзными ограничениями. На RTX 4090 максимальный контекст — около 400k токенов при той же 30B модели. И скорость будет 3-4 токена в секунду.
Важный момент: SQA не решает проблему загрузки самой модели в память. 30B модель в FP8 — это всё ещё ~30 ГБ. Плюс 8-12 ГБ на KV-кэш. Итого ~40 ГБ минимум. RTX 5090 с 48 ГБ — идеально. На картах с меньшей памятью придётся использовать квантование или стратегии масштабирования.
Когда ждать в open source? (Недвусмысленные намёки)
NVIDIA анонсировала интеграцию SQA в Nemotron Nano — их open-source семейство моделей, оптимизированных для локального запуска. По слухам из инсайдерских чатов, релиз запланирован на конец марта 2026 года.
Что это значит на практике? Вы сможете скачать Nemotron Nano 30B с поддержкой SQA, загрузить на RTX 5090 и сразу работать с контекстом в 1M токенов. Без танцев с бубном, без кастомных ядер, без недельной настройки.
Для сообщества это важнее, чем сама технология. Вместо того чтобы собирать mixed-vendor кластеры из RTX 3090 и RX 7900 XT для запуска больших моделей, вы получаете решение из коробки на одной карте.
Что дальше? (Спекуляции от инсайдеров)
Если SQA работает на 30B модели с 1M контекстом, что мешает запустить 70B модель с 500k контекстом? Или 10B модель с 2M контекстом? Математика позволяет.
Следующий логичный шаг — multi-GPU SQA. Иерархическое сжатие идеально ложится на распределённые системы. Вместо синхронизации гигантских KV-кэшей между картами, вы синхронизируете сжатые представления.
Представьте: 100B модель с контекстом в 5M токенов на кластере из четырёх RTX 5090. Это уже не science fiction — это roadmap NVIDIA на 2027 год.
А пока совет простой: если планируете апгрейд в 2026 году и работаете с длинными контекстами, смотрите в сторону RTX 5090. 48 ГБ памяти, тензорные ядра 5-го поколения и готовность к subquadratic attention. Всё остальное устаревает на глазах.
P.S. Интересный побочный эффект: с появлением SXA бенчмарки LLM придётся переписывать. Раньше считали качество на коротких контекстах. Теперь будут считать, насколько хорошо модель использует миллион токенов. Игры только начинаются.