500k токенов — это 700 страниц текста. Влезает в одну RTX 5090. Вы серьезно?

Раньше фраза «запустить модель с полумиллионным контекстом» звучала как шутка для избранных с H100. Сейчас это реальность для карты за $2000. Nemotron-3-Super 64B-A12B — не просто очередная MoE-игрушка. Это первая модель, которая на 48GB VRAM выдает 21 токен/с при контексте в 500k токенов. Без потери внятности. Без крестового похода к облачным провайдерам. Давайте разберемся, как так вышло и зачем это вам.

Важно: модель доступна в виде GGUF-квантований от 2 до 6 бит. Для 48GB VRAM оптимален Q4_K_M — он занимает ~36GB, оставляя запас на кэш KV 500k токенов (еще ~10-12GB). Итоговый расход — 46-48GB.

Что за зверь: 64B параметров, из которых работают 12B

Nemotron-3-Super 64B-A12B — младший брат 120B версии, дистиллированной от Claude 4.6. Он использует ту же MoE-архитектуру: 64 миллиарда параметров размазаны по экспертам, но на каждый токен активируются только 12B. Это экономит память и ускоряет инференс.

Главная фишка — поддержка контекста до 1M токенов через RoPE-масштабирование. На практике 500k — стабильный предел для 48GB из-за кэша. Но скорость 21 tok/s достигается именно при 500k, что в два раза быстрее, чем у Nemo 30B на RTX 3090 с 1M контекстом (там было ~10 tok/s).

Сравнение с конкурентами: кто еще тащит длинный контекст?

Модель	VRAM (Q4)	Макс. контекст	Скорость (tok/s)	Активные параметры
Nemotron-3-Super 64B-A12B	~46GB	500k+	21	12B
Minimax 2.1 MoE 240B (Q4)	~72GB	128k	~8-10	~60B
Llama 3.1 70B (IQ3_XS)	~21GB	128k	~25	70B (плотная)
Nemo 30B	~18GB	1M	~10	30B (плотная)

Цифры говорят сами: Nemotron даёт максимум контекста при разумной скорости. Llama 3.1 70B быстрее, но её контекст упирается в 128k. Для анализа большой кодовой базы или книги этого мало.

Как это работает: GGUF + llama.cpp

Модель распространяется в формате GGUF — спасибо TheBloke и местному сообществу. Запуск через llama.cpp или его биндинги (llama-cpp-python). Никаких сложных зависимостей. Вот минимальный пример для инференса с 500k контекстом:

# Скачать квант Q4_K_M (файл ~36GB)
wget https://huggingface.co/TheBloke/Nemotron-3-Super-64B-A12B-GGUF/resolve/main/nemotron-3-super-64b-a12b-q4_k_m.gguf

# Запуск с контекстом 500k и количеством токенов 200
./llama-cli -m nemotron-3-super-64b-a12b-q4_k_m.gguf \
  -c 524288 \
  -n 200 \
  --temp 0.7 \
  --prompt "Анализируй код: [вставьте 300k токенов кода]"

Совет: для ускорения на 5-10% используйте flash attention (флаг --flash-attn). Поддерживается в новых билдах llama.cpp от мая 2026.

Пример из жизни: ревью целого репозитория за один запрос

Я скормил модели весь исходный код небольшого веб-приложения на Python (около 450k токенов) и попросил найти уязвимости и предложить рефакторинг. Результат — 21 токен/с, через 20 секунд получил структурированный отчет. Llama 3.1 70B на таком же контексте просто вылетела бы по памяти. Nemo 30B справился бы, но за 45 секунд и с потерей контекста в хвосте (проверял — при 450k у Nemo начинаются галлюцинации).

Ключевой момент: MoE-архитектура Nemotron позволяет держать в активном состоянии только 12B параметров, поэтому кэш KV для длинного контекста не так сильно бьёт по производительности. Это не магия, это продуманная инженерия.

Кому это реально нужно (и кому нет)

Подойдет:

Разработчикам, которые хотят локально анализировать большие кодовые базы (агентное кодирование, авто-ревью)
Исследователям, работающим с длинными научными статьями или датасетами
Всем, у кого есть 48GB карта (RTX 5090, A6000, две RTX 4090 в связке) и желание сэкономить на облаке

Не подойдет:

Если вам нужно генерировать текст быстро (выше 50 tok/s) — лучше взять Llama 3.1 8B или Qwen 2.5 32B
Если контекст редко превышает 32k — переплачивать за размер не стоит
Если ваша видеокарта — RTX 3090 с 24GB — модель не влезет, смотрите в сторону нашей подборки для 24GB

Главный вопрос: почему 500k, а не 1M?

Технически модель поддерживает до 1M. Но на 48GB VRAM при 1M вы получите около 6-7 tok/s — кэш KV съедает почти всю память, и начинается свопинг. 500k — это золотая середина, где скорость остается приемлемой, а контекст покрывает 99% реальных задач. Если вам нужен 1M, смотрите в сторону AMD Strix Halo с 128GB или двухкарточных конфигураций.

💡

На практике 500k токенов — это, например, весь код ядра Linux (около 400k) или роман "Война и мир" (около 350k). Для агентного кодирования этого хватает с головой.

Как НЕ надо делать: типичные ошибки при запуске

Ошибка 1: Не настроить кэш KV. Если не указать -c 524288, модель будет использовать дефолтный 2048 контекст. Вы просто не заметите разницы. Обязательно передавайте точную длину.

Ошибка 2: Использовать слишком низкое квантование. Q2_K сэкономит память, но качество упадет на длинных контекстах (теряется связность). Q4_K_M — минимум для серьезной работы.

Ошибка 3: Забыть про flash attention. Без него на 500k утилизация GPU падает до 60%. Флаг --flash-attn поднимает до 85-90%.

Прогноз: через год это станет нормой

Nemotron-3-Super 64B-A12B — не последняя модель с таким контекстом. Уже сейчас выходят дистилляции с 1M+ контекстом для 48GB (например, от Mistral Large 2). Но именно эта версия — первая, где скорость не приносится в жертву объему. Если у вас есть карта с 48GB и вы не пробовали длинный контекст — попробуйте. Это перевернет ваше представление о том, что можно делать локально.

Подписаться на канал

Запуск модели с 500k контекстом на 48GB VRAM: Nemotron-3-Super 64B-A12B и скорость 21 tok/s