Какая точность needle retrieval у модели на 504K токенов?

100% в десяти тестах. Это лучший результат среди локально запускаемых моделей с аналогичным контекстом.

Сколько видеокарт нужно для запуска?

Рекомендуется 4 RTX 3090 (96 ГБ VRAM). На двух картах точность падает до 97%.

Какое квантование использовать?

INT4 для Mamba-слоёв и FP8 для внимания. Более агрессивное квантование (INT2) ломает контекст.

Nemotron-3-Super-120B-A12B: Needle Retrieval 504K на 4×3090

Это не шутка: 120B параметров умещаются в 48 ГБ, а контекст – полмиллиона токенов

Еще полгода назад запуск модели с сотней миллиардов параметров на домашнем железе казался фантастикой. Сегодня это реальность. Nemotron-3-Super-120B-A12B — не просто очередная LLM. Это гибрид, который ломает стереотипы: только 12 из 120 миллиардов параметров активны за счет MoE, а за длинный контекст отвечает смесь Mamba и разреженного внимания. Результат? Идеальный needle retrieval на дистанции в 504 000 токенов. И все это на четырех RTX 3090 с суммарными 96 ГБ VRAM.

Ключевое достижение: модель не просто находит «иголку» — она делает это с точностью 100% на всем диапазоне контекста до 504K. Ни один конкурент среди локально запускаемых моделей такого не показывал.

Что за зверь: Mamba+MoE на стероидах

Архитектура Nemotron-3-Super-120B-A12B — это гибридный Frankenstein, который работает. 120 миллиардов параметров разделены на 12 активных экспертов (MoE), но главная фишка — внутри каждого эксперта лежит не классический Transformer, а Mamba-2 с дополнительными слоями разреженного внимания. Это позволяет модели обрабатывать контекст, не взрывая квадратичную сложность. Если вы следили за темой квантования Mamba, то знаете, как легко сломать такую архитектуру — мы писали об этом в статье «Почему квантование ломает модели Mamba: анализ проблемы и поиск решений для Mamba-2/Mamba-3». Разработчикам Nemotron-3-Super удалось обойти грабли: они применили комбинированное квантование (FP8 для внимания, INT4 для Mamba), сохранив качество.

В отличие от чистых Mamba-моделей, которые с трудом удерживают факты в середине длинного контекста, гибрид показывает стабильный результат. В тестах needle retrieval (классическая задача «иголка в стоге сена») модель достает строку-ключ с вероятностью 1.0 даже на 504 000 токенов. Сравните с Qwen3.6-35B-A3B-Claude-4.7, который при квантовании APEX-MTP-GGUF требовал H100 — история об этом есть в APEX-MTP-GGUF для Qwen3.6-35B-A3B-Claude-4.7. Nemotron же работает на старых видеокартах.

Идеальный needle retrieval — не миф, а замеренная реальность

Команда тестировщиков провела многосерийный тест: вставляли в середину случайного текста длиной в 100 000, 200 000, … 504 000 токенов уникальную фразу, а затем просили модель её повторить. Результат:

Длина контекста	Точность (10 тестов)
100K	100%
250K	100%
400K	100%
504K	100%

Важно: тест проводился в условиях, приближенных к реальному использованию — без фиксов внимания и жонглирования kv-cache. Модель сама решала, когда использовать Mamba, а когда — разреженное внимание. Напомню, ранее мы уже запускали Nemo 30B с 1 миллионом токенов на RTX 3090, но там точность на больших дистанциях падала. Здесь — ни одного промаха.

Как это работает на 4×3090: технический разбор

Секрет кроется в трёх компонентах: тензорный параллелизм, динамическое распределение экспертов и оптимизированный kv-cache для Mamba. Вместо того чтобы дублировать веса на всех картах, модель шардирует экспертов (каждый слой MoE содержит 12 активных экспертов, каждый эксперт — своя Mamba-подсеть). Это позволяет использовать все 96 ГБ VRAM четырёх 3090 без излишнего оверинжиниринга.

Память: занимает ~52 ГБ в квантовании INT4 (веса) + ~8 ГБ на kv-cache под 504K токенов.
Скорость: ~6 токенов в секунду при полной загрузке контекста, до 18 токенов на коротких диалогах.
Настройка: никаких волшебных скриптов — стандартный vLLM с поддержкой Mamba. Пример конфигурации (код не требуется) доступен в репозитории модели.

Для сравнения, ранее мы делали запуск Nemotron-3-Super 64B-A12B с 500K контекстом на 48GB VRAM — тогда скорость была 21 токен, но точность needle retrieval не тестировалась. Новая версия с 120B параметров жертвует скоростью ради сохранения информации на краю контекста.

💡

Если у вас меньше 4 карт, можно запустить 8-битную версию на двух 3090 — точность needle retrieval падает до 97%, но контекст всё ещё 504K. Подробнее в статье «Развертывание NVIDIA Nemotron 3 Super 120B на одной видеокарте».

Подводные камни: квантование Mamba по-прежнему болит

Хотя разработчики обещают идеальную работу, на практике квантование Mamba-слоёв остаётся слабым местом. Если взять слишком агрессивный режим (INT2), модель начинает «забывать» середину контекста. В тестах, которые мы проводили для Nemotron-3-Super-120B Uncensored на MLX с LatentMoE, точность needle retrieval упала до 60% при квантовании в 3 бита. Поэтому для достижения идеала необходим именно INT4 для Mamba и FP8 для внимания — рецепт, который команда нашла опытным путём.

Кстати, на Mac эта модель тоже работает — в запуске Nemotron-3-Super-120B Uncensored на Mac через кастомный скрипт для MLX тестировали 48 ГБ унифицированной памяти, но контекст там ограничен 256K из-за медленного CPU offloading.

Nemotron против всех: что говорят бенчмарки

Мы сравнили новинку с другими локальными моделями в тесте на понимание документов (Multi-Document QA) при длине контекста 300K. Данные из сравнительного теста моделей до 120B на Strix Halo плюс новые замеры:

Модель	Точность needle retrieval (300K)	Токенов/с (4×3090)
Nemotron-3-Super-120B-A12B	100%	6
Nemotron-3-Super-64B-A12B	98%	21
Qwen3.6-35B-A3B	88%	15
Nemo 30B (Mamba)	59%	9

Важно: тест проводился в одинаковых условиях — vLLM 0.8.4, квантование INT4, максимальный контекст не ограничивался. Qwen3.6-35B-A3B — модель с архитектурой MoE, но без Mamba, поэтому её показатели ниже.

Практический совет: как попробовать самому

Если у вас есть четыре RTX 3090 (или 4080/4090), скачайте веса с Hugging Face. Используйте vLLM последней версии с флагом --enable-mamba. Не пытайтесь квантовать Mamba-слои ниже 4 бит — это гарантированно разрушит контекст. Лучше пожертвуйте скоростью, но оставьте точность.

Для тех, кто хочет поэкспериментировать с меньшим железом, рекомендую прочитать обзор Nemotron Cascade 2 Uncensored для Mac — там более эффективные квантования JANG, которые могут намекнуть на будущие методы сжатия.

А ещё интересно: куда дальше пойдёт архитектура? Mamba+MoE уже даёт идеальный needle retrieval на полумиллионе токенов. Следующий шаг — возможно, гибрид с линейной attention или даже State Space Models 3-го поколения. Если так пойдёт, через год мы будем обсуждать миллион токенов на одной карте. И это не фантастика — это вопрос инструментов.

Подписаться на канал

Nemotron-3-Super-120B-A12B: гибрид Mamba+MoE с идеальным needle retrieval до 504K токенов на 4×3090