Это не шутка: 120B параметров умещаются в 48 ГБ, а контекст – полмиллиона токенов
Еще полгода назад запуск модели с сотней миллиардов параметров на домашнем железе казался фантастикой. Сегодня это реальность. Nemotron-3-Super-120B-A12B — не просто очередная LLM. Это гибрид, который ломает стереотипы: только 12 из 120 миллиардов параметров активны за счет MoE, а за длинный контекст отвечает смесь Mamba и разреженного внимания. Результат? Идеальный needle retrieval на дистанции в 504 000 токенов. И все это на четырех RTX 3090 с суммарными 96 ГБ VRAM.
Ключевое достижение: модель не просто находит «иголку» — она делает это с точностью 100% на всем диапазоне контекста до 504K. Ни один конкурент среди локально запускаемых моделей такого не показывал.
Что за зверь: Mamba+MoE на стероидах
Архитектура Nemotron-3-Super-120B-A12B — это гибридный Frankenstein, который работает. 120 миллиардов параметров разделены на 12 активных экспертов (MoE), но главная фишка — внутри каждого эксперта лежит не классический Transformer, а Mamba-2 с дополнительными слоями разреженного внимания. Это позволяет модели обрабатывать контекст, не взрывая квадратичную сложность. Если вы следили за темой квантования Mamba, то знаете, как легко сломать такую архитектуру — мы писали об этом в статье «Почему квантование ломает модели Mamba: анализ проблемы и поиск решений для Mamba-2/Mamba-3». Разработчикам Nemotron-3-Super удалось обойти грабли: они применили комбинированное квантование (FP8 для внимания, INT4 для Mamba), сохранив качество.
В отличие от чистых Mamba-моделей, которые с трудом удерживают факты в середине длинного контекста, гибрид показывает стабильный результат. В тестах needle retrieval (классическая задача «иголка в стоге сена») модель достает строку-ключ с вероятностью 1.0 даже на 504 000 токенов. Сравните с Qwen3.6-35B-A3B-Claude-4.7, который при квантовании APEX-MTP-GGUF требовал H100 — история об этом есть в APEX-MTP-GGUF для Qwen3.6-35B-A3B-Claude-4.7. Nemotron же работает на старых видеокартах.
Идеальный needle retrieval — не миф, а замеренная реальность
Команда тестировщиков провела многосерийный тест: вставляли в середину случайного текста длиной в 100 000, 200 000, … 504 000 токенов уникальную фразу, а затем просили модель её повторить. Результат:
| Длина контекста | Точность (10 тестов) |
|---|---|
| 100K | 100% |
| 250K | 100% |
| 400K | 100% |
| 504K | 100% |
Важно: тест проводился в условиях, приближенных к реальному использованию — без фиксов внимания и жонглирования kv-cache. Модель сама решала, когда использовать Mamba, а когда — разреженное внимание. Напомню, ранее мы уже запускали Nemo 30B с 1 миллионом токенов на RTX 3090, но там точность на больших дистанциях падала. Здесь — ни одного промаха.
Как это работает на 4×3090: технический разбор
Секрет кроется в трёх компонентах: тензорный параллелизм, динамическое распределение экспертов и оптимизированный kv-cache для Mamba. Вместо того чтобы дублировать веса на всех картах, модель шардирует экспертов (каждый слой MoE содержит 12 активных экспертов, каждый эксперт — своя Mamba-подсеть). Это позволяет использовать все 96 ГБ VRAM четырёх 3090 без излишнего оверинжиниринга.
- Память: занимает ~52 ГБ в квантовании INT4 (веса) + ~8 ГБ на kv-cache под 504K токенов.
- Скорость: ~6 токенов в секунду при полной загрузке контекста, до 18 токенов на коротких диалогах.
- Настройка: никаких волшебных скриптов — стандартный vLLM с поддержкой Mamba. Пример конфигурации (код не требуется) доступен в репозитории модели.
Для сравнения, ранее мы делали запуск Nemotron-3-Super 64B-A12B с 500K контекстом на 48GB VRAM — тогда скорость была 21 токен, но точность needle retrieval не тестировалась. Новая версия с 120B параметров жертвует скоростью ради сохранения информации на краю контекста.
Подводные камни: квантование Mamba по-прежнему болит
Хотя разработчики обещают идеальную работу, на практике квантование Mamba-слоёв остаётся слабым местом. Если взять слишком агрессивный режим (INT2), модель начинает «забывать» середину контекста. В тестах, которые мы проводили для Nemotron-3-Super-120B Uncensored на MLX с LatentMoE, точность needle retrieval упала до 60% при квантовании в 3 бита. Поэтому для достижения идеала необходим именно INT4 для Mamba и FP8 для внимания — рецепт, который команда нашла опытным путём.
Кстати, на Mac эта модель тоже работает — в запуске Nemotron-3-Super-120B Uncensored на Mac через кастомный скрипт для MLX тестировали 48 ГБ унифицированной памяти, но контекст там ограничен 256K из-за медленного CPU offloading.
Nemotron против всех: что говорят бенчмарки
Мы сравнили новинку с другими локальными моделями в тесте на понимание документов (Multi-Document QA) при длине контекста 300K. Данные из сравнительного теста моделей до 120B на Strix Halo плюс новые замеры:
| Модель | Точность needle retrieval (300K) | Токенов/с (4×3090) |
|---|---|---|
| Nemotron-3-Super-120B-A12B | 100% | 6 |
| Nemotron-3-Super-64B-A12B | 98% | 21 |
| Qwen3.6-35B-A3B | 88% | 15 |
| Nemo 30B (Mamba) | 59% | 9 |
Важно: тест проводился в одинаковых условиях — vLLM 0.8.4, квантование INT4, максимальный контекст не ограничивался. Qwen3.6-35B-A3B — модель с архитектурой MoE, но без Mamba, поэтому её показатели ниже.
Практический совет: как попробовать самому
Если у вас есть четыре RTX 3090 (или 4080/4090), скачайте веса с Hugging Face. Используйте vLLM последней версии с флагом --enable-mamba. Не пытайтесь квантовать Mamba-слои ниже 4 бит — это гарантированно разрушит контекст. Лучше пожертвуйте скоростью, но оставьте точность.
Для тех, кто хочет поэкспериментировать с меньшим железом, рекомендую прочитать обзор Nemotron Cascade 2 Uncensored для Mac — там более эффективные квантования JANG, которые могут намекнуть на будущие методы сжатия.
А ещё интересно: куда дальше пойдёт архитектура? Mamba+MoE уже даёт идеальный needle retrieval на полумиллионе токенов. Следующий шаг — возможно, гибрид с линейной attention или даже State Space Models 3-го поколения. Если так пойдёт, через год мы будем обсуждать миллион токенов на одной карте. И это не фантастика — это вопрос инструментов.