96% на MMLU. Это вообще законно?
Новость прилетела из репозитория JANG_2L на Hugging Face. Nemotron 3 Super - 120B параметров, аблированная (uncensored) версия - выдает 96.1% на Massive Multitask Language Understanding. Для сравнения, Claude 4.6 в начале 2025 года показывал около 94.5%. Результат не просто высокий - он скандальный. Особенно для модели, которую можно запустить на Mac с чипом M3 Max или M4 с достаточным объемом памяти.
Что внутри этого монстра
Модель основана на архитектуре Nemotron 3 Super, но это кастомный вариант от коммьюнити. Размер - 120 миллиардов параметров. Контекстное окно - 128k токенов. Под капотом гибридная архитектура с элементами LatentMoE и Mamba attention, что объясняет ее эффективность на длинных контекстах.
Но главный секрет - дистилляция. Модель обучали на выходах Claude 4.6 (последней доступной версии на начало 2025 года) и пропускали через специальную процедуру "аблирования", убирая все слои цензуры. В итоге получился интеллектуальный уровень топовой коммерческой модели, но без внутреннего цензора.
| Модель | MMLU (2025-2026) | Параметры | Особенность |
|---|---|---|---|
| Nemotron 3 Super Uncensored | 96.1% | 120B | Uncensored, LatentMoE |
| Qwen 3.5 397B | 93.4% | 397B | Огромный размер, квантование для MLX |
| MiniMax-M2.5 230B MoE | 92.8% | 230B (MoE) | Смесь экспертов, эффективность |
| Claude 4.6 (референс) | ~94.5% | N/A | Коммерческая, цензурированная |
Железо: какой Mac выдержит эту атаку
120 миллиардов параметров - это не шутка. В нативной точности FP16 модели нужно около 240 ГБ памяти. На Mac с 128 ГБ unified memory это невозможно. Поэтому единственный путь - агрессивное квантование.
Сообщество уже подготовило квантованные версии в форматах MLX (оптимизированный для Apple Silicon) и GGUF. Для комфортной работы с контекстом 8k-16k нужно:
- Mac с чипом M3 Max или M4 Max с 96-128 ГБ памяти.
- Квантование как минимум до 4-бит (например, специальная дистиллированная версия).
- Использование оптимизаций типа LatentMoE, которые активируют не все параметры сразу.
На MacBook Air или Mac mini с 16-24 ГБ памяти эта модель не запустится. Даже с квантованием. Не обольщайтесь. Это инструмент для тех, у кого топовое железо.
1Находим модель на Hugging Face
Репозиторий называется JANG_2L/Nemotron-3-Super-120B-Uncensored. Там лежат веса в нескольких форматах: оригинальные Safetensors, GGUF и MLX. Для Mac с чипами Apple Silicon оптимально использовать MLX-версию.
# Клонируем репозиторий с моделью
# Внимание: веса занимают 60-80 ГБ в зависимости от квантования
# Убедитесь в наличии места на диске
git lfs install
git clone https://huggingface.co/JANG_2L/Nemotron-3-Super-120B-Uncensored-MLX-4bit2Настраиваем окружение и запускаем
Сообщество создало кастомный скрипт для запуска на MLX, потому что стандартный mlx-lm с этой архитектурой не справляется. В репозитории вы найдете inference.py с поддержкой гибридного внимания.
# Устанавливаем зависимости для MLX
pip install mlx-lm==0.6.2 # последняя стабильная версия на март 2026
# Переходим в папку с моделью и запускаем скрипт
cd Nemotron-3-Super-120B-Uncensored-MLX-4bit
python inference.py --prompt "Ваш запрос здесь" --max-tokens 512--cache-mode "disk", чтобы часть кэша сбрасывалась на SSD. Это замедлит работу, но позволит запустить модель.А что на практике? Примеры использования
Uncensored-модели - это палка о двух концах. С одной стороны, они решают сложные аналитические задачи без оглядки на политкорректность. С другой - могут генерировать опасный контент.
Чем полезна эта конкретная модель:
- Анализ кода с уязвимостями: Модель без колебаний укажет на потенциальные security holes, которые цензурированные аналоги замалчивают.
- Историческое моделирование: Сценарии развития событий без современных этических фильтров.
- Научная полемика: Генерация аргументов за и против спорных гипотез в физике, биологии.
- Стресс-тесты для модерации: Создание контента для тренировки систем фильтрации.
Но запомните: это инструмент для исследования, не для производства. Модель может выдавать токсичный, опасный или незаконный контент. Используйте ее в изолированном окружении.
Кому вообще это нужно?
Эта модель - не для всех. Она для трех типов людей:
- Исследователи AI безопасности: Те, кто изучает, как ломаются большие языковые модели, когда с них снимают ограничения.
- Разработчики специализированных корпоративных систем: Кому нужен максимально непредвзятый анализ рисков или сценариев. (Да, такие есть).
- Энтузиасты с дорогим железом: Кто просто хочет потестировать границы возможного на своем Mac Pro или Mac Studio.
Если вы ищете модель для повседневных задач - генерации текста, ответов на вопросы, помощи в кодинге - посмотрите на Qwen 3.5 или MiniMax m2.1 DWQ. Они почти так же умны, но менее опасны и требуют меньше ресурсов.
Что будет дальше с uncensored моделями
Тренд на аблирование больших моделей набирает обороты. Сообщество научилось эффективно удалять слои цензуры, сохраняя интеллект. К концу 2026 года, я прогнозирую, появление открытой uncensored-модели с результатом MMLU выше 97%. И она будет работать на Mac с M5 чипом со 192 ГБ памяти.
Но главный вопрос не в производительности. Главный вопрос - где провести черту между свободой исследования и социальной ответственностью. Nemotron 3 Super Uncensored - это яркий пример того, что происходит, когда эту черту стирают. Используйте с умом. Или не используйте вообще.