Nemotron 3 Super Uncensored: 96% MMLU, установка на Mac | Обзор | AiManual
AiManual Logo Ai / Manual.
21 Мар 2026 Инструмент

Nemotron 3 Super Uncensored для Mac: рекордные 96% на MMLU и установка с Hugging Face

Аблированная модель Nemotron 3 Super показывает рекордные 96% на MMLU. Как установить и использовать на Mac через Hugging Face. Сравнение с аналогами.

96% на MMLU. Это вообще законно?

Новость прилетела из репозитория JANG_2L на Hugging Face. Nemotron 3 Super - 120B параметров, аблированная (uncensored) версия - выдает 96.1% на Massive Multitask Language Understanding. Для сравнения, Claude 4.6 в начале 2025 года показывал около 94.5%. Результат не просто высокий - он скандальный. Особенно для модели, которую можно запустить на Mac с чипом M3 Max или M4 с достаточным объемом памяти.

💡
"Аблированная" или "uncensored" - значит, что с модели сняли встроенные фильтры безопасности и этические ограничения. Она отвечает на что угодно. Это как суперкомпьютер без предохранителей.

Что внутри этого монстра

Модель основана на архитектуре Nemotron 3 Super, но это кастомный вариант от коммьюнити. Размер - 120 миллиардов параметров. Контекстное окно - 128k токенов. Под капотом гибридная архитектура с элементами LatentMoE и Mamba attention, что объясняет ее эффективность на длинных контекстах.

Но главный секрет - дистилляция. Модель обучали на выходах Claude 4.6 (последней доступной версии на начало 2025 года) и пропускали через специальную процедуру "аблирования", убирая все слои цензуры. В итоге получился интеллектуальный уровень топовой коммерческой модели, но без внутреннего цензора.

МодельMMLU (2025-2026)ПараметрыОсобенность
Nemotron 3 Super Uncensored96.1%120BUncensored, LatentMoE
Qwen 3.5 397B93.4%397BОгромный размер, квантование для MLX
MiniMax-M2.5 230B MoE92.8%230B (MoE)Смесь экспертов, эффективность
Claude 4.6 (референс)~94.5%N/AКоммерческая, цензурированная

Железо: какой Mac выдержит эту атаку

120 миллиардов параметров - это не шутка. В нативной точности FP16 модели нужно около 240 ГБ памяти. На Mac с 128 ГБ unified memory это невозможно. Поэтому единственный путь - агрессивное квантование.

Сообщество уже подготовило квантованные версии в форматах MLX (оптимизированный для Apple Silicon) и GGUF. Для комфортной работы с контекстом 8k-16k нужно:

  • Mac с чипом M3 Max или M4 Max с 96-128 ГБ памяти.
  • Квантование как минимум до 4-бит (например, специальная дистиллированная версия).
  • Использование оптимизаций типа LatentMoE, которые активируют не все параметры сразу.

На MacBook Air или Mac mini с 16-24 ГБ памяти эта модель не запустится. Даже с квантованием. Не обольщайтесь. Это инструмент для тех, у кого топовое железо.

1Находим модель на Hugging Face

Репозиторий называется JANG_2L/Nemotron-3-Super-120B-Uncensored. Там лежат веса в нескольких форматах: оригинальные Safetensors, GGUF и MLX. Для Mac с чипами Apple Silicon оптимально использовать MLX-версию.

# Клонируем репозиторий с моделью
# Внимание: веса занимают 60-80 ГБ в зависимости от квантования
# Убедитесь в наличии места на диске
git lfs install
git clone https://huggingface.co/JANG_2L/Nemotron-3-Super-120B-Uncensored-MLX-4bit

2Настраиваем окружение и запускаем

Сообщество создало кастомный скрипт для запуска на MLX, потому что стандартный mlx-lm с этой архитектурой не справляется. В репозитории вы найдете inference.py с поддержкой гибридного внимания.

# Устанавливаем зависимости для MLX
pip install mlx-lm==0.6.2  # последняя стабильная версия на март 2026

# Переходим в папку с моделью и запускаем скрипт
cd Nemotron-3-Super-120B-Uncensored-MLX-4bit
python inference.py --prompt "Ваш запрос здесь" --max-tokens 512
💡
Скрипт inference.py использует оптимизации для Mamba attention и LatentMoE. Если у вас Mac с 64 ГБ памяти, добавьте флаг --cache-mode "disk", чтобы часть кэша сбрасывалась на SSD. Это замедлит работу, но позволит запустить модель.

А что на практике? Примеры использования

Uncensored-модели - это палка о двух концах. С одной стороны, они решают сложные аналитические задачи без оглядки на политкорректность. С другой - могут генерировать опасный контент.

Чем полезна эта конкретная модель:

  • Анализ кода с уязвимостями: Модель без колебаний укажет на потенциальные security holes, которые цензурированные аналоги замалчивают.
  • Историческое моделирование: Сценарии развития событий без современных этических фильтров.
  • Научная полемика: Генерация аргументов за и против спорных гипотез в физике, биологии.
  • Стресс-тесты для модерации: Создание контента для тренировки систем фильтрации.

Но запомните: это инструмент для исследования, не для производства. Модель может выдавать токсичный, опасный или незаконный контент. Используйте ее в изолированном окружении.

Кому вообще это нужно?

Эта модель - не для всех. Она для трех типов людей:

  1. Исследователи AI безопасности: Те, кто изучает, как ломаются большие языковые модели, когда с них снимают ограничения.
  2. Разработчики специализированных корпоративных систем: Кому нужен максимально непредвзятый анализ рисков или сценариев. (Да, такие есть).
  3. Энтузиасты с дорогим железом: Кто просто хочет потестировать границы возможного на своем Mac Pro или Mac Studio.

Если вы ищете модель для повседневных задач - генерации текста, ответов на вопросы, помощи в кодинге - посмотрите на Qwen 3.5 или MiniMax m2.1 DWQ. Они почти так же умны, но менее опасны и требуют меньше ресурсов.

Что будет дальше с uncensored моделями

Тренд на аблирование больших моделей набирает обороты. Сообщество научилось эффективно удалять слои цензуры, сохраняя интеллект. К концу 2026 года, я прогнозирую, появление открытой uncensored-модели с результатом MMLU выше 97%. И она будет работать на Mac с M5 чипом со 192 ГБ памяти.

Но главный вопрос не в производительности. Главный вопрос - где провести черту между свободой исследования и социальной ответственностью. Nemotron 3 Super Uncensored - это яркий пример того, что происходит, когда эту черту стирают. Используйте с умом. Или не используйте вообще.

Подписаться на канал