Что такое Nemotron 3 Super Uncensored?

Аблированная (uncensored) версия модели Nemotron 3 Super на 120 миллиардов параметров, показывающая рекордные 96.1% на тесте MMLU. С модели сняты встроенные фильтры безопасности и этические ограничения.

Как установить Nemotron 3 Super Uncensored на Mac?

Модель доступна на Hugging Face в репозитории JANG_2L. Для установки необходимо клонировать репозиторий с весами в формате MLX и использовать специальный скрипт inference.py для запуска на Apple Silicon.

Какой Mac нужен для запуска Nemotron 3 Super Uncensored?

Минимально - Mac с чипом M3 Max или M4 Max и 96-128 ГБ unified memory. Модель требует агрессивного квантования (как минимум 4-битного) для работы в таких конфигурациях.

Nemotron 3 Super Uncensored: 96% MMLU, установка на Mac | Обзор

96% на MMLU. Это вообще законно?

Новость прилетела из репозитория JANG_2L на Hugging Face. Nemotron 3 Super - 120B параметров, аблированная (uncensored) версия - выдает 96.1% на Massive Multitask Language Understanding. Для сравнения, Claude 4.6 в начале 2025 года показывал около 94.5%. Результат не просто высокий - он скандальный. Особенно для модели, которую можно запустить на Mac с чипом M3 Max или M4 с достаточным объемом памяти.

💡

"Аблированная" или "uncensored" - значит, что с модели сняли встроенные фильтры безопасности и этические ограничения. Она отвечает на что угодно. Это как суперкомпьютер без предохранителей.

Что внутри этого монстра

Модель основана на архитектуре Nemotron 3 Super, но это кастомный вариант от коммьюнити. Размер - 120 миллиардов параметров. Контекстное окно - 128k токенов. Под капотом гибридная архитектура с элементами LatentMoE и Mamba attention, что объясняет ее эффективность на длинных контекстах.

Но главный секрет - дистилляция. Модель обучали на выходах Claude 4.6 (последней доступной версии на начало 2025 года) и пропускали через специальную процедуру "аблирования", убирая все слои цензуры. В итоге получился интеллектуальный уровень топовой коммерческой модели, но без внутреннего цензора.

Модель	MMLU (2025-2026)	Параметры	Особенность
Nemotron 3 Super Uncensored	96.1%	120B	Uncensored, LatentMoE
Qwen 3.5 397B	93.4%	397B	Огромный размер, квантование для MLX
MiniMax-M2.5 230B MoE	92.8%	230B (MoE)	Смесь экспертов, эффективность
Claude 4.6 (референс)	~94.5%	N/A	Коммерческая, цензурированная

Железо: какой Mac выдержит эту атаку

120 миллиардов параметров - это не шутка. В нативной точности FP16 модели нужно около 240 ГБ памяти. На Mac с 128 ГБ unified memory это невозможно. Поэтому единственный путь - агрессивное квантование.

Сообщество уже подготовило квантованные версии в форматах MLX (оптимизированный для Apple Silicon) и GGUF. Для комфортной работы с контекстом 8k-16k нужно:

Mac с чипом M3 Max или M4 Max с 96-128 ГБ памяти.
Квантование как минимум до 4-бит (например, специальная дистиллированная версия).
Использование оптимизаций типа LatentMoE, которые активируют не все параметры сразу.

На MacBook Air или Mac mini с 16-24 ГБ памяти эта модель не запустится. Даже с квантованием. Не обольщайтесь. Это инструмент для тех, у кого топовое железо.

1Находим модель на Hugging Face

Репозиторий называется JANG_2L/Nemotron-3-Super-120B-Uncensored. Там лежат веса в нескольких форматах: оригинальные Safetensors, GGUF и MLX. Для Mac с чипами Apple Silicon оптимально использовать MLX-версию.

# Клонируем репозиторий с моделью
# Внимание: веса занимают 60-80 ГБ в зависимости от квантования
# Убедитесь в наличии места на диске
git lfs install
git clone https://huggingface.co/JANG_2L/Nemotron-3-Super-120B-Uncensored-MLX-4bit

2Настраиваем окружение и запускаем

Сообщество создало кастомный скрипт для запуска на MLX, потому что стандартный mlx-lm с этой архитектурой не справляется. В репозитории вы найдете inference.py с поддержкой гибридного внимания.

# Устанавливаем зависимости для MLX
pip install mlx-lm==0.6.2  # последняя стабильная версия на март 2026

# Переходим в папку с моделью и запускаем скрипт
cd Nemotron-3-Super-120B-Uncensored-MLX-4bit
python inference.py --prompt "Ваш запрос здесь" --max-tokens 512

💡

Скрипт inference.py использует оптимизации для Mamba attention и LatentMoE. Если у вас Mac с 64 ГБ памяти, добавьте флаг --cache-mode "disk", чтобы часть кэша сбрасывалась на SSD. Это замедлит работу, но позволит запустить модель.

А что на практике? Примеры использования

Uncensored-модели - это палка о двух концах. С одной стороны, они решают сложные аналитические задачи без оглядки на политкорректность. С другой - могут генерировать опасный контент.

Чем полезна эта конкретная модель:

Анализ кода с уязвимостями: Модель без колебаний укажет на потенциальные security holes, которые цензурированные аналоги замалчивают.
Историческое моделирование: Сценарии развития событий без современных этических фильтров.
Научная полемика: Генерация аргументов за и против спорных гипотез в физике, биологии.
Стресс-тесты для модерации: Создание контента для тренировки систем фильтрации.

Но запомните: это инструмент для исследования, не для производства. Модель может выдавать токсичный, опасный или незаконный контент. Используйте ее в изолированном окружении.

Кому вообще это нужно?

Эта модель - не для всех. Она для трех типов людей:

Исследователи AI безопасности: Те, кто изучает, как ломаются большие языковые модели, когда с них снимают ограничения.
Разработчики специализированных корпоративных систем: Кому нужен максимально непредвзятый анализ рисков или сценариев. (Да, такие есть).
Энтузиасты с дорогим железом: Кто просто хочет потестировать границы возможного на своем Mac Pro или Mac Studio.

Если вы ищете модель для повседневных задач - генерации текста, ответов на вопросы, помощи в кодинге - посмотрите на Qwen 3.5 или MiniMax m2.1 DWQ. Они почти так же умны, но менее опасны и требуют меньше ресурсов.

Что будет дальше с uncensored моделями

Тренд на аблирование больших моделей набирает обороты. Сообщество научилось эффективно удалять слои цензуры, сохраняя интеллект. К концу 2026 года, я прогнозирую, появление открытой uncensored-модели с результатом MMLU выше 97%. И она будет работать на Mac с M5 чипом со 192 ГБ памяти.

Но главный вопрос не в производительности. Главный вопрос - где провести черту между свободой исследования и социальной ответственностью. Nemotron 3 Super Uncensored - это яркий пример того, что происходит, когда эту черту стирают. Используйте с умом. Или не используйте вообще.

Подписаться на канал

Nemotron 3 Super Uncensored для Mac: рекордные 96% на MMLU и установка с Hugging Face