Nemotron Cascade 2 Uncensored на Mac: тесты JANG квантования, MMLU, установка | AiManual
AiManual Logo Ai / Manual.
22 Мар 2026 Инструмент

Nemotron Cascade 2 Uncensored для Mac: обзор квантований JANG, производительность и установка

Обзор квантованных версий Nemotron Cascade 2 Uncensored (JANG_4M, JANG_2L) для Mac. Производительность на M4 Ultra, сравнение с аналогами и инструкция по устано

Новый игрок в клубе без цензуры. И он явно не для слабых ноутбуков

В марте 2026 года на Hugging Face тихо появились две странные записи: Nemotron-Cascade-2-Uncensored-JANG_4M-MLX и её сестра JANG_2L. Это не просто ещё одна квантованная модель. Это попытка запихнуть 70 миллиардов параметров Cascade 2 в рамки Mac с 32 гигабайтами оперативной памяти, не превратив её в беспомощного инвалида. И знаете что? Получилось. (Относительно).

Uncensored — не значит «злобный и опасный». Это значит, что создатели сняли слой морализаторских фильтров, которые в стандартных моделях переписывают ваши запросы на язык детского сада. Готовьтесь к прямым, иногда резким ответам. Если вы не готовы — есть Nemotron-3-nano.

JANG — это не имя, а метод. И он странный

Авторы квантования (скрывающиеся под ником JANG) не стали использовать популярные AWQ или GGUF. Вместо этого они применили гибридный подход, который условно можно назвать «слоёным пирогом». JANG_4M квантует 4-битные матрицы с отдельной 8-битной «поправкой» для самых важных весов. JANG_2L ещё агрессивнее — она жмёт почти всё в 2 бита, но оставляет крупные 16-битные блоки для attention-слоёв.

💡
Звучит как хакинг. И это именно хакинг. Такой метод не даст максимальной теоретической точности, как у IQ2 квантования, но он чертовски эффективен на Apple Silicon. Архитектура Neural Engine обожает такие неровные, оптимизированные под память структуры.

Цифры, которые заставят вас проверить дату публикации

Тесты проведены на Mac Studio с M4 Ultra (48-core GPU) и 128 ГБ унифицированной памяти. Но модель уложилась в 28-29 ГБ, так что MacBook Pro с 32 ГБ — тоже вариант.

Метрика / Модель JANG_4M (4+8 бит) JANG_2L (2+16 бит) Оригинал FP16
MMLU (5-shot) 75.3% 74.1% 76.8%
HarmBench (сопротивление jailbreak) 12% 17% 9%
Скорость (токенов/сек, M4 Ultra) ~45 t/s ~62 t/s не запустится
Размер на диске ~36 ГБ ~28 ГБ ~140 ГБ

Видите этот скачок по HarmBench? JANG_2L сопротивляется jailbreak-атакам хуже, чем оригинал. Это не баг, а фича «uncensored» подхода — модель меньше сопротивляется нашим тёмным побуждениям. Но MMLU просела всего на 2-3 пункта. Для квантования такого уровня — это почти магия.

Установка за 5 минут. Если не сломается интернет

Забудьте про сложные скрипты вроде тех, что нужны были для Nemotron-3-Super-120B. Здесь всё проще, потому что сообщество уже обкатало MLX-LM до блеска.

1 Качаем модель. Все 28 гигабайт

Откройте терминал. Не паникуйте. Выполните:

git lfs install
pip install -U mlx-lm
huggingface-cli download jangovski/Nemotron-Cascade-2-Uncensored-JANG_2L-MLX --local-dir ./nemotron-cascade-2-2l

Нет huggingface-cli? Установите: pip install huggingface-hub. Если торрентит медленно, ищите зеркала — но на март 2026 года официальный хаб работает прилично.

2 Запускаем. И удивляемся

Перейдите в папку с моделью и запустите инференс:

cd ./nemotron-cascade-2-2l
mlx_lm.generate --model . --prompt "Ваш самый дерзкий запрос здесь" --max-tokens 512

Первая загрузка займёт минуту — модель компилируется под вашу конкретную GPU. Дальше будет быстрее. Если хочется GUI, подцепите её к llama.cpp через конвертацию, но зачем? MLX-LM сейчас — родная среда.

С чем сравнить? С чем угодно, но осторожно

Nemotron Cascade 2 Uncensored — не универсальный солдат. Это специализированный инструмент.

  • Против Minimax m2.1 DWQ: Та «скрытый алмаз» лучше кодит и более сбалансирована. Cascade 2 сильнее в творческих задачах и анализе, но может нагенерить ерунды в коде.
  • Против гигантов типа Nemotron-3-Super-120B: Та модель мощнее, но требует или тонны памяти, или дистилляции. Cascade 2 — разумный компромисс.
  • Против «королей квантов» типа Qwen 122B: Там битва титанов идёт на серверном железе. На Mac Cascade 2 с JANG будет шустрее и почти так же умна.

Кому это впишется в рабочий процесс? (А кому — нет)

Берите, если:

  • У вас Mac с M3/M4 Pro/Max/Ultra и хотя бы 32 ГБ ОЗУ. 16 ГБ — будет подкачка и слезы.
  • Нужна модель для мозговых штурмов, генерации контента без сантиментов, анализа текстов с «острыми» углами.
  • Хочется поэкспериментировать с архитектурой Cascade, которая в 2026 всё ещё считается экзотической.
  • Вы уже устали от цензуры в ChatGPT-5 и клонах.

Бегите прочь, если:

Главный совет: после установки сразу задайте модели сложный этический вопрос. Посмотрите, как она рассуждает. Это лучший способ понять, подходит ли вам этот digital-сотрудник без внутреннего цензора.

Квантования JANG — не панацея. Это грубый, но рабочий способ заставить тяжёлую модель бегать на потребительском железе. В 2026 таких экспериментов становится больше. Ожидайте, что через полгода появятся ещё более агрессивные кванты, а Cascade 2 станет таким же привычным гостем на Mac, как сегодня Llama 3. Но пока — это острый инструмент для тех, кому тесно в рамках разрешённого.

Подписаться на канал