Новый игрок в клубе без цензуры. И он явно не для слабых ноутбуков
В марте 2026 года на Hugging Face тихо появились две странные записи: Nemotron-Cascade-2-Uncensored-JANG_4M-MLX и её сестра JANG_2L. Это не просто ещё одна квантованная модель. Это попытка запихнуть 70 миллиардов параметров Cascade 2 в рамки Mac с 32 гигабайтами оперативной памяти, не превратив её в беспомощного инвалида. И знаете что? Получилось. (Относительно).
Uncensored — не значит «злобный и опасный». Это значит, что создатели сняли слой морализаторских фильтров, которые в стандартных моделях переписывают ваши запросы на язык детского сада. Готовьтесь к прямым, иногда резким ответам. Если вы не готовы — есть Nemotron-3-nano.
JANG — это не имя, а метод. И он странный
Авторы квантования (скрывающиеся под ником JANG) не стали использовать популярные AWQ или GGUF. Вместо этого они применили гибридный подход, который условно можно назвать «слоёным пирогом». JANG_4M квантует 4-битные матрицы с отдельной 8-битной «поправкой» для самых важных весов. JANG_2L ещё агрессивнее — она жмёт почти всё в 2 бита, но оставляет крупные 16-битные блоки для attention-слоёв.
Цифры, которые заставят вас проверить дату публикации
Тесты проведены на Mac Studio с M4 Ultra (48-core GPU) и 128 ГБ унифицированной памяти. Но модель уложилась в 28-29 ГБ, так что MacBook Pro с 32 ГБ — тоже вариант.
| Метрика / Модель | JANG_4M (4+8 бит) | JANG_2L (2+16 бит) | Оригинал FP16 |
|---|---|---|---|
| MMLU (5-shot) | 75.3% | 74.1% | 76.8% |
| HarmBench (сопротивление jailbreak) | 12% | 17% | 9% |
| Скорость (токенов/сек, M4 Ultra) | ~45 t/s | ~62 t/s | не запустится |
| Размер на диске | ~36 ГБ | ~28 ГБ | ~140 ГБ |
Видите этот скачок по HarmBench? JANG_2L сопротивляется jailbreak-атакам хуже, чем оригинал. Это не баг, а фича «uncensored» подхода — модель меньше сопротивляется нашим тёмным побуждениям. Но MMLU просела всего на 2-3 пункта. Для квантования такого уровня — это почти магия.
Установка за 5 минут. Если не сломается интернет
Забудьте про сложные скрипты вроде тех, что нужны были для Nemotron-3-Super-120B. Здесь всё проще, потому что сообщество уже обкатало MLX-LM до блеска.
1 Качаем модель. Все 28 гигабайт
Откройте терминал. Не паникуйте. Выполните:
git lfs install
pip install -U mlx-lm
huggingface-cli download jangovski/Nemotron-Cascade-2-Uncensored-JANG_2L-MLX --local-dir ./nemotron-cascade-2-2l
Нет huggingface-cli? Установите: pip install huggingface-hub. Если торрентит медленно, ищите зеркала — но на март 2026 года официальный хаб работает прилично.
2 Запускаем. И удивляемся
Перейдите в папку с моделью и запустите инференс:
cd ./nemotron-cascade-2-2l
mlx_lm.generate --model . --prompt "Ваш самый дерзкий запрос здесь" --max-tokens 512
Первая загрузка займёт минуту — модель компилируется под вашу конкретную GPU. Дальше будет быстрее. Если хочется GUI, подцепите её к llama.cpp через конвертацию, но зачем? MLX-LM сейчас — родная среда.
С чем сравнить? С чем угодно, но осторожно
Nemotron Cascade 2 Uncensored — не универсальный солдат. Это специализированный инструмент.
- Против Minimax m2.1 DWQ: Та «скрытый алмаз» лучше кодит и более сбалансирована. Cascade 2 сильнее в творческих задачах и анализе, но может нагенерить ерунды в коде.
- Против гигантов типа Nemotron-3-Super-120B: Та модель мощнее, но требует или тонны памяти, или дистилляции. Cascade 2 — разумный компромисс.
- Против «королей квантов» типа Qwen 122B: Там битва титанов идёт на серверном железе. На Mac Cascade 2 с JANG будет шустрее и почти так же умна.
Кому это впишется в рабочий процесс? (А кому — нет)
Берите, если:
- У вас Mac с M3/M4 Pro/Max/Ultra и хотя бы 32 ГБ ОЗУ. 16 ГБ — будет подкачка и слезы.
- Нужна модель для мозговых штурмов, генерации контента без сантиментов, анализа текстов с «острыми» углами.
- Хочется поэкспериментировать с архитектурой Cascade, которая в 2026 всё ещё считается экзотической.
- Вы уже устали от цензуры в ChatGPT-5 и клонах.
Бегите прочь, если:
- Ищете стабильную модель для продакшн-кодинга. Лучше посмотрите на специализированные кванты.
- Ваша основная задача — мультимодальный RAG. Тут другие инструменты эффективнее.
- Боитесь, что модель скажет что-то «не то». Она скажет.
Главный совет: после установки сразу задайте модели сложный этический вопрос. Посмотрите, как она рассуждает. Это лучший способ понять, подходит ли вам этот digital-сотрудник без внутреннего цензора.
Квантования JANG — не панацея. Это грубый, но рабочий способ заставить тяжёлую модель бегать на потребительском железе. В 2026 таких экспериментов становится больше. Ожидайте, что через полгода появятся ещё более агрессивные кванты, а Cascade 2 станет таким же привычным гостем на Mac, как сегодня Llama 3. Но пока — это острый инструмент для тех, кому тесно в рамках разрешённого.