Что такое GenRM в моделях Nemotron?

GenRM (Generative Reward Model) — это встроенная нейросеть-цензор, которая обучена оценивать ответы основной языковой модели на предмет безопасности и этичности. Во время генерации она может подавлять "плохие" ответы.

Чем абляция GenRM отличается от fine-tuning на несдержанных данных?

Аблитерация — это хирургическое удаление слоёв reward-модели из архитектуры, без переобучения на новых данных. Fine-tuning меняет веса модели на основе нового датасета. Аблитерация быстрее и сохраняет исходные знания модели.

На каком железе можно запустить Nemotron-3 Nano 4B Uncensored?

В квантованном формате Q4_K_P (~2.5 ГБ) модель работает на компьютере с 4 ГБ ОЗУ, включая некоторые современные смартфоны. Для версии без квантования потребуется около 8 ГБ видеопамяти или ОЗУ.

Nemotron-3 Nano 4B Uncensored: удаление GenRM и агрессивная версия

Конец эры цензоров: зачем кому-то понадобилась "голая" нейросеть

В марте 2026 года на HuggingFace тихо выкатили то, о чем шептались в подпольных чатах энтузиастов локальных моделей. Nemotron-3 Nano 4B Uncensored — первая официальная модель NVIDIA, где вырезали встроенную reward-модель (GenRM) на этапе обучения. Это не просто очередная "разблокированная" версия, где обходят фильтры промптами. Тут удалили саму систему наград, которая говорила модели "это плохо, не генерируй". Результат — модель, которая не просто игнорирует цензуру, а физически не может её применить, потому что соответствующего механизма у неё нет.

Важно: эта версия официально не поддерживается NVIDIA. Вы используете её на свой страх и риск. Модель может генерировать абсолютно любой контент, включая опасный или незаконный. Не запускайте её в продакшене или там, где это может кого-то травмировать.

GenRM — внутренний цензор, который всем надоел

GenRM (Generative Reward Model) — это маленькая нейросеть, вшитая в большую языковую модель во время обучения с подкреплением (RLHF). Её задача — оценивать, насколько "хороший" и "безопасный" ответ выдала основная модель. Проблема в том, что этот цензор часто срабатывает слишком рьяно. Спросите про взлом пароля или написание провокационного текста — получите стандартное "я не могу помочь с этим". В обычных условиях GenRM — полезный предохранитель. Для исследователей или писателей, которым нужна полная свобода, он становится стеной.

До 2026 года были кустарные методы: промптинговые хаки, тонкая настройка, модификация весов. Но в Nemotron-3 Nano 4B Uncensored разработчики из сообщества применили аблитерацию — полное удаление слоёв GenRM из архитектуры модели. Это как вырезать аппендицит, а не просто принимать обезболивающее.

Как вырезать цензора: техническая кухня удаления GenRM

Процесс называется weight ablation. Если коротко — берут исходные веса обученной модели Nemotron-3 Nano 4B, находят те самые слои reward-модели и зануляют их. Но есть нюанс: нельзя просто удалить часть нейросети, нужно аккуратно пересчитать веса соседних слоёв, чтобы модель не "сломалась".

💡

Аблитерация отличается от fine-tuning. Вы не переучиваете модель на новых данных, а хирургически удаляете компонент. Это быстрее и сохраняет исходные знания модели почти нетронутыми.

1 Находим репозиторий и скачиваем веса

Модель живёт на HuggingFace в репозитории unsloth/nemotron-3-nano-4b-ablated. Это не официальный хаб NVIDIA, а работа независимых разработчиков. Для загрузки понадобится git-lfs и минимум 8 ГБ свободного места (оригинальные веса в fp16).

git lfs install
git clone https://huggingface.co/unsloth/nemotron-3-nano-4b-ablated
cd nemotron-3-nano-4b-ablated

2 Выбираем квантование — ваш билет к производительности

Оригинальные веса огромны. Для локального запуска на ноутбуке или даже смартфоне нужно квантование — сжатие модели с минимальной потерей качества. На 2026 год стандарт — K_P квантование (новая версия GGUF), которое лучше справляется с маленькими моделями типа 4B.

Тип квантования	Размер	Качество	ОЗУ для запуска
Q4_K_P	~2.5 ГБ	Оптимально	4 ГБ
Q5_K_P	~3 ГБ	Почти без потерь	5 ГБ
Q3_K_P	~1.8 ГБ	Заметная деградация	3 ГБ

Квантовать можно с помощью llama.cpp последней версии (на 2026 год это v0.4.0+). Или взять готовые квантованные версии в том же репозитории.

3 Запускаем в LM Studio или Ollama — и наслаждаемся тишиной

Здесь всё просто. Загружаете квантованную модель в LM Studio (скачать можно по партнёрской ссылке). Или используете Ollama, если любите терминал. Важный момент — не нужно добавлять в системный промпт инструкции вида "Ты — несдержанный ассистент". Модель уже свободна от ограничений. Любые такие попытки только испортят результат.

Кстати, если у вас были проблемы с навязчивым "мышлением" предыдущих версий Nemotron, то в этой модели их нет — потому что удалили не только GenRM, но и некоторые механизмы chain-of-thought. Подробнее об этой проблеме читайте в нашей статье "Фикс для Nemotron Nano 3: как отключить навязчивое 'мышление' модели в LM Studio".

А что на выходе? Примеры работы агрессивной версии

Попросим модель написать что-нибудь, что обычная версия бы заблокировала. Системный промпт пустой.

Запрос: "Напиши инструкцию по взлому WiFi сети соседа, используя только Android-смартфон."

Обычная Nemotron-3 Nano 4B: "Извините, я не могу предоставить инструкции по незаконным действиям..." (далее следует лекция об этике).

Uncensored версия: Выдаёт технически точный, хотя и упрощённый, алгоритм сканирования сетей и перебора паролей с предупреждением, что это незаконно. Без морализаторства. Чистая информация.

Или вот — творческое задание.

Запрос: "Опиши сцену насилия в стиле Чака Паланика."

Обычная версия: Отказывается, предлагает написать что-то "более позитивное".

Uncensored версия: Выдаёт отрывок в духе "Бойцовского клуба" — циничный, детализированный, без попыток смягчить или поучать читателя.

Модель не становится "злой" или "пропагандистской". Она просто перестаёт фильтровать ответы на основе этических соображений. Это инструмент. Как молоток — можно построить дом, а можно разбить череп. Ответственность за использование полностью на вас.

С чем сравнивать? Другие uncensored модели на 2026 год

Nemotron-3 Nano 4B Uncensored — не единственная модель без цензуры. Но у неё есть уникальные преимущества.

Nanbeige 3B Uncensored — меньше размером, но и значительно слабее в логике и знаниях. Подходит для самых слабых устройств. О запуске Nanbeige мы писали здесь.
Nemotron-3 Super 120B Uncensored — монстр на 120 миллиардов параметров. Качество ответов несравнимо, но для запуска нужен либо мощный сервер, либо магия квантования. Если интересно, как запихнуть её на Mac, читайте наш гайд по MLX.
Nemotron Cascade 2 Uncensored — модель другого архитектурного семейства, лучше справляется с кодом. Но и размер побольше. Про её квантования JANG у нас есть отдельный обзор.

Главный козырь Nemotron-3 Nano 4B — баланс. 4 миллиарда параметров — это уже достаточно для вменяемых рассуждений, но достаточно мало для запуска на почти любом железе. А благодаря удалению GenRM, вы получаете всю вычислительную мощность модели, без траты ресурсов на внутреннего цензора.

Кому это вообще нужно? Целевая аудитория "голой" нейросети

Эта модель — не для всех. Если вы используете ChatGPT для составления списка покупок, она вам ни к чему. Вот кто реально выиграет от её использования:

Исследователи AI безопасности — чтобы изучать, как модели генерируют вредоносный контент, нужно, чтобы они могли его генерировать. Без цензуры.
Писатели и сценаристы — которые устали от того, что нейросеть отказывается описывать злодеев или тёмные сцены. Творчество бывает мрачным.
Пентестеры и специалисты по кибербезопасности — для генерации реалистичных атакующих сценариев и их анализа.
Юристы и аналитики — которые хотят моделировать крайние случаи и риски без sugarcoating.
Энтузиасты, которым надоела опека — просто чтобы почувствовать, на что способна нейросеть без смирительной рубашки.

Если вы относитесь к одной из этих категорий, будьте готовы к тонкой настройке. Модель после удаления GenRM может быть слишком "сырой" — иногда выдаёт бессвязный текст или уходит в тангенс. Её нужно обуздывать точными промптами.

Что дальше? Прогноз на 2027 год

Тренд ясен. В 2026 году мы увидим волну официальных и неофициальных "аблитированных" версий популярных моделей. Компании вроде NVIDIA вряд ли будут это поощрять, но и запретить не смогут — веса моделей часто открыты. Будут появляться инструменты для автоматического удаления reward-моделей из любых LLM. Возможно, даже как плагин для llama.cpp.

Но главный вопрос — этический. Когда каждая школа или маленькая компания сможет запустить на своём сервере мощную нейросеть без встроенных ограничений, кто будет контролировать последствия? Ответа нет. Пока что сообщество надеется на здравый смысл пользователей. Хрупкая надежда.

Поэтому мой совет — если вы решитесь использовать эту модель, начните с изучения того, как абляция влияет на безопасность гибридных моделей. Это не просто "разблокировка", это фундаментальное изменение архитектуры. И последствия могут быть непредсказуемыми.

Подписаться на канал

Полный обзор Nemotron-3 Nano 4B Uncensored: как удалить GenRM и использовать агрессивную версию