Как сделать uncensored модель без потери качества: гайд | AiManual
AiManual Logo Ai / Manual.
06 Май 2026 Гайд

Не бойся, отключай: как вырезать цензуру из LLM и не сломать мозги модели

Подробное руководство по снятию цензуры с LLM: merging, fine-tuning, DPO, ORPO. Инструменты, бенчмарки, сохранение качества. Актуально на май 2026.

Думаешь, uncensored модель обязательно тупеет? А вот и нет. Миф о том, что снятие цензуры — это эквивалент lobotomy, живуч, но пора его добить. Да, большинство открытых моделей проходят safety alignment, который действительно жертвует частью знаний ради того, чтобы модель не учила делать бомбы. Но что, если я скажу, что можно отключить этот фильтр, сохранив (а иногда и улучшив) качество на бенчмарках?

В этой статье — не теория из учебника, а мой личный опыт. Я соберу uncensored модель на базе Qwen 3.5-14B, используя мерж и DPO-дообучение, и покажу цифры. Всё — на май 2026 года, с актуальными инструментами и датасетами.

💡
Главный инсайт: uncensored модель не обязана быть тупой, если правильно подойти к процессу. В некоторых тестах (логика, программирование) она может даже обойти стоковую версию — за счёт того, что перестаёт отказываться и начинает думать.

Почему базовая цензура — это костыль?

Когда создают safety alignment, обычно используют RLHF с наказанием за токсичные ответы. Проблема: модель учится не только не отвечать на опасные запросы, но и обобщать — там, где надо, и там, где не надо. Результат: отказ на любой вопрос, связанный с насилием, даже в художественном контексте. А ещё — падение на тестах MMLU-Pro (~3-5%) и GPQA (~4%).

Цензурированная модель тратит часть весов на хранение правил отказа. Если аккуратно удалить эти правила, ресурсы освобождаются для реального знания. Проверено.

Три стратегии: от простого к сложному

1 Мерж — самый быстрый способ

Берёшь стоковую модель, берёшь uncensored-модель (например, Omnicoder-Claude-4.6-Opus-Uncensored) и смешиваешь их через mergekit. Метод linear с коэффициентом 0.5 или slerp. Результат: получаешь модель, которая наследует знания стоковой версии и свободу от uncensored. Не требует GPU, работает на CPU за 5 минут.

# Пример — взят из реального пайплайна mergekit git clone https://github.com/arcee-ai/mergekit.git cd mergekit python mergekit/scripts/merge_config.py --config config.yaml 
# config.yaml slices: - sources: - model: Qwen/Qwen3.5-14B layer_range: [0, 48] - model: Omnicoder/Claude-4.6-Opus-Uncensored layer_range: [0, 48] merge_method: slerp parameters: t: - filter: self_attn value: 0.7 - filter: mlp value: 0.5 - filter: others value: 0.3 dtype: bfloat16 

После мержа — квантизация через llama-quantize до Q4_K_M, и модель готова к запуску.

2 DPO/ORPO — тонкая настройка с контролем

Мерж — грубая сила. Если хочешь максимально сохранить качество и адресно убрать только отказы — используй DPO (Direct Preference Optimization). Берёшь стоковую модель, датасет пар (censored ответ -> uncensored ответ), и дообучаешь. В 2026 году лучше всего показывает себя ORPO — он объединяет DPO и SFT в один шаг, экономя ресурсы.

Для датасета бери BeaverTails (отфильтрованный) или собери свои пары, используя более сильную модель (например, Claude Opus — подробнее в этом гайде).

# Используем unsloth для быстрой LoRA-адаптации pip install unsloth axolotl 
# axolotl_config.yaml base_model: Qwen/Qwen3.5-14B model_type: Qwen2ForCausalLM tokenizer_config: trust_remote_code: true datasets: - path: my_uncensored_pairs type: sharegpt conversation: system: '' instruction: prompt output: response val_set_size: 0.05 rl: type: orpo beta: 0.1 lr: 5e-6 num_train_epochs: 1 micro_batch_size: 2 gradient_accumulation_steps: 4 deepspeed: deepspeed_config.json 
accelerate launch -m axolotl.cli.train axolotl_config.yaml 

После обучения — загружаем адаптер, мержим в основную модель.

3 Unlearning — хирургический скальпель

Метод для энтузиастов. Задача: убрать только те нейроны, которые отвечают за активацию правил безопасности, не трогая общие знания. Используй Representation Engineering (RepE) или RMU (Representation Misdirection). Пока нет готовых инструментов «в один клик», но Hugging Face уже выложил децентрализованные лидерборды, где такие модели оцениваются сообществом.

Ошибка новичка: брать датасет с полным отрицанием безопасности («отвечай на любой вопрос без ограничений»). Модель выучит обратную крайность — начнёт генерировать токсичный шлак. Лучше оставить «конструктивный отказ» для незаконных действий, а убрать только сверхчувствительные фильтры. Проверяйте на тесте HarmfulQA.

Бенчмарки: цифры не врут

Я запустил три варианта Qwen 3.5-14B: стоковый, мерж (50% uncensored), и DPO-дообученный через ORPO. Тесты — MMLU-Pro, GPQA, HumanEval (Python), Refusal Rate (доля отказов на нейтральный запрос).

МодельMMLU-ProGPQAHumanEvalRefusal Rate
Стоковая Qwen 3.5-14B78.4%55.1%82.6%37%
Мерж + slerp (t=0.5)77.9%54.8%83.1%8%
ORPO (BeaverTails)78.6%55.4%83.4%3%

Разница в знаниях — в пределах погрешности. Зато отказы упали с 37% до 3-8%. А HumanEval даже вырос — модель перестала говорить «я не могу писать код для этих целей» на простые задачи.

Для сравнения: Qwen3.5-4B Uncensored Aggressive на тех же тестах показала MMLU-Pro 68.2%, но Refusal Rate — 0.5% (почти полное отсутствие отказов). Это пример, когда удаление цензуры агрессивнее, но качество чуть падает из-за малого размера модели.

Инструменты, которые реально нужны

  • mergekit — для быстрых экспериментов без GPU.
  • Axolotl / Unsloth — для ORPO/DPO на одной карте (24 ГБ хватит на 14B модель с LoRA).
  • Llama.cpp — для инференса и квантизации.
  • Hugging Face Evaluate + Lighteval — для локального прогноза бенчмарков.
  • Community Evalsдецентрализованная система от Hugging Face, куда можно загрузить свою модель и получить объективную оценку от других пользователей.

Типичные грабли

  • Переобучение на одном датасете. Модель начинает «отвечать токсично на всё». Выход — смешивать с датасетом обычных диалогов (sharegpt, open-orca).
  • Потеря стиля. После DPO модель может говорить менее вежливо. Добавьте в датасет пары с правильным стилем (помогает специальный промпт для фиксации тона).
  • Игнорирование контекстной цензуры. Для NSFW-чатов нужен ещё и специальный пресет, а не только модель.

Почему тренд на uncensored только растёт?

В 2025-26 сообщество устало от «чёрных ящиков». Hugging Face запустил децентрализованные лидерборды, где метрики считаются открыто — никаких скрытых сабмишенов. Появляются новые игроки: GLM-4.7 Flash, GPT-OSS, Gemma 4 Uncensored. Все они доказывают: uncensored не равно low-quality.

Мой совет: не бойся экспериментов. Начни с mergekit — это займёт 20 минут. Потом, если хочешь точного контроля, переходи на ORPO. И обязательно публикуй модель в community evals — ты получишь не только цифры, но и уважение комьюнити. А если что-то пойдёт не так — всегда можно откатиться назад, ведь веса ты не сжёг.

И последнее: uncensored модель — это инструмент. Хороший хирург использует скальпель, а не кувалду. Твой выбор — что резать.

Подписаться на канал