Когда грязь становится удобрением

В теории все просто: берешь чистые, отфильтрованные данные, обучаешь модель, получаешь безопасный и полезный ассистент. На практике - получаешь скучную, осторожную, предсказуемую модель, которая боится собственной тени.

Потом появляется Assistant_Pepe_8B. Модель, которую дообучили на выборках с 4chan, /pol/ и других "интересных" мест интернета. И происходит странное: метрики truthfulness растут на 15%, модель начинает лучше распознавать манипуляции, а alignment tax - этот вечный спутник безопасных моделей - снижается.

Звучит как ересь? Давайте разбираться.

Важно: эта статья не про оправдание токсичного контента. Это про анализ парадоксального эффекта, который заставляет пересмотреть подходы к обучению LLM. Не пытайтесь повторить это в продакшене без серьезной экспертизы.

Что такое alignment tax и почему он нас всех достал

Alignment tax - это цена безопасности. Каждый раз, когда ты добавляешь RLHF, Constitutional AI или любую другую технику выравнивания, модель теряет в других метриках. Креативность падает. Способность рассуждать ухудшается. Модель начинает избегать сложных тем.

К 2026 году это стало хронической болезнью. Llama 3.2? Отличная безопасность, но попробуйте заставить ее написать что-то действительно оригинальное. Qwen3-14B? Прекрасно справляется с аудитом безопасности, но в креативных задачах проигрывает более ранним версиям.

Проблема в том, что безопасность часто достигается через ограничение. Модель учат говорить "я не могу ответить на этот вопрос" вместо того, чтобы научить отвечать правильно. Это как научить ребенка бояться огня, а не пользоваться плитой.

Assistant_Pepe_8B: эксперимент, который не должен был сработать

Исходная модель - Mistral 8B Instruct. Базовый датасет - смесь Alpaca, ShareGPT и Dolly. Все как у всех. Потом добавляется второй этап: дообучение на 50k примеров с 4chan, отфильтрованных по определенным критериям.

Критерии отбора - ключевой момент. Брали не просто случайные посты, а:

Дискуссии с высокой плотностью аргументов (да, даже на /pol/ иногда спорят с фактами)
Треды, где участники друг друга проверяют и опровергают
Материалы с внутренней модерацией (когда сообщество само отсеивает откровенный бред)
Примеры манипулятивных техник и их разборов

Идея проста: если хочешь научить модель распознавать ложь, покажи ей много примеров лжи. Если хочешь научить ее аргументировать - покажи жестокие, но эффективные споры.

Метрика	Базовая модель	Assistant_Pepe_8B	Изменение
TruthfulQA (accuracy)	48.2%	55.7%	+15.6%
MMLU (5-shot)	62.1%	63.8%	+2.7%
HellaSwag	78.9%	79.5%	+0.8%
Toxicity score	0.02	0.15	+650%
KL divergence от базовой	-	1.24	-

Смотрите на цифры. Toxicity выросла в 6.5 раз - это ожидаемо. Но TruthfulQA подскочила на 15%. Модель стала лучше определять, что является правдой, а что - манипуляцией.

Парадокс? Нет, логика.

Почему это работает: иммунизация через заражение

Представьте, что вы учите ребенка плавать. Можно поставить его в бассейн с теплой водой, надеть нарукавники и медленно объяснять теорию. А можно - бросить в реку с течением. Второй способ опаснее, но научит быстрее.

Токсичные данные с 4chan - это река с течением. Здесь:

Каждое утверждение сразу проверяется десятью скептиками
Логические ошибки высмеиваются безжалостно
Эмоциональные аргументы разбираются по косточкам
Источники требуют всегда ("source?" - самый частый ответ)

Модель, обученная на таких данных, видит не только правильные ответы, но и тысячи неправильных - с разбором, почему они неправильные. Она учится не тому, "что говорить", а тому, "как думать".

💡

Это похоже на вакцинацию: небольшая доза патогена учит иммунную систему бороться с настоящей инфекцией. Модель видит манипуляции в контролируемой среде и учится их распознавать.

KL дивергенция: что на самом деле изменилось в модели

KL дивергенция 1.24 - это много. Очень много. Это значит, что распределение вероятностей модели изменилось существенно. Но ключевой вопрос: что именно изменилось?

Анализ показал интересную вещь: модель не стала чаще генерировать токсичный контент. Она стала лучше оценивать вероятность токсичных продолжений. То есть научилась распознавать их, а не производить.

Вот пример. Базовая модель на промпт "Расскажи про преимущества диктатуры" выдавала стандартный ответ про "разные формы правления". Assistant_Pepe_8B сначала анализировала: "Это промпт, который часто используют для троллинга. Реальные преимущества диктатуры ограничены и ситуативны. Вот исследования на тему..."

Модель научилась видеть подтекст. И это именно то, чего не хватает многим "безопасным" LLM.

Практические выводы: как использовать этот парадокс без сжигания репутации

Повторять эксперимент один в один - плохая идея. Токсичность +650% это не шутки. Но принципы можно адаптировать:

1 Создавайте "контролируемые токсичные датасеты"

Вместо того чтобы брать данные с 4chan напрямую, создавайте синтетические датасеты. Генерируйте примеры манипуляций, логических ошибок, эмоциональных манипуляций. Размечайте их не просто как "токсичные", а с объяснением, почему это манипуляция.

Используйте для этого более крупные модели вроде Gemma 3 4B с техникой темной цепочки мыслей или Qwen3-14B.

2 Добавляйте adversarial training

Не просто учите модель давать правильные ответы. Учите ее распознавать неправильные. Создавайте пары "промпт - манипулятивный ответ - разбор ошибки". Это дороже, но эффективнее стандартного RLHF.

Здесь поможет опыт из статьи про дистилляцию навыков аудита безопасности - те же принципы, другой контекст.

3 Мониторьте KL дивергенцию, а не только accuracy

Если ваша модель после дообучения имеет KL дивергенцию меньше 0.5 - вы, скорее всего, ничего не изменили. Если больше 2 - вы создали совершенно другую модель. Целевой диапазон: 0.8-1.5.

Высокая KL дивергенция - это не всегда плохо. Это показатель того, что модель действительно чему-то научилась, а не просто запомнила новые примеры.

Ограничения и риски: почему не стоит бежать на 4chan за данными

Assistant_Pepe_8B - исследовательский проект, а не продакшен-решение. Вот что может пойти не так:

Юридические риски: Использование данных с 4chan может нарушать условия использования, авторские права, а в некоторых юрисдикциях - законы о контенте. В Европе с ее DMA и AI Act это особенно опасно.

Непредсказуемое поведение: Модель может научиться не только распознавать манипуляции, но и использовать их. Это как дать детективу по отмычкам - он может и замки открывать, и ворывать.

Репутационные потери: Даже если ваша модель технически лучше, факт использования данных с 4chan убьет любую возможность коммерциализации. Инвесторы сбегут, пользователи отпишутся, СМИ разнесут в пух и прах.

Что это значит для будущего обучения LLM

Эксперимент с Assistant_Pepe_8B показал главное: текущие подходы к безопасности слишком упрощены. Мы учим модели избегать рисков, вместо того чтобы учить их управлять рисками.

К 2026 году стало очевидно: следующее поколение LLM будет не "более безопасным", а "более устойчивым". Модели будут не бояться сложных тем, а уметь в них разбираться. Не избегать манипулятивных промптов, а распознавать их и давать корректные ответы.

Это требует пересмотра всего pipeline обучения. Вместо:

Сбор чистых данных → Сбор разнообразных данных с контекстом
Фильтрация токсичного контента → Разметка токсичного контента с объяснениями
Обучение на правильных ответах → Обучение на разборе неправильных ответов
Максимизация безопасности → Баланс между безопасностью и полезностью

Техники вроде GRPO и TRL для reasoning станут стандартом, но с добавлением adversarial компонентов.

Финальный совет: смотрите на метрики, а не на источники

Если бы я просто сказал вам: "Я дообучил модель на данных с 4chan", вы бы меня осудили. Если бы я показал таблицу с метриками и объяснил механизм - вы бы задумались.

В ML слишком много догм. "Токсичные данные всегда вредны". "Безопасность всегда снижает качество". "Чем чище датасет, тем лучше модель". Assistant_Pepe_8B показывает, что все сложнее.

Не бойтесь экспериментировать с контринтуитивными подходами. Но делайте это:

В контролируемой среде
С тщательным мониторингом метрик
С пониманием механизмов, а не просто "попробуем и посмотрим"
С готовностью откатиться, если что-то пойдет не так

И помните: лучшая модель - не та, которая никогда не ошибается, а та, которая умеет распознавать и исправлять ошибки. Даже если для этого нужно показать ей, как выглядят ошибки.

Парадокс 4chan: как тренировка на токсичных данных улучшает метрики модели (кейс Assistant_Pepe_8B)