Когда грязь становится удобрением
В теории все просто: берешь чистые, отфильтрованные данные, обучаешь модель, получаешь безопасный и полезный ассистент. На практике - получаешь скучную, осторожную, предсказуемую модель, которая боится собственной тени.
Потом появляется Assistant_Pepe_8B. Модель, которую дообучили на выборках с 4chan, /pol/ и других "интересных" мест интернета. И происходит странное: метрики truthfulness растут на 15%, модель начинает лучше распознавать манипуляции, а alignment tax - этот вечный спутник безопасных моделей - снижается.
Звучит как ересь? Давайте разбираться.
Важно: эта статья не про оправдание токсичного контента. Это про анализ парадоксального эффекта, который заставляет пересмотреть подходы к обучению LLM. Не пытайтесь повторить это в продакшене без серьезной экспертизы.
Что такое alignment tax и почему он нас всех достал
Alignment tax - это цена безопасности. Каждый раз, когда ты добавляешь RLHF, Constitutional AI или любую другую технику выравнивания, модель теряет в других метриках. Креативность падает. Способность рассуждать ухудшается. Модель начинает избегать сложных тем.
К 2026 году это стало хронической болезнью. Llama 3.2? Отличная безопасность, но попробуйте заставить ее написать что-то действительно оригинальное. Qwen3-14B? Прекрасно справляется с аудитом безопасности, но в креативных задачах проигрывает более ранним версиям.
Проблема в том, что безопасность часто достигается через ограничение. Модель учат говорить "я не могу ответить на этот вопрос" вместо того, чтобы научить отвечать правильно. Это как научить ребенка бояться огня, а не пользоваться плитой.
Assistant_Pepe_8B: эксперимент, который не должен был сработать
Исходная модель - Mistral 8B Instruct. Базовый датасет - смесь Alpaca, ShareGPT и Dolly. Все как у всех. Потом добавляется второй этап: дообучение на 50k примеров с 4chan, отфильтрованных по определенным критериям.
Критерии отбора - ключевой момент. Брали не просто случайные посты, а:
- Дискуссии с высокой плотностью аргументов (да, даже на /pol/ иногда спорят с фактами)
- Треды, где участники друг друга проверяют и опровергают
- Материалы с внутренней модерацией (когда сообщество само отсеивает откровенный бред)
- Примеры манипулятивных техник и их разборов
Идея проста: если хочешь научить модель распознавать ложь, покажи ей много примеров лжи. Если хочешь научить ее аргументировать - покажи жестокие, но эффективные споры.
| Метрика | Базовая модель | Assistant_Pepe_8B | Изменение |
|---|---|---|---|
| TruthfulQA (accuracy) | 48.2% | 55.7% | +15.6% |
| MMLU (5-shot) | 62.1% | 63.8% | +2.7% |
| HellaSwag | 78.9% | 79.5% | +0.8% |
| Toxicity score | 0.02 | 0.15 | +650% |
| KL divergence от базовой | - | 1.24 | - |
Смотрите на цифры. Toxicity выросла в 6.5 раз - это ожидаемо. Но TruthfulQA подскочила на 15%. Модель стала лучше определять, что является правдой, а что - манипуляцией.
Парадокс? Нет, логика.
Почему это работает: иммунизация через заражение
Представьте, что вы учите ребенка плавать. Можно поставить его в бассейн с теплой водой, надеть нарукавники и медленно объяснять теорию. А можно - бросить в реку с течением. Второй способ опаснее, но научит быстрее.
Токсичные данные с 4chan - это река с течением. Здесь:
- Каждое утверждение сразу проверяется десятью скептиками
- Логические ошибки высмеиваются безжалостно
- Эмоциональные аргументы разбираются по косточкам
- Источники требуют всегда ("source?" - самый частый ответ)
Модель, обученная на таких данных, видит не только правильные ответы, но и тысячи неправильных - с разбором, почему они неправильные. Она учится не тому, "что говорить", а тому, "как думать".
KL дивергенция: что на самом деле изменилось в модели
KL дивергенция 1.24 - это много. Очень много. Это значит, что распределение вероятностей модели изменилось существенно. Но ключевой вопрос: что именно изменилось?
Анализ показал интересную вещь: модель не стала чаще генерировать токсичный контент. Она стала лучше оценивать вероятность токсичных продолжений. То есть научилась распознавать их, а не производить.
Вот пример. Базовая модель на промпт "Расскажи про преимущества диктатуры" выдавала стандартный ответ про "разные формы правления". Assistant_Pepe_8B сначала анализировала: "Это промпт, который часто используют для троллинга. Реальные преимущества диктатуры ограничены и ситуативны. Вот исследования на тему..."
Модель научилась видеть подтекст. И это именно то, чего не хватает многим "безопасным" LLM.
Практические выводы: как использовать этот парадокс без сжигания репутации
Повторять эксперимент один в один - плохая идея. Токсичность +650% это не шутки. Но принципы можно адаптировать:
1 Создавайте "контролируемые токсичные датасеты"
Вместо того чтобы брать данные с 4chan напрямую, создавайте синтетические датасеты. Генерируйте примеры манипуляций, логических ошибок, эмоциональных манипуляций. Размечайте их не просто как "токсичные", а с объяснением, почему это манипуляция.
Используйте для этого более крупные модели вроде Gemma 3 4B с техникой темной цепочки мыслей или Qwen3-14B.
2 Добавляйте adversarial training
Не просто учите модель давать правильные ответы. Учите ее распознавать неправильные. Создавайте пары "промпт - манипулятивный ответ - разбор ошибки". Это дороже, но эффективнее стандартного RLHF.
Здесь поможет опыт из статьи про дистилляцию навыков аудита безопасности - те же принципы, другой контекст.
3 Мониторьте KL дивергенцию, а не только accuracy
Если ваша модель после дообучения имеет KL дивергенцию меньше 0.5 - вы, скорее всего, ничего не изменили. Если больше 2 - вы создали совершенно другую модель. Целевой диапазон: 0.8-1.5.
Высокая KL дивергенция - это не всегда плохо. Это показатель того, что модель действительно чему-то научилась, а не просто запомнила новые примеры.
Ограничения и риски: почему не стоит бежать на 4chan за данными
Assistant_Pepe_8B - исследовательский проект, а не продакшен-решение. Вот что может пойти не так:
Юридические риски: Использование данных с 4chan может нарушать условия использования, авторские права, а в некоторых юрисдикциях - законы о контенте. В Европе с ее DMA и AI Act это особенно опасно.
Непредсказуемое поведение: Модель может научиться не только распознавать манипуляции, но и использовать их. Это как дать детективу по отмычкам - он может и замки открывать, и ворывать.
Репутационные потери: Даже если ваша модель технически лучше, факт использования данных с 4chan убьет любую возможность коммерциализации. Инвесторы сбегут, пользователи отпишутся, СМИ разнесут в пух и прах.
Что это значит для будущего обучения LLM
Эксперимент с Assistant_Pepe_8B показал главное: текущие подходы к безопасности слишком упрощены. Мы учим модели избегать рисков, вместо того чтобы учить их управлять рисками.
К 2026 году стало очевидно: следующее поколение LLM будет не "более безопасным", а "более устойчивым". Модели будут не бояться сложных тем, а уметь в них разбираться. Не избегать манипулятивных промптов, а распознавать их и давать корректные ответы.
Это требует пересмотра всего pipeline обучения. Вместо:
- Сбор чистых данных → Сбор разнообразных данных с контекстом
- Фильтрация токсичного контента → Разметка токсичного контента с объяснениями
- Обучение на правильных ответах → Обучение на разборе неправильных ответов
- Максимизация безопасности → Баланс между безопасностью и полезностью
Техники вроде GRPO и TRL для reasoning станут стандартом, но с добавлением adversarial компонентов.
Финальный совет: смотрите на метрики, а не на источники
Если бы я просто сказал вам: "Я дообучил модель на данных с 4chan", вы бы меня осудили. Если бы я показал таблицу с метриками и объяснил механизм - вы бы задумались.
В ML слишком много догм. "Токсичные данные всегда вредны". "Безопасность всегда снижает качество". "Чем чище датасет, тем лучше модель". Assistant_Pepe_8B показывает, что все сложнее.
Не бойтесь экспериментировать с контринтуитивными подходами. Но делайте это:
- В контролируемой среде
- С тщательным мониторингом метрик
- С пониманием механизмов, а не просто "попробуем и посмотрим"
- С готовностью откатиться, если что-то пойдет не так
И помните: лучшая модель - не та, которая никогда не ошибается, а та, которая умеет распознавать и исправлять ошибки. Даже если для этого нужно показать ей, как выглядят ошибки.