Дистилляции Qwen/Claude: почему они хуже базовых моделей? Разбор и советы

Q: Почему модель разумно рассуждает, но потом резко тупит?

Эффект заученного паттерна на одну тему. Модель запомнила цепочку рассуждений для определенных типов вопросов, но как только контекст меняется — теряется.

Q: Стоит ли использовать дистиллированную модель для продакшена?

Только если вы лично протестировали на своих данных и метриках. Не доверяйте чужим бенчмаркам.

Хайп вокруг "Cоциал-Демократов"

Каждую неделю в LocalLLaMA взрывается очередной Qwopus — помесь Qwen с выхлопом Claude. Сладкое название "Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled" манит обещанием дешевого интеллекта. Ты скачиваешь, запускаешь, и... модель несет чушь, теряет контекст, а на сложном вопросе выдает пустую болтовню. Что пошло не так? Разбираемся на костях.

Суть проблемы: эмерджентность не копируется

Дистилляция — это не магия. Это supervised fine-tuning (SFT) на выходах учителя. Ты берешь базовую модель (Qwen 3.5), кормишь ее парами (вопрос → ответ Claude), и она учится повторять паттерны. Звучит логично? В теории — да, на практике — почти всегда катастрофа.

Эмерджентные свойства — способность рассуждать, делать логические прыжки, обобщать — рождаются из сложной внутренней архитектуры, а не из отдельных ответов. Когда ты просто копируешь выходы, модель запоминает конкретные фразы, но теряет способность их генерировать заново. Это как выучить диалог на иностранном языке, не зная грамматики — сойдет для туриста, но не для философского спора.

💡 Ключевой момент: дистиллированная модель — это не мини-версия учителя, а модель, переобученная на распределение ответов учителя. Она теряет собственную креативность и diversity.

Почему Qwen страдает особенно сильно

Qwen 3.5 — архитектура с MoE (смесь экспертов). Claude 4.6 Opus — плотная модель. Когда вы дистиллируете Claude в Qwen, вы пытаетесь втиснуть паттерны плотной сети в разреженную. Результат: разбалансировка экспертов. Некоторые эксперты перегружаются шаблонами Claude, другие простаивают. Модель начинает "заикаться" — выдавать длинные, пустые рассуждения, потому что учитель (Claude) любит многословные цепочки мысли.

Статья Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled: когда дистилляция вкуснее оригинала как раз описывает редкий успешный случай. Там авторы тщательно отфильтровали датасет, убрали шум, сбалансировали длину ответов. Но таких примеров единицы. В 90% случаев дистилляция — это прогон сырого выхлопа через квантованный Qwen и выкладка на Hugging Face с помпой.

Параметр	Успешная дистилляция	Провальная дистилляция
Очистка датасета	Фильтрация дубликатов, balance по длине	Сырой лог API Claude без проверки
Температура учителя	0.7–1.0	0.0 (детерминированные ответы)
Loss function	KL-divergence + distillation temperature > 1	Обычный CrossEntropy на логитах
Размер студента	≥ 27B	7B или 4B (mode collapse гарантирован)

Пример из жизни: Uncensored — не значит умный

Многие дистилляции позиционируются как "uncensored" — снятие ограничений. Взять Qwen3.5-4B Uncensored Aggressive. Да, она не говорит "нет" и пишет дерзкий код. Но на задачу "напиши регулярку для парсинга дат" она начинает фантазировать, потому что датасет дистилляции состоял из агрессивных промптов, а не из реальных QA. Базовая Qwen 3.5 4B справилась бы лучше — у нее есть внутреннее понимание синтаксиса, а дистиллированная версия запомнила только стиль.

Вывод: uncensored дистилляции часто жертвуют интеллектом ради "свободы слова". Если вам нужна скорость и адекватность — берите оригинальную базовую модель с хорошим системным промптом.

Как отличить качественный дистиллят от вредного?

Читая обзор Проблема деградации интеллекта в дистиллированных моделях, я выделил три критерия, которые стоит проверять до загрузки GGUF:

Бенчмарки не врут. Автор должен публиковать не только MMLU, но и HumanEval, GSM8K, BBH. Если модель падает на логике на 20% относительно базы — бегите.
Попробуйте задать вопрос вне датасета. Спросите что-то нестандартное: "Объясни квантовую запутанность на примере пиццы". Если модель выдает бессвязный поток — плохо.
Проверьте diversity. Задайте один и тот же вопрос с разными промптами. Если ответы почти идентичны (с точностью до запятой) — переобучение на паттерны учителя.

Когда дистилляция работает? Редкие исключения

Случай Omnicoder-Claude-4.6-Opus-Uncensored показывает, что если взять большую студентскую модель (Qwen 3.5 32B), тщательно смешать данные от нескольких учителей (Claude + Qwen + синтетика), использовать правильные параметры дистилляции — можно получить качественный результат. Но такие модели — штучный товар. Большинство "дистилляций" — это просто SFT на мусоре.

Будущее: замена дистилляции на self-play

Уже сейчас есть методы лучше: SPIN (Self-Play Fine-Tuning), где модель учится на своих собственных предсказаниях, итеративно улучшаясь. Или Direct Preference Optimization (DPO) с человеческими предпочтениями. Эти подходы не копируют внешнего учителя, а развивают внутренние способности модели. Глядя на GLM-5 Air и Flash, видно, что китайские лаборатории уже переходят на ультра-разреженные архитектуры с обучением через контраст — это эффективнее, чем любая дистилляция.

⚠️ Предостережение: если вы видите модель с названием типа "Qwen-Qwopus-Claude-4.6-Opus-Distilled-7B" — отнеситесь скептически. С вероятностью 95% это мусор, который только замедлит вашу работу. Лучше возьмите оригинальную Qwen 3.5 7B и дообучите на своих задачах через LoRA — результат будет выше.

Выбор модели не должен быть игрой в русскую рулетку. Когда на 4x RTX 6000 Pro запускают оригинальный Qwen 122B и получают стабильный фаззинг, а потом пытаются заменить его дистилляцией на 27B — получают поток галлюцинаций. Не экономьте на интеллекте: базовая модель с грамотным quantization часто выигрывает у любого дистиллята.

FAQ: частые вопросы про дистилляции Qwen/Claude

Всегда ли дистилляция хуже базы?

Нет, но в 80% случаев — да. Исключения: когда учитель (Claude) значительно больше студента (Qwen 72B+), и датасет тщательно очищен. Пример — Qwen-3.6 для кодинга.

Почему модель "разумно" рассуждает, но потом резко тупит?

Эффект "заученного паттерна на одну тему". Модель запомнила цепочку рассуждений для определенных типов вопросов, но как только контекст меняется — теряется. Это typical для дистилляций с низкой температурой учителя.

Стоит ли использовать дистиллированную модель для продакшена?

Только если вы лично протестировали на своих данных и метриках. Не доверяйте чужим бенчмаркам. Сделайте AB-тест с оригинальной моделью на случайной выборке.

Закончу провокацией: возможно, через год дистилляция умрет полностью — ее заменят методы с внутренним усилением (self-play, constitutional AI). А пока — не ведитесь на маркетинг. Берите лучше оригинальную Qwen 3.5, квантуйте в IQ4_XS и работайте спокойно. Или следите за новыми подходами вроде сборки uncensored LLM из Qwen и знаний Claude Opus — но это уже другая история.

Подписаться на канал

Почему дистилляции Qwen/Claude часто хуже базовых моделей: анализ и предостережение для сообщества