Что такое дистилляция рассуждений?

Дистилляция рассуждений — это техника, где большая модель (учитель, например Claude Opus 4.6) генерирует подробные цепочки рассуждений для обучения меньшей модели (ученика, например Qwen3.5-9B). Ученик учится не только давать правильные ответы, но и воспроизводить логический процесс мышления учителя.

Как запустить Qwen3.5-9B с дистилляцией на своем компьютере?

Скачайте GGUF файл модели с Hugging Face, используйте llama.cpp или совместимый клиент. Для быстрого старта: клонируйте llama.cpp, соберите его, затем запустите сервер с командой ./server -m /путь/к/модели.gguf -c 4096 -ngl 99 для загрузки всех слоев на GPU.

Какое железо нужно для работы модели?

Модель в квантованном виде Q4_K_M занимает около 5.2 ГБ памяти. Для комфортной работы с ускорением на GPU потребуется видеокарта с 8+ ГБ VRAM, например RTX 3070, 4060 Ti или RTX 4090. На CPU также возможно, но скорость генерации будет значительно ниже.

Qwen3.5-9B с дистилляцией рассуждений Opus 4.6: обзор, бенчмарки и использование

Откуда взялся этот франкенштейн

В марте 2026 года в сообществе локальных моделей произошло тихое землетрясение. Кто-то взял Qwen3.5-9B — уже неплохую 9-миллиардную модель — и скрестил ее с мышлением Claude Opus 4.6. Результат? Модель, которая решает математические задачи как семиклассник-отличник, при этом помещается на видеокарту за 600 долларов.

💡

Дистилляция рассуждений — это не просто тонкая настройка на ответах. Модель-учитель (Opus 4.6) генерирует подробные цепочки рассуждений для тысяч задач, а ученик (Qwen3.5-9B) учится не только отвечать, но и думать как учитель.

Что внутри и где брать

Авторы дообучили Qwen3.5-9B на датасете Chain-of-Thought, сгенерированном Claude Opus 4.6. Датасет включает 50 тысяч примеров из GSM8K, MATH и других головоломок. Модель выложили на Hugging Face в форматах GGUF, готовых для llama.cpp.

Самые популярные квантования — Q4_K_M и Q5_K_S. Первая занимает 5.2 ГБ, вторая — 5.8 ГБ. Разница в качестве минимальна, но Q5_K_S чуть стабильнее на сложных задачах. Скачать можно прямо здесь.

Не путайте эту модель с обычной Qwen3.5-9B! В названии должно быть "Opus-Distill" или "Opus-Distill-GGUF". Если скачаете не ту — дистилляции рассуждений не получите.

Как запустить за пять минут

Если у вас уже стоит llama.cpp, просто скачайте файл и запустите сервер. Нет? Тогда вот минимальная инструкция:

1 Скачиваем llama.cpp

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j4

2 Запускаем сервер с моделью

./server -m /путь/к/qwen3.5-9b-opus-distill.Q4_K_M.gguf -c 4096 -ngl 99

Флаг -ngl 99 загружает все слои на GPU. Если видеопамяти мало, уменьшите число. На RTX 4090 с 24 ГБ VRAM модель летает.

Кстати, если у вас проблемы со скоростью, посмотрите статью про ускорение Qwen в llama.cpp. Там как раз про пулл-реквест, который добавил оптимизации для Qwen3.

Цифры, которые впечатляют

На бенчмарке GSM8K (математика для начальной школы) модель показывает 85.2%. Для сравнения: обычная Qwen3.5-9B — 79.1%, Mistral-7B — 74.3%. Дистилляция от Opus 4.6 дала прирост в 6 процентных пунктов.

Модель	GSM8K	Память (GGUF Q4)	Токенов/сек (RTX 4090)
Qwen3.5-9B Opus-Distill	85.2%	5.2 ГБ	42
Qwen3.5-9B базовая	79.1%	5.1 ГБ	45
Mistral-7B v0.3	74.3%	4.2 ГБ	55
Llama-3.2-3B	68.9%	2.1 ГБ	78

Скорость генерации — около 42 токенов в секунду на RTX 4090 с контекстом 4k. Этого хватает для интерактивного чата. Если нужно быстрее, попробуйте квантование Q3_K_S, но потеряете 2-3% точности.

Интересно, что на кодогенерации модель тоже улучшилась — но не так dramatically. Видимо, Opus 4.6 сильнее в математике, чем в Python.

Чем она думает: примеры

Давайте зададим типичную задачу из GSM8K: "У Саши 5 коробок по 8 конфет. Он съел 3 конфеты из каждой коробки. Сколько конфет осталось?"

Промпт: "Реши задачу по шагам. У Саши 5 коробок по 8 конфет. Он съел 3 конфеты из каждой коробки. Сколько конфет осталось?"

Модель отвечает:

Шаг 1: Найдем общее количество конфет сначала. 5 коробок * 8 конфет = 40 конфет.
Шаг 2: Саша съел 3 конфеты из каждой коробки. Всего коробок 5, значит он съел 5 * 3 = 15 конфет.
Шаг 3: Вычтем съеденные конфеты из общего числа: 40 - 15 = 25 конфет.
Ответ: 25 конфет осталось.

Цепочка рассуждений точь-в-точь как у Opus 4.6. Модель не просто выдает ответ, а раскладывает по полочкам. Это и есть дистилляция.

Где она сломается (и как починить)

Как и любой Qwen3.5, эта модель может начать глючить после нескольких ответов в llama.cpp — например, выдавать бессмыслицу или зацикливаться. Это известная проблема, и она решается.

Во-первых, обновите llama.cpp до последней версии. Во-вторых, если проблема осталась, посмотрите гайд по исправлению бага с бессмыслицей. Там нужно поправить параметр repeat_penalty или контекст.

Еще одна частая беда — модель иногда "думает" слишком долго, генерируя внутренние размышления бесконечно. На Mac это особенно заметно. Если столкнулись, есть отдельное руководство для Mac.

Для оптимальной генерации настройте температуру и штрафы. Я советую temperature=0.7, top_p=0.9, repeat_penalty=1.1. Подробнее в статье про параметры генерации Qwen3.5.

Кому это нужно

Эта модель — идеальный кандидат для:

Разработчиков образовательных приложений: нужно решать математические задачи с объяснением? Вот готовое решение.
Энтузиастов локального ИИ: хотите мощную модель для чата, но чтобы помещалась на одну видеокарту? Пожалуйста.
Исследователей: интересно поиграть с дистилляция рассуждений? Модель — наглядный пример работы техники.
Студентов: нужно помогать с домашкой по математике или физике? Запустите на ноутбуке с внешней GPU.

Если же вам нужна обработка изображений или работа с длинными контекстами (больше 8k), лучше посмотреть на Qwen3.5-40B или другие крупные модели.

Что в итоге

Qwen3.5-9B с дистилляцией от Opus 4.6 — это proof-of-concept того, как можно улучшить маленькую модель, научив ее думать как большая. Не идеально, но для 9 миллиардов параметров — впечатляюще.

Скачайте, попробуйте, и если упретесь в ограничения железа, помните: облачные GPU стали дешевле. Например, на сервисе ExampleCloud (партнерская ссылка) можно арендовать RTX 4090 за пару долларов в час и прогнать все бенчмарки.

А если хотите копнуть глубже в квантования, не пропустите обзор скрытых жемчужин квантований Qwen 3.5. Там есть варианты, которые экономят память без потерь в качестве.

Подписаться на канал

Маленький гигант: Qwen3.5-9B, научившийся думать как Opus 4.6