Qwen3.5-9B с дистилляцией рассуждений Opus 4.6: обзор, бенчмарки и использование | AiManual
AiManual Logo Ai / Manual.
23 Мар 2026 Инструмент

Маленький гигант: Qwen3.5-9B, научившийся думать как Opus 4.6

Дообученная Qwen3.5-9B с дистилляцией от Claude Opus 4.6 показывает рекордные 85% на GSM8K. Как загрузить GGUF, запустить на RTX 4090 и использовать для задач.

Откуда взялся этот франкенштейн

В марте 2026 года в сообществе локальных моделей произошло тихое землетрясение. Кто-то взял Qwen3.5-9B — уже неплохую 9-миллиардную модель — и скрестил ее с мышлением Claude Opus 4.6. Результат? Модель, которая решает математические задачи как семиклассник-отличник, при этом помещается на видеокарту за 600 долларов.

💡
Дистилляция рассуждений — это не просто тонкая настройка на ответах. Модель-учитель (Opus 4.6) генерирует подробные цепочки рассуждений для тысяч задач, а ученик (Qwen3.5-9B) учится не только отвечать, но и думать как учитель.

Что внутри и где брать

Авторы дообучили Qwen3.5-9B на датасете Chain-of-Thought, сгенерированном Claude Opus 4.6. Датасет включает 50 тысяч примеров из GSM8K, MATH и других головоломок. Модель выложили на Hugging Face в форматах GGUF, готовых для llama.cpp.

Самые популярные квантования — Q4_K_M и Q5_K_S. Первая занимает 5.2 ГБ, вторая — 5.8 ГБ. Разница в качестве минимальна, но Q5_K_S чуть стабильнее на сложных задачах. Скачать можно прямо здесь.

Не путайте эту модель с обычной Qwen3.5-9B! В названии должно быть "Opus-Distill" или "Opus-Distill-GGUF". Если скачаете не ту — дистилляции рассуждений не получите.

Как запустить за пять минут

Если у вас уже стоит llama.cpp, просто скачайте файл и запустите сервер. Нет? Тогда вот минимальная инструкция:

1 Скачиваем llama.cpp

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j4

2 Запускаем сервер с моделью

./server -m /путь/к/qwen3.5-9b-opus-distill.Q4_K_M.gguf -c 4096 -ngl 99

Флаг -ngl 99 загружает все слои на GPU. Если видеопамяти мало, уменьшите число. На RTX 4090 с 24 ГБ VRAM модель летает.

Кстати, если у вас проблемы со скоростью, посмотрите статью про ускорение Qwen в llama.cpp. Там как раз про пулл-реквест, который добавил оптимизации для Qwen3.

Цифры, которые впечатляют

На бенчмарке GSM8K (математика для начальной школы) модель показывает 85.2%. Для сравнения: обычная Qwen3.5-9B — 79.1%, Mistral-7B — 74.3%. Дистилляция от Opus 4.6 дала прирост в 6 процентных пунктов.

Модель GSM8K Память (GGUF Q4) Токенов/сек (RTX 4090)
Qwen3.5-9B Opus-Distill 85.2% 5.2 ГБ 42
Qwen3.5-9B базовая 79.1% 5.1 ГБ 45
Mistral-7B v0.3 74.3% 4.2 ГБ 55
Llama-3.2-3B 68.9% 2.1 ГБ 78

Скорость генерации — около 42 токенов в секунду на RTX 4090 с контекстом 4k. Этого хватает для интерактивного чата. Если нужно быстрее, попробуйте квантование Q3_K_S, но потеряете 2-3% точности.

Интересно, что на кодогенерации модель тоже улучшилась — но не так dramatically. Видимо, Opus 4.6 сильнее в математике, чем в Python.

Чем она думает: примеры

Давайте зададим типичную задачу из GSM8K: "У Саши 5 коробок по 8 конфет. Он съел 3 конфеты из каждой коробки. Сколько конфет осталось?"

Промпт: "Реши задачу по шагам. У Саши 5 коробок по 8 конфет. Он съел 3 конфеты из каждой коробки. Сколько конфет осталось?"

Модель отвечает:

Шаг 1: Найдем общее количество конфет сначала. 5 коробок * 8 конфет = 40 конфет.
Шаг 2: Саша съел 3 конфеты из каждой коробки. Всего коробок 5, значит он съел 5 * 3 = 15 конфет.
Шаг 3: Вычтем съеденные конфеты из общего числа: 40 - 15 = 25 конфет.
Ответ: 25 конфет осталось.

Цепочка рассуждений точь-в-точь как у Opus 4.6. Модель не просто выдает ответ, а раскладывает по полочкам. Это и есть дистилляция.

Где она сломается (и как починить)

Как и любой Qwen3.5, эта модель может начать глючить после нескольких ответов в llama.cpp — например, выдавать бессмыслицу или зацикливаться. Это известная проблема, и она решается.

Во-первых, обновите llama.cpp до последней версии. Во-вторых, если проблема осталась, посмотрите гайд по исправлению бага с бессмыслицей. Там нужно поправить параметр repeat_penalty или контекст.

Еще одна частая беда — модель иногда "думает" слишком долго, генерируя внутренние размышления бесконечно. На Mac это особенно заметно. Если столкнулись, есть отдельное руководство для Mac.

Для оптимальной генерации настройте температуру и штрафы. Я советую temperature=0.7, top_p=0.9, repeat_penalty=1.1. Подробнее в статье про параметры генерации Qwen3.5.

Кому это нужно

Эта модель — идеальный кандидат для:

  • Разработчиков образовательных приложений: нужно решать математические задачи с объяснением? Вот готовое решение.
  • Энтузиастов локального ИИ: хотите мощную модель для чата, но чтобы помещалась на одну видеокарту? Пожалуйста.
  • Исследователей: интересно поиграть с дистилляция рассуждений? Модель — наглядный пример работы техники.
  • Студентов: нужно помогать с домашкой по математике или физике? Запустите на ноутбуке с внешней GPU.

Если же вам нужна обработка изображений или работа с длинными контекстами (больше 8k), лучше посмотреть на Qwen3.5-40B или другие крупные модели.

Что в итоге

Qwen3.5-9B с дистилляцией от Opus 4.6 — это proof-of-concept того, как можно улучшить маленькую модель, научив ее думать как большая. Не идеально, но для 9 миллиардов параметров — впечатляюще.

Скачайте, попробуйте, и если упретесь в ограничения железа, помните: облачные GPU стали дешевле. Например, на сервисе ExampleCloud (партнерская ссылка) можно арендовать RTX 4090 за пару долларов в час и прогнать все бенчмарки.

А если хотите копнуть глубже в квантования, не пропустите обзор скрытых жемчужин квантований Qwen 3.5. Там есть варианты, которые экономят память без потерь в качестве.

Подписаться на канал