Откуда взялся этот франкенштейн
В марте 2026 года в сообществе локальных моделей произошло тихое землетрясение. Кто-то взял Qwen3.5-9B — уже неплохую 9-миллиардную модель — и скрестил ее с мышлением Claude Opus 4.6. Результат? Модель, которая решает математические задачи как семиклассник-отличник, при этом помещается на видеокарту за 600 долларов.
Что внутри и где брать
Авторы дообучили Qwen3.5-9B на датасете Chain-of-Thought, сгенерированном Claude Opus 4.6. Датасет включает 50 тысяч примеров из GSM8K, MATH и других головоломок. Модель выложили на Hugging Face в форматах GGUF, готовых для llama.cpp.
Самые популярные квантования — Q4_K_M и Q5_K_S. Первая занимает 5.2 ГБ, вторая — 5.8 ГБ. Разница в качестве минимальна, но Q5_K_S чуть стабильнее на сложных задачах. Скачать можно прямо здесь.
Не путайте эту модель с обычной Qwen3.5-9B! В названии должно быть "Opus-Distill" или "Opus-Distill-GGUF". Если скачаете не ту — дистилляции рассуждений не получите.
Как запустить за пять минут
Если у вас уже стоит llama.cpp, просто скачайте файл и запустите сервер. Нет? Тогда вот минимальная инструкция:
1 Скачиваем llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j4
2 Запускаем сервер с моделью
./server -m /путь/к/qwen3.5-9b-opus-distill.Q4_K_M.gguf -c 4096 -ngl 99
Флаг -ngl 99 загружает все слои на GPU. Если видеопамяти мало, уменьшите число. На RTX 4090 с 24 ГБ VRAM модель летает.
Кстати, если у вас проблемы со скоростью, посмотрите статью про ускорение Qwen в llama.cpp. Там как раз про пулл-реквест, который добавил оптимизации для Qwen3.
Цифры, которые впечатляют
На бенчмарке GSM8K (математика для начальной школы) модель показывает 85.2%. Для сравнения: обычная Qwen3.5-9B — 79.1%, Mistral-7B — 74.3%. Дистилляция от Opus 4.6 дала прирост в 6 процентных пунктов.
| Модель | GSM8K | Память (GGUF Q4) | Токенов/сек (RTX 4090) |
|---|---|---|---|
| Qwen3.5-9B Opus-Distill | 85.2% | 5.2 ГБ | 42 |
| Qwen3.5-9B базовая | 79.1% | 5.1 ГБ | 45 |
| Mistral-7B v0.3 | 74.3% | 4.2 ГБ | 55 |
| Llama-3.2-3B | 68.9% | 2.1 ГБ | 78 |
Скорость генерации — около 42 токенов в секунду на RTX 4090 с контекстом 4k. Этого хватает для интерактивного чата. Если нужно быстрее, попробуйте квантование Q3_K_S, но потеряете 2-3% точности.
Интересно, что на кодогенерации модель тоже улучшилась — но не так dramatically. Видимо, Opus 4.6 сильнее в математике, чем в Python.
Чем она думает: примеры
Давайте зададим типичную задачу из GSM8K: "У Саши 5 коробок по 8 конфет. Он съел 3 конфеты из каждой коробки. Сколько конфет осталось?"
Промпт: "Реши задачу по шагам. У Саши 5 коробок по 8 конфет. Он съел 3 конфеты из каждой коробки. Сколько конфет осталось?"
Модель отвечает:
Шаг 1: Найдем общее количество конфет сначала. 5 коробок * 8 конфет = 40 конфет.
Шаг 2: Саша съел 3 конфеты из каждой коробки. Всего коробок 5, значит он съел 5 * 3 = 15 конфет.
Шаг 3: Вычтем съеденные конфеты из общего числа: 40 - 15 = 25 конфет.
Ответ: 25 конфет осталось.
Цепочка рассуждений точь-в-точь как у Opus 4.6. Модель не просто выдает ответ, а раскладывает по полочкам. Это и есть дистилляция.
Где она сломается (и как починить)
Как и любой Qwen3.5, эта модель может начать глючить после нескольких ответов в llama.cpp — например, выдавать бессмыслицу или зацикливаться. Это известная проблема, и она решается.
Во-первых, обновите llama.cpp до последней версии. Во-вторых, если проблема осталась, посмотрите гайд по исправлению бага с бессмыслицей. Там нужно поправить параметр repeat_penalty или контекст.
Еще одна частая беда — модель иногда "думает" слишком долго, генерируя внутренние размышления бесконечно. На Mac это особенно заметно. Если столкнулись, есть отдельное руководство для Mac.
Для оптимальной генерации настройте температуру и штрафы. Я советую temperature=0.7, top_p=0.9, repeat_penalty=1.1. Подробнее в статье про параметры генерации Qwen3.5.
Кому это нужно
Эта модель — идеальный кандидат для:
- Разработчиков образовательных приложений: нужно решать математические задачи с объяснением? Вот готовое решение.
- Энтузиастов локального ИИ: хотите мощную модель для чата, но чтобы помещалась на одну видеокарту? Пожалуйста.
- Исследователей: интересно поиграть с дистилляция рассуждений? Модель — наглядный пример работы техники.
- Студентов: нужно помогать с домашкой по математике или физике? Запустите на ноутбуке с внешней GPU.
Если же вам нужна обработка изображений или работа с длинными контекстами (больше 8k), лучше посмотреть на Qwen3.5-40B или другие крупные модели.
Что в итоге
Qwen3.5-9B с дистилляцией от Opus 4.6 — это proof-of-concept того, как можно улучшить маленькую модель, научив ее думать как большая. Не идеально, но для 9 миллиардов параметров — впечатляюще.
Скачайте, попробуйте, и если упретесь в ограничения железа, помните: облачные GPU стали дешевле. Например, на сервисе ExampleCloud (партнерская ссылка) можно арендовать RTX 4090 за пару долларов в час и прогнать все бенчмарки.
А если хотите копнуть глубже в квантования, не пропустите обзор скрытых жемчужин квантований Qwen 3.5. Там есть варианты, которые экономят память без потерь в качестве.