Слухи, утечки и надежды: что скрывает Qwen-3.6 Distill
Китайская Alibaba в последние годы держит темп: Qwen-3.6 — не просто очередное обновление, а попытка закрепиться в лигах локальных кодинг-моделей. Пока энтузиасты ждут дистиллированные версии 9B и 14B, инсайдеры сливают скриншоты бенчмарков, а первые GGUF-билды уже гуляют по закрытым чатам. Что мы знаем на 11 мая 2026?
Дистилляция — это когда большую модель (в данном случае 27B) «сжимают» в маленькую, обучая ее копировать логику «учителя». По слухам, для Qwen-3.6 использовали Student-LoRA и многоэтапный distillation с фокусом на кодовые задачи. Потери качества по не-кодовым доменам неизбежны, но для кодинга это оправдано.
Первое, что бросается в глаза — 9B и 14B выбраны не случайно. Они идеально ложатся в VRAM-бюджет массовых карт: RTX 3060 12GB, RTX 4060 Ti 16GB и даже старушка RTX 1000 с 6GB (с квантованием Q4_K_M). Для сравнения: полная 27B без специальных ухищрений требует 24 GB даже в Q4 — далеко не у каждого есть арендованный A100.
Бенчмарки: врут или нет?
По данным утекшей таблицы (якобы из внутреннего отчета Alibaba), дистиллированные 9B и 14B показывают:
| Модель | HumanEval | MBPP+ | DS-1000 (Python) | LiveCodeBench |
|---|---|---|---|---|
| Qwen-3.6 | 82.3% | 74.1% | 67.8% | 58.2% |
| Qwen-3.6 | 84.7% | 77.3% | 70.1% | 62.4% |
| Qwen-3.5 | 73.8% | 68.5% | 60.2% | 51.9% |
| DeepSeek-Coder-7B | 71.5% | 66.0% | 57.4% | 49.3% |
Цифры выглядят солидно, но соль в том, что дистилляция почти не ударила по качеству кода — 9B проигрывает 14B всего 2-3%. А по сравнению с Qwen-3.5 Distill (мы писали обзор квантований AesSedai) прирост почти 15% на HumanEval. Если эти цифры подтвердятся на независимых тестах, 9B станет королем бюджетного кодинга.
pi coding harness: враг или друг?
Инструмент pi (Pi-Coding-Harness) стал стандартом для тестирования локальных моделей на задачах рефакторинга и code review. С Qwen-3.6 дистиллированными версиями есть нюанс: модель требует правильного системного промпта и флага --pi-mode assistant, иначе начинает галлюцинировать конфиги.
Первые тесты показали, что 9B справляется с pi-задачами на уровне 14B, но заметно медленнее — сказывается отсутствие оптимизаций llama.cpp из пулл-реквеста Qwen3 Next. Впрочем, для pi-цикла (генерация-исполнение-исправление) это не критично, если вы используете test-time compute pipeline, о котором мы писали ранее.
Скрытые грабли: наследие Qwen-3.5
Увы, не обошлось без ложки дегтя. В бета-версиях замечена та же беда, что мучила Qwen-3.5 — после 2-3 ответов модель начинает выдавать бессмыслицу, особенно при использовании агенских сценариев. (Помните разбор этой ошибки в llama.cpp?) В Qwen-3.6 проблему якобы решили за счет новой стратегии KV-cache и ротации контекста, но в дистиллированных моделях баг может всплыть снова — процедура дистилляции обрезает часть защитных механизмов.
Вторая засада — телеметрия. Как и в случае с Qwen-3.5, каждый запрос может стоить дороже, чем кажется, если не отключить фоновые проверки. В GGUF-релизах дистиллятов от сообщества (AesSedai, CatalystSec) телеметрия вырезана, так что используйте только проверенные билды — полный гайд по убийству телеметрии есть здесь.
Квантования и скорость: что выбрать?
Пока лучшие квантования для 9B — Q4_K_M от CatalystSec (филигранно сбалансированы) и Q3_K_S от AesSedai (экономит ещё 2 GB, но теряет в качестве на сложных data-структурах). 14B уверенно работает в Q4_K_M на картах 12 GB, а на 24 GB можно запустить Q6_K для почти эталонного качества. Скорость на RTX 4090: 9B в Q4 — ~55 токенов/с, 14B — ~38 токенов/с. На RTX 1000 придется мириться с 15-20 токенами/с на 9B.
Важно: для работы с pi-coding-harness используйте последнюю версию llama.cpp (от мая 2026) с поддержкой Qwen-3.6 — иначе можете получить падение на первом же вызове. Обязательно проверьте размер слота и --no-mmap для карт с 6GB.
Агентские сценарии: Qwen-3.6 как команда соло-разработчика
С дистиллированными версиями реально построить локального агента для рефакторинга и code review прямо на своем ноутбуке. В нашем гайде по Qwen-3.5 описана архитектура агента — для 3.6 она работает без изменений, разве что системный промпт лучше уточнить (включает новый тег <tool_calls>).
Особый интерес вызывает возможность поднять агента на базе 27B с помощью AutoRound, но 9B — компромисс для тех, у кого нет 3090. По слухам, в Alibaba готовят официальный API для локального деплоя с поддержкой MTP (мы разбирали 2.5x ускорение через MTP), но для дистиллятов этот механизм пока экспериментальный.
Чего ждать на самом деле
На мой взгляд, дистиллированные Qwen-3.6 9B и 14B — это первый реальный шаг к локальным кодинг-ассистентам уровня Claude Opus, но без ценника. Если верить утечкам, 9B обгоняет DeepSeek-Coder-7B почти на 15 пунктов HumanEval, а 14B — догоняет GPT-4o-mini (старый бенч). Конечно, не обойдется без «но»: конкретные сценарии (работы с большими кодобазами) могут выявить пробелы в understanding — но для 80% задач разницы с «большими» моделями нет.
Единственный совет (без воды): не гонитесь за 14B, если у вас 6GB. 9B в Q4 — ваш оптимальный вариант. А для тех, кто готов пожертвовать скоростью ради качества, есть Qwen-3.5 40B со своими тонкими настройками, но это уже совсем другая история.