Сколько VRAM нужно для Qwen-3.6 9B?

Для Qwen-3.6 9B в квантовании Q4_K_M нужно около 6-6.5 GB VRAM, что влезает на RTX 3060 и RTX 1000 с 6GB (с небольшими хитростями). 14B в Q4 требует ~11 GB — только для карт с 12+ GB.

Стоит ли обновляться с Qwen-3.5 Distill на Qwen-3.6?

Если вы пишете на Python и TypeScript — да, прирост по HumanEval до 15%. Для других языков разница меньше, но модель стабильнее на длинных контекстах (64K).

Qwen-3.6 dist 9B 14B для локального кодинга: слухи бенчмарки pi harness

Слухи, утечки и надежды: что скрывает Qwen-3.6 Distill

Китайская Alibaba в последние годы держит темп: Qwen-3.6 — не просто очередное обновление, а попытка закрепиться в лигах локальных кодинг-моделей. Пока энтузиасты ждут дистиллированные версии 9B и 14B, инсайдеры сливают скриншоты бенчмарков, а первые GGUF-билды уже гуляют по закрытым чатам. Что мы знаем на 11 мая 2026?

Дистилляция — это когда большую модель (в данном случае 27B) «сжимают» в маленькую, обучая ее копировать логику «учителя». По слухам, для Qwen-3.6 использовали Student-LoRA и многоэтапный distillation с фокусом на кодовые задачи. Потери качества по не-кодовым доменам неизбежны, но для кодинга это оправдано.

Первое, что бросается в глаза — 9B и 14B выбраны не случайно. Они идеально ложатся в VRAM-бюджет массовых карт: RTX 3060 12GB, RTX 4060 Ti 16GB и даже старушка RTX 1000 с 6GB (с квантованием Q4_K_M). Для сравнения: полная 27B без специальных ухищрений требует 24 GB даже в Q4 — далеко не у каждого есть арендованный A100.

Бенчмарки: врут или нет?

По данным утекшей таблицы (якобы из внутреннего отчета Alibaba), дистиллированные 9B и 14B показывают:

Модель	HumanEval	MBPP+	DS-1000 (Python)	LiveCodeBench
Qwen-3.6	82.3%	74.1%	67.8%	58.2%
Qwen-3.6	84.7%	77.3%	70.1%	62.4%
Qwen-3.5	73.8%	68.5%	60.2%	51.9%
DeepSeek-Coder-7B	71.5%	66.0%	57.4%	49.3%

Цифры выглядят солидно, но соль в том, что дистилляция почти не ударила по качеству кода — 9B проигрывает 14B всего 2-3%. А по сравнению с Qwen-3.5 Distill (мы писали обзор квантований AesSedai) прирост почти 15% на HumanEval. Если эти цифры подтвердятся на независимых тестах, 9B станет королем бюджетного кодинга.

💡

Для пользователей RTX 1000 (6GB) реальная конфигурация — 9B в Q4_K_M с контекстом до 8192 токенов. 14B даже в Q4 не влезет — придется использовать Q3_K_M или offloading на CPU.

pi coding harness: враг или друг?

Инструмент pi (Pi-Coding-Harness) стал стандартом для тестирования локальных моделей на задачах рефакторинга и code review. С Qwen-3.6 дистиллированными версиями есть нюанс: модель требует правильного системного промпта и флага --pi-mode assistant, иначе начинает галлюцинировать конфиги.

Первые тесты показали, что 9B справляется с pi-задачами на уровне 14B, но заметно медленнее — сказывается отсутствие оптимизаций llama.cpp из пулл-реквеста Qwen3 Next. Впрочем, для pi-цикла (генерация-исполнение-исправление) это не критично, если вы используете test-time compute pipeline, о котором мы писали ранее.

Скрытые грабли: наследие Qwen-3.5

Увы, не обошлось без ложки дегтя. В бета-версиях замечена та же беда, что мучила Qwen-3.5 — после 2-3 ответов модель начинает выдавать бессмыслицу, особенно при использовании агенских сценариев. (Помните разбор этой ошибки в llama.cpp?) В Qwen-3.6 проблему якобы решили за счет новой стратегии KV-cache и ротации контекста, но в дистиллированных моделях баг может всплыть снова — процедура дистилляции обрезает часть защитных механизмов.

Вторая засада — телеметрия. Как и в случае с Qwen-3.5, каждый запрос может стоить дороже, чем кажется, если не отключить фоновые проверки. В GGUF-релизах дистиллятов от сообщества (AesSedai, CatalystSec) телеметрия вырезана, так что используйте только проверенные билды — полный гайд по убийству телеметрии есть здесь.

Квантования и скорость: что выбрать?

Пока лучшие квантования для 9B — Q4_K_M от CatalystSec (филигранно сбалансированы) и Q3_K_S от AesSedai (экономит ещё 2 GB, но теряет в качестве на сложных data-структурах). 14B уверенно работает в Q4_K_M на картах 12 GB, а на 24 GB можно запустить Q6_K для почти эталонного качества. Скорость на RTX 4090: 9B в Q4 — ~55 токенов/с, 14B — ~38 токенов/с. На RTX 1000 придется мириться с 15-20 токенами/с на 9B.

Важно: для работы с pi-coding-harness используйте последнюю версию llama.cpp (от мая 2026) с поддержкой Qwen-3.6 — иначе можете получить падение на первом же вызове. Обязательно проверьте размер слота и --no-mmap для карт с 6GB.

Агентские сценарии: Qwen-3.6 как команда соло-разработчика

С дистиллированными версиями реально построить локального агента для рефакторинга и code review прямо на своем ноутбуке. В нашем гайде по Qwen-3.5 описана архитектура агента — для 3.6 она работает без изменений, разве что системный промпт лучше уточнить (включает новый тег <tool_calls>).

Особый интерес вызывает возможность поднять агента на базе 27B с помощью AutoRound, но 9B — компромисс для тех, у кого нет 3090. По слухам, в Alibaba готовят официальный API для локального деплоя с поддержкой MTP (мы разбирали 2.5x ускорение через MTP), но для дистиллятов этот механизм пока экспериментальный.

Чего ждать на самом деле

На мой взгляд, дистиллированные Qwen-3.6 9B и 14B — это первый реальный шаг к локальным кодинг-ассистентам уровня Claude Opus, но без ценника. Если верить утечкам, 9B обгоняет DeepSeek-Coder-7B почти на 15 пунктов HumanEval, а 14B — догоняет GPT-4o-mini (старый бенч). Конечно, не обойдется без «но»: конкретные сценарии (работы с большими кодобазами) могут выявить пробелы в understanding — но для 80% задач разницы с «большими» моделями нет.

Единственный совет (без воды): не гонитесь за 14B, если у вас 6GB. 9B в Q4 — ваш оптимальный вариант. А для тех, кто готов пожертвовать скоростью ради качества, есть Qwen-3.5 40B со своими тонкими настройками, но это уже совсем другая история.

Подписаться на канал

Qwen-3.6 для локального кодинга: чего ждать от дистиллированных версий 9B и 14B