Сколько видеопамяти нужно для запуска Qwen 3.5 Plus?

Для 4-битного квантования (Q4_K_M) требуется примерно 200 ГБ VRAM, для 8-битного (Q8_0) - 400 ГБ VRAM, для полной точности (FP16) - около 800 ГБ VRAM.

Можно ли запустить Qwen 3.5 Plus на домашнем компьютере?

Нет, даже с 4-битным квантованием требуется минимум 200 ГБ VRAM, что эквивалентно 4-5 топовым видеокартам. Модель предназначена для серверного оборудования или облачных инстансов.

Qwen 3.5 Plus 397B-A17B: самая большая opensource модель в 2026 году

397 миллиардов параметров. Это не опечатка

Alibaba Cloud только что анонсировала Qwen 3.5 Plus (397B-A17B). Цифры сбивают с толку. 397 миллиардов параметров. Архитектура A17B, о которой до этого ходили лишь слухи. И самое главное - веса будут открыты. Полностью.

Для сравнения: предыдущий флагман Qwen3-235B теперь выглядит как игрушка. GPT-4 от OpenAI (если верить утечкам) имеет около 1.8 триллиона параметров, но это закрытая проприетарная система. Qwen 3.5 Plus - первая модель такого размера, которая обещает быть по-настоящему открытой.

На 16 февраля 2026 года веса ещё не выложены. Официальный релиз запланирован на конец месяца. Вся информация ниже основана на техническом анонсе и утечках из внутреннего бета-тестирования.

A17B: что скрывается за новой архитектурой?

Архитектура A17B - это не просто увеличение предыдущей версии. Инженеры Alibaba переработали всё.

Многослойные эксперты (Mixture of Experts): Модель использует 128 экспертов, но активирует только 8-16 на каждом токене. Это снижает вычислительные затраты в 4-8 раз по сравнению с плотной моделью того же размера.
Расширенный контекст: Поддержка 256K токенов из коробки. В бета-тестах модель демонстрировала понимание контекста на 512K токенах с минимальной деградацией.
Квантование в обучении: Модель обучалась с использованием 8-битного квантования (FP8), что теоретически должно упростить последующее 4-битное квантование без серьёзных потерь качества.

Самое интересное - архитектура оптимизирована под llama.cpp с самого начала. Разработчики явно учли опыт с Qwen3.5, где интеграция заняла лишние две недели.

Железо? Забудьте про домашний ПК

Давайте начистоту. Запустить эту модель на домашнем компьютере не получится. Даже близко.

Конфигурация	Минимальные требования	Рекомендуемые
Полная точность (FP16)	~800 ГБ VRAM	1.2 ТБ VRAM
8-битное квантование (Q8_0)	~400 ГБ VRAM	600 ГБ VRAM
4-битное квантование (Q4_K_M)	~200 ГБ VRAM	300 ГБ VRAM

Даже с 4-битным квантованием вам потребуется минимум 4 карты RTX 4090 (24 ГБ каждая) или 2-3 профессиональные карты типа H100 (80 ГБ). И это только для загрузки модели. Для комфортной работы с контекстом 256K нужно ещё 20-30% сверху.

💡

Если у вас нет доступа к серверному железу, присмотритесь к Qwen3-30B на Orange Pi или бесплатному серверу на Oracle Cloud. Для 397B-модели облачные вычисления будут стоить $15-30 в час.

Как запустить, когда веса появятся

Допустим, у вас есть доступ к нужному железу. Или вы готовы платить за облачные инстансы. Что дальше?

1Скачивание весов

Веса появятся на Hugging Face и ModelScope. Ожидаемый размер: 750-800 ГБ в формате safetensors. Подготовьте минимум 1.5 ТБ свободного места на SSD/NVMe - распаковка и конвертация съедят дополнительное пространство.

2Конвертация в GGUF

Используйте последнюю версию llama.cpp (на 16.02.2026 это v0.15.0 или новее). Команда конвертации будет выглядеть примерно так:

python convert.py qwen-3.5-plus-397b-a17b/ \
  --outfile qwen-3.5-plus-397b-a17b.Q4_K_M.gguf \
  --outtype q4_k_m

Конвертация займёт 6-12 часов даже на мощном сервере. Не пытайтесь делать это на слабом железе - процесс съест всю оперативную память.

3Запуск inference

Для запуска потребуется llama.cpp, скомпилированный с поддержкой CUDA и cuBLAS. Ключевые флаги:

./main -m qwen-3.5-plus-397b-a17b.Q4_K_M.gguf \
  -n 512 \
  -t 64 \
  -ngl 99 \
  -c 262144 \
  --mirostat 2 \
  --temp 0.7

Флаг -ngl 99 загрузит все слои в VRAM. Если памяти не хватит, уменьшайте это значение. Но помните: каждый слой, оставленный в оперативной памяти, замедлит генерацию в 5-10 раз.

Официальная поддержка в Ollama появится через 1-2 недели после релиза весов. Не пытайтесь использовать старые версии - архитектура A17B требует специальной обработки экспертов.

Зачем всё это нужно?

Честный вопрос. Qwen3-235B уже обгоняет ChatGPT Pro в большинстве тестов. Зачем нужна модель почти в два раза больше?

Ответ в двух словах: контекст и рассуждения. 397B параметров + архитектура A17B дают качественный скачок в:

Многошаговых рассуждениях: Модель может держать в голове 10-15 промежуточных шагов без потери нити
Работе с кодом: Понимание проектов из 50+ файлов становится реальным
Мультимодальности: Архитектура заточена под легкую интеграцию с Qwen-Image-2512

Но есть и тёмная сторона. Требования к железу делают модель недоступной для 99.9% разработчиков. Это создаёт риск: самые мощные open-source модели будут доступны только корпорациям и хорошо финансируемым исследовательским группам.

Что будет дальше?

До релиза весов остались дни. Сообщество замерло в ожидании. Но уже сейчас ясно несколько вещей.

Во-первых, гонка размеров продолжается. Если в январе мы обсуждали три прорывные модели, то теперь фокус смещается к чистому масштабу.

Во-вторых, квантование станет ключевым навыком. Запустить 397B модель в полной точности смогут единицы. А вот 4-битная версия (200 ГБ VRAM) уже ближе к реальности для многих лабораторий.

И последнее. Не гонитесь за размером. Qwen3-4B на Intel NPU решает 80% практических задач. 397B модель нужна для исследований на грани возможного. Не для генерации email или рефакторинга кода.

Когда веса появятся, первыми их запустят крупные облачные провайдеры. Обычные разработчики получат доступ через API. И это, возможно, главный парадокс: самая открытая модель в истории окажется самой закрытой на практике.

Но сам факт её существования меняет правила игры. Теперь у сообщества есть эталон. 397 миллиардов параметров. Открытые веса. Осталось только найти 200 ГБ видеопамяти...

Qwen 3.5 Plus (397B-A17B): китайский open-source монстр, который не поместится ни в один домашний ПК