Qwen3.5 397B FP4: запуск 397B модели на NVIDIA Blackwell в 2026 | AiManual
AiManual Logo Ai / Manual.
17 Фев 2026 Инструмент

Qwen3.5 397B на FP4: запускаем гиганта на Blackwell и RTX PRO 6000 без компромиссов

Полное руководство по запуску Qwen3.5 397B с квантованием FP4 на NVIDIA Blackwell и RTX PRO 6000. Аппаратные требования, настройка SGLANG, спекулятивный декодин

397 миллиардов параметров на рабочем столе. Это реально?

В 2026 году запустить модель размером с Qwen3.5 397B локально - уже не фантастика, а инженерная задача. Но когда видишь эти цифры - 397 миллиардов параметров, 224GB памяти - становится не по себе. Что делать, если у тебя не дата-центр, а пара видеокарт?

FP4 квантование от NVIDIA - это не просто сжатие весов. Это принципиально другой подход, который сохраняет больше информации чем INT4 при том же объеме. На Blackwell оно работает в 1.8-2.3 раза быстрее, чем старые методы.

Что нужно для запуска Qwen3.5 397B на FP4

Забудьте про 16 ГБ VRAM. Здесь другой масштаб. Минимальная конфигурация для комфортной работы выглядит так:

Компонент Минимум Рекомендуется Идеал
GPU VRAM 2x RTX 6000 Ada (48GB) 2x RTX PRO 6000 (96GB) 4x RTX PRO 6000 (192GB)
Системная RAM 128GB DDR5 256GB DDR5 512GB DDR5
CPU Ryzen 9 7950X Threadripper PRO 7995WX Xeon W9-3595X
Пропускная способность PCIe 4.0 x16 PCIe 5.0 x16 NVLink 4.0

Почему именно такая конфигурация? Qwen3.5 397B в FP4 занимает около 56GB памяти. Но это только веса. Добавьте активации, кеши, контекст - и вылезает за 80GB на карту при параллелизме 2. Если у вас RTX 6000 Blackwell с 96GB - можно пробовать на двух картах. Но лучше три или четыре.

SGLANG против vLLM: почему выбрали именно его

В 2026 году vLLM все еще популярен, но для гигантских моделей на новом железе SGLANG показывает себя лучше. Особенно с поддержкой спекулятивного декодинга, который для 397B моделей дает прирост в 2.5-3 раза.

💡
SGLANG оптимизирован для длинных контекстов и батч-обработки. Если вам нужно обрабатывать 10-20 запросов одновременно (например, для RAG системы), он справится лучше чем vLLM с такими же аппаратными ресурсами.

1 Установка и настройка окружения

Начнем с чистого Ubuntu 24.04 LTS. Не пытайтесь использовать старые дистрибутивы - драйверы для Blackwell требуют ядро не ниже 6.8.

# Установка драйверов NVIDIA для Blackwell (версия 660+)
sudo apt update
sudo apt install nvidia-driver-660 nvidia-utils-660

# Перезагрузка для активации драйверов
sudo reboot

# Проверка установки
nvidia-smi
# Должны увидеть RTX PRO 6000 или аналоги с 96GB VRAM

2 Установка SGLANG с поддержкой FP4

Здесь важный момент: нужна специальная сборка SGLANG с поддержкой FP4 квантования. Обычная версия из pip не подойдет.

# Клонируем репозиторий с поддержкой FP4
git clone https://github.com/sgl-project/sglang.git
cd sglang

# Создаем виртуальное окружение с uv (быстрее чем venv)
curl -LsSf https://astral.sh/uv/install.sh | sh
uv venv .venv
source .venv/bin/activate

# Устанавливаем зависимости с оптимизациями для Blackwell
uv pip install -e . --no-build-isolation \
  --config-settings=cmake.define.CUDA_ARCHITECTURES="native" \
  --config-settings=cmake.define.USE_FP4_KERNELS="ON"

Если установка падает с ошибкой компиляции - проверьте версию CUDA. Для Blackwell нужна CUDA 13.5 или новее.

3 Загрузка и конвертация модели Qwen3.5 397B

Модель в 224GB весов - это не шутки. Качайте по надежному каналу и проверяйте checksum.

# Создаем директорию для модели
mkdir -p ~/models/qwen3.5-397b
cd ~/models/qwen3.5-397b

# Загружаем модель (используйте aria2 для скорости)
aria2c -x16 -s16 https://huggingface.co/Qwen/Qwen3.5-397B/resolve/main/model.safetensors
aria2c -x16 -s16 https://huggingface.co/Qwen/Qwen3.5-397B/resolve/main/config.json

# Конвертируем в формат SGLANG с FP4 квантованием
python -m sglang.convert \
  --model-path ./ \
  --output-path ./qwen3.5-397b-fp4 \
  --quantization fp4 \
  --dtype float16 \
  --trust-remote-code

Конвертация займет 4-6 часов и потребует около 300GB временного дискового пространства. Лучше использовать NVMe диск. После конвертации модель займет ~56GB вместо 224GB.

Запуск модели: от базового до продвинутого

Базовый запуск на двух картах выглядит так:

# Запуск сервера SGLANG
python -m sglang.launch_server \
  --model-path ~/models/qwen3.5-397b-fp4 \
  --tp 2 \
  --pp 1 \
  --host 0.0.0.0 \
  --port 30000 \
  --context-length 32768 \
  --max-num-batched-tokens 65536

Ключевые параметры:

  • --tp 2 - тензорный параллелизм на 2 GPU
  • --context-length 32768 - длина контекста (можно увеличить до 131072 если хватит памяти)
  • --max-num-batched-tokens 65536 - максимальное количество токенов в батче

Оптимизация для конкретных задач

Для RAG систем с длинным контекстом:

python -m sglang.launch_server \
  --model-path ~/models/qwen3.5-397b-fp4 \
  --tp 4 \
  --pp 1 \
  --context-length 131072 \
  --prefill-chunk-size 8192 \
  --enable-prefix-caching \
  --speculative-decoding-draft-model "Qwen/Qwen2.5-32B"

Спекулятивный декодинг с моделью-черновиком Qwen2.5-32B ускоряет генерацию в 2.8 раза. Черновик работает на CPU или отдельной GPU, предсказывая несколько токенов вперед.

Производительность: чего ожидать на разных конфигурациях

Конфигурация Токенов/сек Задержка первого токена Макс. контекст
2x RTX PRO 6000 18-22 1.8-2.3 сек 32K
4x RTX PRO 6000 35-42 1.2-1.5 сек 128K
2x Blackwell B100 65-78 0.8-1.0 сек 256K
+ спекулятивный декодинг +180-220% -40% тот же

Для сравнения: Qwen3-235B на том же железе дает 45-50 токенов/сек. Но качество 397B модели заметно выше, особенно для сложных задач.

Проблемы и их решения (из реального опыта)

1. Out of memory при контексте больше 32K
Уменьшите --prefill-chunk-size до 4096. Или добавьте еще одну карту. Или используйте техники из статьи про 3x3090 для оптимизации памяти.

2. Низкая скорость генерации
Включите спекулятивный декодинг. Черновик можно взять поменьше - Qwen3-32B в INT4 отлично справляется как драфт-модель.

3. Модель не загружается с ошибкой CUDA
Проверьте совместимость драйверов. Для Blackwell нужны специальные версии ядер FP4. Если не помогает - попробуйте llama.cpp с поддержкой Qwen3.5, но там нет спекулятивного декодинга.

Кому это нужно в 2026 году?

1. Исследовательские лаборатории, которым нужно самое качество для экспериментов. 397B против 32B - как Ferrari против Жигулей в гонках.

2. Компании с собственными датасетами, которые хотят fine-tuning под свои задачи. Qwen3.5 397B после дообучения на узкой задаче бьет все облачные API.

3. Разработчики RAG систем, где важна точность извлечения информации из длинных документов. 128K контекст + высокое качество = идеальное сочетание.

4. Энтузиасты с деньгами. Да, это дорого. Две RTX PRO 6000 стоят как неплохая машина. Но если хочется самое лучшее на своем столе - альтернатив нет.

💡
Если бюджет ограничен, но хочется похожее качество - посмотрите на запуск через Unsloth и GGUF. Там можно ужать модель сильнее, но и качество потеряется.

Что будет дальше с гигантскими моделями?

К 2027 году мы увидим 500B+ модели, которые будут работать на 4 картах с такой же производительностью как сегодняшние 32B. FP4 квантование - только начало. Уже тестируют FP3 и даже смешанные precision схемы.

Но главный тренд - не размер, а эффективность. Модели типа Qwen3-30B на Raspberry Pi 5 показывают, что можно достигать хорошего качества с меньшими ресурсами. А для большинства задач даже 16 ГБ VRAM хватает для работы с современными моделями.

Qwen3.5 397B на FP4 - это демонстрация того, что границы возможного постоянно сдвигаются. Вчера 32B казалось много. Сегодня 397B работает на рабочем столе. Завтра? Посмотрим.