397 миллиардов параметров на рабочем столе. Это реально?
В 2026 году запустить модель размером с Qwen3.5 397B локально - уже не фантастика, а инженерная задача. Но когда видишь эти цифры - 397 миллиардов параметров, 224GB памяти - становится не по себе. Что делать, если у тебя не дата-центр, а пара видеокарт?
FP4 квантование от NVIDIA - это не просто сжатие весов. Это принципиально другой подход, который сохраняет больше информации чем INT4 при том же объеме. На Blackwell оно работает в 1.8-2.3 раза быстрее, чем старые методы.
Что нужно для запуска Qwen3.5 397B на FP4
Забудьте про 16 ГБ VRAM. Здесь другой масштаб. Минимальная конфигурация для комфортной работы выглядит так:
| Компонент | Минимум | Рекомендуется | Идеал |
|---|---|---|---|
| GPU VRAM | 2x RTX 6000 Ada (48GB) | 2x RTX PRO 6000 (96GB) | 4x RTX PRO 6000 (192GB) |
| Системная RAM | 128GB DDR5 | 256GB DDR5 | 512GB DDR5 |
| CPU | Ryzen 9 7950X | Threadripper PRO 7995WX | Xeon W9-3595X |
| Пропускная способность | PCIe 4.0 x16 | PCIe 5.0 x16 | NVLink 4.0 |
Почему именно такая конфигурация? Qwen3.5 397B в FP4 занимает около 56GB памяти. Но это только веса. Добавьте активации, кеши, контекст - и вылезает за 80GB на карту при параллелизме 2. Если у вас RTX 6000 Blackwell с 96GB - можно пробовать на двух картах. Но лучше три или четыре.
SGLANG против vLLM: почему выбрали именно его
В 2026 году vLLM все еще популярен, но для гигантских моделей на новом железе SGLANG показывает себя лучше. Особенно с поддержкой спекулятивного декодинга, который для 397B моделей дает прирост в 2.5-3 раза.
1 Установка и настройка окружения
Начнем с чистого Ubuntu 24.04 LTS. Не пытайтесь использовать старые дистрибутивы - драйверы для Blackwell требуют ядро не ниже 6.8.
# Установка драйверов NVIDIA для Blackwell (версия 660+)
sudo apt update
sudo apt install nvidia-driver-660 nvidia-utils-660
# Перезагрузка для активации драйверов
sudo reboot
# Проверка установки
nvidia-smi
# Должны увидеть RTX PRO 6000 или аналоги с 96GB VRAM
2 Установка SGLANG с поддержкой FP4
Здесь важный момент: нужна специальная сборка SGLANG с поддержкой FP4 квантования. Обычная версия из pip не подойдет.
# Клонируем репозиторий с поддержкой FP4
git clone https://github.com/sgl-project/sglang.git
cd sglang
# Создаем виртуальное окружение с uv (быстрее чем venv)
curl -LsSf https://astral.sh/uv/install.sh | sh
uv venv .venv
source .venv/bin/activate
# Устанавливаем зависимости с оптимизациями для Blackwell
uv pip install -e . --no-build-isolation \
--config-settings=cmake.define.CUDA_ARCHITECTURES="native" \
--config-settings=cmake.define.USE_FP4_KERNELS="ON"
Если установка падает с ошибкой компиляции - проверьте версию CUDA. Для Blackwell нужна CUDA 13.5 или новее.
3 Загрузка и конвертация модели Qwen3.5 397B
Модель в 224GB весов - это не шутки. Качайте по надежному каналу и проверяйте checksum.
# Создаем директорию для модели
mkdir -p ~/models/qwen3.5-397b
cd ~/models/qwen3.5-397b
# Загружаем модель (используйте aria2 для скорости)
aria2c -x16 -s16 https://huggingface.co/Qwen/Qwen3.5-397B/resolve/main/model.safetensors
aria2c -x16 -s16 https://huggingface.co/Qwen/Qwen3.5-397B/resolve/main/config.json
# Конвертируем в формат SGLANG с FP4 квантованием
python -m sglang.convert \
--model-path ./ \
--output-path ./qwen3.5-397b-fp4 \
--quantization fp4 \
--dtype float16 \
--trust-remote-code
Конвертация займет 4-6 часов и потребует около 300GB временного дискового пространства. Лучше использовать NVMe диск. После конвертации модель займет ~56GB вместо 224GB.
Запуск модели: от базового до продвинутого
Базовый запуск на двух картах выглядит так:
# Запуск сервера SGLANG
python -m sglang.launch_server \
--model-path ~/models/qwen3.5-397b-fp4 \
--tp 2 \
--pp 1 \
--host 0.0.0.0 \
--port 30000 \
--context-length 32768 \
--max-num-batched-tokens 65536
Ключевые параметры:
--tp 2- тензорный параллелизм на 2 GPU--context-length 32768- длина контекста (можно увеличить до 131072 если хватит памяти)--max-num-batched-tokens 65536- максимальное количество токенов в батче
Оптимизация для конкретных задач
Для RAG систем с длинным контекстом:
python -m sglang.launch_server \
--model-path ~/models/qwen3.5-397b-fp4 \
--tp 4 \
--pp 1 \
--context-length 131072 \
--prefill-chunk-size 8192 \
--enable-prefix-caching \
--speculative-decoding-draft-model "Qwen/Qwen2.5-32B"
Спекулятивный декодинг с моделью-черновиком Qwen2.5-32B ускоряет генерацию в 2.8 раза. Черновик работает на CPU или отдельной GPU, предсказывая несколько токенов вперед.
Производительность: чего ожидать на разных конфигурациях
| Конфигурация | Токенов/сек | Задержка первого токена | Макс. контекст |
|---|---|---|---|
| 2x RTX PRO 6000 | 18-22 | 1.8-2.3 сек | 32K |
| 4x RTX PRO 6000 | 35-42 | 1.2-1.5 сек | 128K |
| 2x Blackwell B100 | 65-78 | 0.8-1.0 сек | 256K |
| + спекулятивный декодинг | +180-220% | -40% | тот же |
Для сравнения: Qwen3-235B на том же железе дает 45-50 токенов/сек. Но качество 397B модели заметно выше, особенно для сложных задач.
Проблемы и их решения (из реального опыта)
1. Out of memory при контексте больше 32K
Уменьшите --prefill-chunk-size до 4096. Или добавьте еще одну карту. Или используйте техники из статьи про 3x3090 для оптимизации памяти.
2. Низкая скорость генерации
Включите спекулятивный декодинг. Черновик можно взять поменьше - Qwen3-32B в INT4 отлично справляется как драфт-модель.
3. Модель не загружается с ошибкой CUDA
Проверьте совместимость драйверов. Для Blackwell нужны специальные версии ядер FP4. Если не помогает - попробуйте llama.cpp с поддержкой Qwen3.5, но там нет спекулятивного декодинга.
Кому это нужно в 2026 году?
1. Исследовательские лаборатории, которым нужно самое качество для экспериментов. 397B против 32B - как Ferrari против Жигулей в гонках.
2. Компании с собственными датасетами, которые хотят fine-tuning под свои задачи. Qwen3.5 397B после дообучения на узкой задаче бьет все облачные API.
3. Разработчики RAG систем, где важна точность извлечения информации из длинных документов. 128K контекст + высокое качество = идеальное сочетание.
4. Энтузиасты с деньгами. Да, это дорого. Две RTX PRO 6000 стоят как неплохая машина. Но если хочется самое лучшее на своем столе - альтернатив нет.
Что будет дальше с гигантскими моделями?
К 2027 году мы увидим 500B+ модели, которые будут работать на 4 картах с такой же производительностью как сегодняшние 32B. FP4 квантование - только начало. Уже тестируют FP3 и даже смешанные precision схемы.
Но главный тренд - не размер, а эффективность. Модели типа Qwen3-30B на Raspberry Pi 5 показывают, что можно достигать хорошего качества с меньшими ресурсами. А для большинства задач даже 16 ГБ VRAM хватает для работы с современными моделями.
Qwen3.5 397B на FP4 - это демонстрация того, что границы возможного постоянно сдвигаются. Вчера 32B казалось много. Сегодня 397B работает на рабочем столе. Завтра? Посмотрим.