Когда 397 миллиардов параметров перестают быть страшной цифрой

Представьте модель, которая по размерам превосходит GPT-4 Turbo, стоит рядом с Claude Opus 4.5, но при этом запускается на вашем железе. Qwen3.5-397B-A17B - это не просто очередная большая модель. Это архитектурный эксперимент, который доказывает: MoE (Mixture of Experts) работает не только в дата-центрах Google.

На 16 февраля 2026 года это самая большая открытая MoE-модель, доступная для локального запуска. Да, есть более крупные модели, но они либо закрытые, либо требуют серверных стоек.

Почему 397B, а не что-то поменьше?

Здесь работает простая математика. Qwen3.5-32B дает хорошие результаты. Qwen3.5-72B - отличные. Но 397B - это качественный скачок. Не линейный рост, а экспоненциальный. Особенно в задачах, требующих глубокого понимания контекста: код-ревью, научные статьи, многошаговое планирование.

💡

MoE-архитектура - это не просто «большая модель». Это 64 эксперта по 7.7B каждый, плюс маршрутизатор, который решает, к какому эксперту отправить запрос. На практике это означает, что для обработки одного токена активируется только 2-4 эксперта из 64.

Железо: что нужно для запуска монстра

Здесь начинается самое интересное. Все думают, что для 397B нужен суперкомпьютер. На деле - достаточно умного подхода.

Конфигурация	Требования к RAM	Требования к VRAM	Скорость генерации
Full precision (BF16)	~800 GB	~800 GB	Быстрее всего
8-bit квантование	~400 GB	~400 GB	Высокая
4-bit квантование (GGUF)	~200 GB	0-24 GB	Приемлемая
4-bit через Unsloth	~200 GB	48-96 GB	Очень высокая

Видите разницу? 800 GB против 200 GB. Это как разница между «нужен серверный шкаф» и «хватит рабочей станции». Если у вас есть опыт запуска 235-миллиардных моделей на 3x3090, то 397B покажется логичным следующим шагом.

1 Скачиваем модель в GGUF формате

Первое, что нужно понять: оригинальная модель весит терабайты. Нам это не нужно. Ищем квантованные версии на Hugging Face. Ключевые слова: Qwen3.5-397B-A17B-GGUF или Qwen3.5-397B-A17B-Q4_K_M.

# Скачиваем через huggingface-hub
pip install huggingface-hub

huggingface-cli download Qwen/Qwen3.5-397B-A17B-GGUF \
  --local-dir ./qwen397b-gguf \
  --local-dir-use-symlinks False \
  --include "*Q4_K_M*"

Q4_K_M - это оптимальный баланс между качеством и размером. Если хотите сэкономить место - берите Q4_0. Если нужна максимальная точность - Q5_K_M. Но для 397B даже Q4_K_M дает поразительные результаты.

2 Подготавливаем llama.cpp

Не используйте старые версии llama.cpp. Для Qwen3.5 нужны специфические патчи. К счастью, к 2026 году все уже замерджили.

# Клонируем актуальную версию
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

# Собираем с поддержкой CUDA и Metal
make LLAMA_CUDA=1 LLAMA_METAL=1 -j

Если у вас Mac с Apple Silicon - включите LLAMA_METAL. Для NVIDIA - LLAMA_CUDA. Для чисто CPU-запуска - просто make. Помните про историю с патчами для Qwen3.5 в llama.cpp? Теперь все работает из коробки.

3 Запускаем через llama.cpp

Здесь начинается магия. 200 GB модели нужно загрузить в RAM. Да, именно в оперативную память.

# Запуск на CPU с 256 GB RAM
./main -m ./qwen397b-gguf/Qwen3.5-397B-A17B-Q4_K_M.gguf \
  -n 512 \
  -t 32 \
  --temp 0.7 \
  --repeat-penalty 1.1 \
  -p "Translate the following technical documentation to Russian:"

Ключевые параметры:

-t 32: количество потоков. Для AMD Threadripper или Xeon можно ставить 64-128
--mlock: принудительно удерживает модель в RAM (если хватает)
--mmap: использует memory mapping для частичной загрузки

💡

Если у вас «всего» 128 GB RAM, но есть быстрый SSD (NVMe), используйте --mmap. Модель будет подгружаться с диска по мере необходимости. Скорость упадет в 2-3 раза, но работать будет.

Unsloth: когда скорость важнее всего

Llama.cpp хорош для CPU. Но если у вас есть GPU с 48+ GB VRAM (2xRTX 4090, A6000, H100), то Unsloth покажет, на что способна эта архитектура.

4 Устанавливаем Unsloth

# Устанавливаем актуальную версию на 16.02.2026
pip install unsloth
pip install "unsloth[colab-new]" torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

Не пытайтесь использовать старые версии Unsloth. Для Qwen3.5-397B нужны специфические оптимизации, которые появились только в версиях 2025 года.

5 Загружаем модель через Unsloth

from unsloth import FastLanguageModel
import torch

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "Qwen/Qwen3.5-397B-A17B",
    max_seq_length = 8192,
    dtype = torch.float16,
    load_in_4bit = True,  # Критически важно!
    token = "your_hf_token",
)

Load_in_4bit - не опция, а необходимость. Без этого 397B не влезет даже в 96 GB VRAM. Unsloth использует собственную реализацию 4-bit квантования, которая дает +30% скорости по сравнению с стандартным bitsandbytes.

Ошибки, которые сломают ваш запуск

Я видел десятки попыток запустить 397B. 90% провалов происходят из-за этих ошибок:

Нехватка swap space: Linux по умолчанию выделяет 2 GB swap. Для 397B нужно минимум 100 GB. sudo fallocate -l 100G /swapfile && sudo mkswap /swapfile && sudo swapon /swapfile
Неправильная версия llama.cpp: Берете версию месячной давности - получаете «unsupported tensor type». Всегда git pull перед сборкой.
Попытка запустить на Windows без WSL2: Native Windows llama.cpp не поддерживает mmap для больших моделей. Только WSL2 или Linux.
Забыли про контекст: 397B по умолчанию использует 32k контекст. Если у вас 16k - пересобирайте с правильными параметрами.

Сравнение с коммерческими гигантами

Зачем все это? Чтобы понять разницу между «хорошо» и «почти как GPT-5.2».

Модель	MMLU	HumanEval	GSM8K	Стоимость запуска
GPT-5.2 (API)	92.4	92.1	96.7	$5-10 за 1M токенов
Claude Opus 4.5	91.8	90.3	95.2	$15 за 1M токенов
Qwen3.5-397B (4-bit)	88.7	87.9	93.1	$0 после покупки железа
Qwen3.5-72B	83.2	82.4	89.5	$0

Разница в 3-4 процентных пункта на бенчмарках. На практике? Для 80% задач вы не заметите разницы. Особенно если учитывать, что 235B уже конкурировала с ChatGPT Pro.

Оптимизации, которые реально работают

Запустили модель, но она думает 10 секунд на токен? Вот что можно сделать:

Слойный offload: В llama.cpp используйте --ngl 40. 40 слоев на GPU, остальные на CPU. Баланс между скоростью и потреблением VRAM.
Flash Attention 3: В Unsloth это включено по умолчанию. Если собираете сами - проверьте, что используете torch.nn.functional.scaled_dot_product_attention.
Paged Attention: Для очень длинных контекстов (32k+). llama.cpp поддерживает через --flash-attn.
Speculative decoding: Запустите маленькую модель (Qwen3.5-3B) параллельно с большой. Маленькая «предсказывает» токены, большая только проверяет. Ускорение в 1.5-2x.

Что делать, если нет 256 GB RAM?

Реальность такова, что у большинства нет рабочей станции за $10k. Но есть обходные пути:

Аренда в облаке: Oracle Cloud дает 256 GB RAM за $400/месяц. Добавьте инструкцию по настройке - и получите удаленный AI-сервер.
Меньшая модель: Qwen3.5-72B дает 85% качества при 25% требований к железу.
Онлайн инференс: Replicate, Hugging Face Inference Endpoints, Banana Dev. Запускаете модель один раз, потом только API-запросы.
Ждать: Через 6 месяцев появятся более эффективные 4-bit квантования. Через год - 2-bit, которые сократят требования вдвое.

💡

Самый неочевидный совет: если вы работаете с кодом, посмотрите на Qwen3-Coder-Next 80B. Для программирования разница между 80B и 397B минимальна, а требования к железу в 3 раза ниже.

Будущее, которое уже здесь

Qwen3.5-397B - это не конечная точка. Это демонстрация того, что открытые модели достигли уровня, когда для большинства задач коммерческие API больше не нужны. Да, нужно железо. Да, нужно время на настройку. Но результат - полный контроль, нулевая стоимость за токен, приватность данных.

Через год появятся модели с 500B параметрами, которые будут работать на 128 GB RAM. Через два - на 64 GB. Прогресс в квантовании и архитектуре MoE движется быстрее, чем рост требований к железу.

Сейчас кажется, что 397B - это много. Через полгода будет казаться нормой. А через год - «почему так мало?».

397 миллиардов параметров на вашем ПК: запускаем Qwen3.5-397B локально через Unsloth и GGUF