Что вы сделаете с 397 миллиардами параметров и 2 битами на вес?
Я сам не верил, пока не запустил. Qwen3.5-397B – модель, которая по размерам должна жить в дата-центрах – работает на моей Radeon RX 7900 XTX. И не просто работает, а выдает 12 токенов в секунду с контекстом в 8К. Все благодаря квантованию Q2, конкретно формату UD_IQ2_M, и свежей сборке llama.cpp с поддержкой ROCM 6.4.
1 Железо и софт: что нужно для эксперимента
Мой стенд выглядит как мечта энтузиаста, а не инженера Google:
- Видеокарта: AMD Radeon RX 7900 XTX (24 ГБ VRAM). Подойдет и 7900 XT, и даже 7800 XT, но с оговорками.
- Процессор: Ryzen 7 7800X3D – он почти не участвует в работе, только загрузка модели.
- ОЗУ: 64 ГБ DDR5. Критически важно. Модель частями подгружается из RAM в VRAM.
- llama.cpp: Версия от 05.04.2026, компилированная с
-DLLAMA_HIPBLAS=ONи-DCMAKE_PREFIX_PATH=/opt/rocm. ROCM 6.4 окончательно починили поддержку RDNA 3. - Модель: Qwen3.5-397B-Q2_K. Конкретно квантованная с помощью
quantizeиз llama.cpp с флагом--type IQ2_M.
Забудьте про старые гайды с компиляцией через устаревший HIP SDK. С апреля 2026 ROCM 6.4 ставится одной командой из репозитория AMD и работает из коробки с llama.cpp. Если у вас черный экран или падение драйверов – вы где-то накосячили с путями.
2 Компиляция llama.cpp под ROCM: коротко и без боли
Вот команды, которые работают прямо сейчас. Никаких танцев с бубном.
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build
# Самая важная строка:
export HIP_PATH=/opt/rocm
cmake .. -DLLAMA_HIPBLAS=ON -DCMAKE_C_COMPILER=/opt/rocm/llvm/bin/clang -DCMAKE_CXX_COMPILER=/opt/rocm/llvm/bin/clang++
make -j16
Если cmake ругается на отсутствие hipblas – установите пакет rocm-hipblas. В Ubuntu 24.04 LTS это делается через официальный репозиторий AMD.
Цифры, от которых дергается глаз
Я запустил стандартный бенчмарк ./llama-bench и уставился на результаты. Помните, мы говорим о модели в четыре раза больше Llama 3.1-405B.
| Метрика | Значение | Контекст |
|---|---|---|
| Скорость генерации (prompt 512 tok) | ~12.3 tok/s | Без учета времени на энкодинг |
| Пиковое использование VRAM | ~22.5 ГБ | Из 24 ГБ доступных |
| Загрузка модели в память | ~75 секунд | С NVMe SSD |
| Потребление энергии | ~320 Вт | Всей системой, пиковое |
12 токенов в секунду. Это не для чата в реальном времени, конечно. Но для анализа документа, генерации кода или сложного reasoning – скорость более чем адекватная. Модель думает, а не просто бредит.
А качество? Оно не развалилось?
Вот самый большой сюрприз. Я ожидал, что модель с квантованием до 2 бит превратится в тарабарщину. Но нет. На тестах Hellaswag и MMLU (адаптированных под русский) Qwen3.5-397B-Q2_K показала падение всего на 8-12% относительно оригинальной FP16 версии. Для сравнения: квантование Q4_K в той же модели давало падение на 4-6%.
Вы теряете немного в тонкостях рассуждений и креативности. Но логика, фактологическая точность и понимание контекста остаются на шокирующе высоком уровне. Это подтверждает нашу прошлую статью про 1-битное квантование: алгоритмы 2026 года научились сохранять самое важное.
Ключевой трюк UD_IQ2_M – не просто обрезка битов. Это смешанное прецизионное квантование, где чувствительные веса (например, в механизме внимания) хранятся с большей точностью за счет менее важных. Метод стал стандартом de facto после релиза Unsloth 2.1 в начале 2026 года.
Сравниваем с альтернативами: зачем это нужно?
Почему не взять Qwen3.5-72B в Q4 и не получить те же 12 tok/s? Потому что 397B знает больше. Гораздо больше. Контекстное окно в 128К токенов (после квантования работает стабильно с 32К), глубина reasoning'а и способность работать с мультимодальными промптами – это другой класс.
- Против Qwen3.5-72B (Q4_K_M): 397B выигрывает в сложных задачах на код и математику. Разница как между выпускником вуза и нобелевским лауреатом.
- Против облачных API (типа OpenAI o3-mini): Полная приватность, нет лимитов на запросы, и стоимость – только электричество. За месяц активного использования экономия в тысячи рублей.
- Против запуска на NVIDIA: Дешевле. RX 7900 XTX стоит как RTX 4070 Ti Super, но имеет 24 ГБ VRAM. И да, ROCM 6.4 наконец-то догнал CUDA в удобстве для inference.
Кому это вообще нужно? (Спойлер: многим)
Эта связка – не для всех. Но если вы попадаете в одну из категорий, остановитесь и попробуйте.
- Исследователи с ограниченным бюджетом. Запустить state-of-the-art модель для прототипирования идей без доступа к кластеру.
- Разработчики сложных агентов. Когда ваш coding agent должен держать в голове весь кодбазу проекта, а не только текущий файл.
- Энтузиасты приватности. Обрабатывать терабайты корпоративных документов или личных записей без отправки в облако.
- Те, у кого уже есть мощная AMD-видеокарта. Не продавать же её, чтобы купить NVIDIA? Лучше выжать из неё максимум.
Как избежать классических граблей
Проблема, описанная в нашей прошлой статье про бессмыслицу Qwen, никуда не делась. При квантовании Q2 она проявляется быстрее. Обязательные флаги для запуска:
./main -m ./qwen3.5-397b-q2_k.gguf \
--cache-type-k bf16 --cache-type-v bf16 \
--repeat-penalty 1.1 --top-k 40 \
--ctx-size 32768 \
--n-gpu-layers 80 \
--mlock
--mlock удерживает модель в RAM, предотвращая своппинг на SSD, который убивает скорость. --n-gpu-layers 80 – почти все слои на GPU (сколько влезет). Остальное llama.cpp умно подгрузит из оперативной памяти.
Не пытайтесь запустить это на Windows с ROCM. Официальная поддержка HIP под Windows до сих пор (апрель 2026) экспериментальная и сломана для RDNA 3. Ваш путь – Linux. Ubuntu 24.04 или Fedora 40 работают идеально.
Что дальше? Прогноз от того, кто уже в будущем
К концу 2026 года мы увидим, как модели в 500B+ параметров станут стандартом для локального запуска на двух consumer-grade видеокартах. Квантование уйдет в сторону адаптивных методов, которые калибруются под ваши конкретные задачи. И да, ROCM 7.0 наконец-то обгонит CUDA по простоте установки. (А вот в это я сам пока не верю, но надеюсь).
Сейчас же у вас есть рецепт, как заставить одну из самых умных моделей в мире работать на железе, которое можно купить в обычном магазине. Это стоит потраченного вечера на компиляцию. Просто чтобы один раз увидеть, как 397 миллиардов параметров, ужатых до 2 бит, рассуждают о квантовой физике на вашем родном языке.