Когда 128GB VRAM - это мало
Вы купили RTX 4090 Ti Super с 128GB памяти (да, такие появились в 2025 году). Думали, что теперь любая модель влезет. Открываете Qwen3.5-397B в формате Q4_K_M - 200GB. В FP16 - 800GB. Ваша карта внезапно кажется детской игрушкой.
Знакомо? Тогда smol-IQ2_XS - ваш новый лучший друг. Этот формат квантования в llama.cpp на 17 февраля 2026 года - самое агрессивное сжатие, которое еще не превращает модель в бессвязный бред.
Важно: smol-IQ2_XS - экспериментальный формат. Не используйте его для production без тестирования. Но для локальных экспериментов с гигантскими моделями - это единственный способ.
Что такое smol-IQ2_XS и почему он особенный
IQ-квантования (Imatrix Quantization) появились в llama.cpp в 2024 году. Идея проста: вместо равномерного сжатия всех весов, мы анализируем, какие слои важнее. Собираем матрицу важности (imatrix) на датасете, потом квантуем с учетом этой информации.
smol-IQ2_XS - это эволюция. "smol" означает использование меньшего датасета для imatrix (экономит время). "IQ2" - 2-битное квантование. "XS" - экстремально агрессивная оптимизация под размер.
| Формат квантования | Размер Qwen3.5-397B | Качество (MMLU) | Скорость (токен/с) |
|---|---|---|---|
| FP16 (оригинал) | ~800 GB | 89.2% | N/A (не влезает) |
| Q4_K_M | ~200 GB | 87.1% | 3-5 |
| Q3_K_S | ~150 GB | 85.3% | 5-7 |
| smol-IQ2_XS | ~100 GB | 83.8% | 8-12 |
Видите магию? 100GB против 800GB. Потеря качества - 5.4 процентных пункта. На практике вы этого почти не заметите, особенно в творческих задачах. А скорость... да, 2-битное квантование быстрее 4-битного. Парадокс, но факт.
Почему не TQ1 или другие экстремальные форматы?
TQ1 (1-битное квантование) сжимает Qwen3.5-397B до ~50GB. Звучит заманчиво? Забудьте. Качество падает до 65-70% на MMLU. Модель начинает галлюцинировать так, что ChatGPT 2023 года выглядит гением.
IQ2_XS (без "smol") дает похожие результаты, но требует сбора imatrix на полном датасете. Это 20+ часов на RTX 4090. Smol-версия делает это за 2-3 часа с минимальной потерей качества.
Практика: от скачивания до первого токена
1 Собираем llama.cpp с поддержкой IQ2
На 17 февраля 2026 года нужна версия llama.cpp не ниже 4.0.1. Более старые версии не поддерживают smol-IQ2_XS.
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make clean && make -j$(nproc) LLAMA_CUDA=1
Ключевой момент: LLAMA_CUDA=1. Без этого квантование будет в 10 раз медленнее.
2 Ищем готовую модель или квантуем сами
На Hugging Face уже есть несколько smol-IQ2_XS версий Qwen3.5-397B. Ищите по тегам: "Qwen3.5-397B-IQ2_XS-GGUF". Если не нашли - готовьтесь к 6-8 часам квантования.
Скачиваем оригинальную модель в формате safetensors (около 800GB, удачи с этим):
# Альтернатива: используем уже скачанные веса
python convert.py --outtype f16 \
~/models/Qwen3.5-397B-A17B/ \
--outfile qwen3.5-397b.f16.gguf
3 Собираем imatrix (матрицу важности)
Вот где "smol" проявляет себя. Вместо полного датасета используем 1000-5000 примеров:
./imatrix -m qwen3.5-397b.f16.gguf \
-f ~/datasets/smol_calibration.jsonl \
-o qwen3.5-397b.imatrix.dat \
--threads 32 --gpu-layers 80
--gpu-layers 80 - это важно. Чем больше слоев на GPU, тем быстрее. На 128GB карте можно поставить 100+.
Ошибка новичка: пытаться собрать imatrix на CPU. Это займет неделю. Используйте GPU, даже если модель не влезает целиком. llama.cpp умеет работать с частями модели на GPU, остальным на CPU.
4 Квантуем в smol-IQ2_XS
./quantize --imatrix qwen3.5-397b.imatrix.dat \
qwen3.5-397b.f16.gguf \
qwen3.5-397b.IQ2_XS.gguf \
IQ2_XS
Ждем. На RTX 4090 Ti Super 128GB это займет 3-4 часа. Без imatrix (просто IQ2_XS) - 6-8 часов.
5 Запускаем и удивляемся
./main -m qwen3.5-397b.IQ2_XS.gguf \
-n 512 -t 32 --gpu-layers 120 \
-p "Напиши поэму о квантовании нейросетей"
--gpu-layers 120 - почти все слои на GPU. Оставшиеся 8GB памяти (из 128) используем для контекста и вычислений. Если упали с ошибкой CUDA out of memory - уменьшайте до 110, 100.
Сравнение с альтернативами: что выбрать в 2026 году
Smol-IQ2_XS - не единственный способ запихнуть непоместимое. Вот что еще работает:
- Unsloth с 4-битным квантованием - дает ~200GB модель, но требует 48-96GB VRAM для нормальной скорости. Качество лучше (86-87%), но и требования выше. Если у вас несколько карт - вариант. Мы писали об этом в статье про запуск 397B через Unsloth.
- Слоевый стриминг (layer streaming) - когда модель не помещается целиком, загружаем слои по очереди. Медленно (1-2 токена в секунду), но работает на любой карте. Подробности в нашем руководстве по запуску 70B+ моделей.
- IQ1_S - еще более агрессивное 1-битное квантование с imatrix. Размер ~50GB, качество ~75%. Только для экспериментов, где качество не критично.
Кому подойдет smol-IQ2_XS (а кому нет)
Берите, если:
- У вас одна мощная карта (128GB VRAM или больше)
- Нужно потестировать гигантскую модель перед развертыванием в облаке
- Работаете с творческими задачами (поэзия, сторителлинг), где небольшая потеря точности не критична
- Хотите максимальную скорость при ограниченной памяти
Не берите, если:
- Нужна максимальная точность для научных или финансовых расчетов
- У вас несколько карт с суммарно 200+ GB VRAM (лучше взять Q4_K_M)
- Планируете использовать модель в production без дополнительного дообучения
- Нет времени на 3-4 часа квантования (ищите готовые версии)
Что будет дальше с квантованием гигантов
На 17 февраля 2026 года в разработке llama.cpp уже есть IQ1_XXS - 1-битное квантование с улучшенной imatrix. Обещают 60GB для Qwen3.5-397B с качеством 78-80%. Звучит нереально? Полгода назад smol-IQ2_XS тоже казался фантастикой.
Еще один тренд - специализированные квантования под задачи. Одна матрица важности для кода, другая для научных текстов, третья для диалогов. Загружаете нужную imatrix - получаете модель, оптимизированную под вашу задачу.
Мой прогноз: к концу 2026 года мы увидим 500B+ модели, которые запускаются на 64GB картах с качеством, не уступающим сегодняшним 200B моделям в FP16. А smol-IQ2_XS станет таким же стандартом, как сегодня Q4_K_M для 70B моделей.
Совет напоследок: не гонитесь за самым агрессивным квантованием. Возьмите smol-IQ2_XS, протестируйте на своих задачах. Если качество устраивает - отлично. Если нет - попробуйте собрать imatrix на своем датасете, а не на стандартном "smol". Разница в 1-2% качества иногда стоит дополнительных 5 часов вычислений.
И да, если у вас все еще возникают проблемы с запуском больших моделей - посмотрите наши бенчмарки производительности llama.cpp. Там есть сравнения разных форматов квантования на реальном железе.