Когда 128GB VRAM - это мало

Вы купили RTX 4090 Ti Super с 128GB памяти (да, такие появились в 2025 году). Думали, что теперь любая модель влезет. Открываете Qwen3.5-397B в формате Q4_K_M - 200GB. В FP16 - 800GB. Ваша карта внезапно кажется детской игрушкой.

Знакомо? Тогда smol-IQ2_XS - ваш новый лучший друг. Этот формат квантования в llama.cpp на 17 февраля 2026 года - самое агрессивное сжатие, которое еще не превращает модель в бессвязный бред.

Важно: smol-IQ2_XS - экспериментальный формат. Не используйте его для production без тестирования. Но для локальных экспериментов с гигантскими моделями - это единственный способ.

Что такое smol-IQ2_XS и почему он особенный

IQ-квантования (Imatrix Quantization) появились в llama.cpp в 2024 году. Идея проста: вместо равномерного сжатия всех весов, мы анализируем, какие слои важнее. Собираем матрицу важности (imatrix) на датасете, потом квантуем с учетом этой информации.

smol-IQ2_XS - это эволюция. "smol" означает использование меньшего датасета для imatrix (экономит время). "IQ2" - 2-битное квантование. "XS" - экстремально агрессивная оптимизация под размер.

Формат квантования	Размер Qwen3.5-397B	Качество (MMLU)	Скорость (токен/с)
FP16 (оригинал)	~800 GB	89.2%	N/A (не влезает)
Q4_K_M	~200 GB	87.1%	3-5
Q3_K_S	~150 GB	85.3%	5-7
smol-IQ2_XS	~100 GB	83.8%	8-12

Видите магию? 100GB против 800GB. Потеря качества - 5.4 процентных пункта. На практике вы этого почти не заметите, особенно в творческих задачах. А скорость... да, 2-битное квантование быстрее 4-битного. Парадокс, но факт.

Почему не TQ1 или другие экстремальные форматы?

TQ1 (1-битное квантование) сжимает Qwen3.5-397B до ~50GB. Звучит заманчиво? Забудьте. Качество падает до 65-70% на MMLU. Модель начинает галлюцинировать так, что ChatGPT 2023 года выглядит гением.

IQ2_XS (без "smol") дает похожие результаты, но требует сбора imatrix на полном датасете. Это 20+ часов на RTX 4090. Smol-версия делает это за 2-3 часа с минимальной потерей качества.

💡

Если вы уже экспериментировали с запуском 235-миллиардных моделей на 3x3090, то 397B в smol-IQ2_XS покажется логичным шагом. Тот же принцип - агрессивное квантование, но с умной матрицей важности.

Практика: от скачивания до первого токена

1 Собираем llama.cpp с поддержкой IQ2

На 17 февраля 2026 года нужна версия llama.cpp не ниже 4.0.1. Более старые версии не поддерживают smol-IQ2_XS.

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make clean && make -j$(nproc) LLAMA_CUDA=1

Ключевой момент: LLAMA_CUDA=1. Без этого квантование будет в 10 раз медленнее.

2 Ищем готовую модель или квантуем сами

На Hugging Face уже есть несколько smol-IQ2_XS версий Qwen3.5-397B. Ищите по тегам: "Qwen3.5-397B-IQ2_XS-GGUF". Если не нашли - готовьтесь к 6-8 часам квантования.

Скачиваем оригинальную модель в формате safetensors (около 800GB, удачи с этим):

# Альтернатива: используем уже скачанные веса
python convert.py --outtype f16 \
  ~/models/Qwen3.5-397B-A17B/ \
  --outfile qwen3.5-397b.f16.gguf

3 Собираем imatrix (матрицу важности)

Вот где "smol" проявляет себя. Вместо полного датасета используем 1000-5000 примеров:

./imatrix -m qwen3.5-397b.f16.gguf \
  -f ~/datasets/smol_calibration.jsonl \
  -o qwen3.5-397b.imatrix.dat \
  --threads 32 --gpu-layers 80

--gpu-layers 80 - это важно. Чем больше слоев на GPU, тем быстрее. На 128GB карте можно поставить 100+.

Ошибка новичка: пытаться собрать imatrix на CPU. Это займет неделю. Используйте GPU, даже если модель не влезает целиком. llama.cpp умеет работать с частями модели на GPU, остальным на CPU.

4 Квантуем в smol-IQ2_XS

./quantize --imatrix qwen3.5-397b.imatrix.dat \
  qwen3.5-397b.f16.gguf \
  qwen3.5-397b.IQ2_XS.gguf \
  IQ2_XS

Ждем. На RTX 4090 Ti Super 128GB это займет 3-4 часа. Без imatrix (просто IQ2_XS) - 6-8 часов.

5 Запускаем и удивляемся

./main -m qwen3.5-397b.IQ2_XS.gguf \
  -n 512 -t 32 --gpu-layers 120 \
  -p "Напиши поэму о квантовании нейросетей"

--gpu-layers 120 - почти все слои на GPU. Оставшиеся 8GB памяти (из 128) используем для контекста и вычислений. Если упали с ошибкой CUDA out of memory - уменьшайте до 110, 100.

Сравнение с альтернативами: что выбрать в 2026 году

Smol-IQ2_XS - не единственный способ запихнуть непоместимое. Вот что еще работает:

Unsloth с 4-битным квантованием - дает ~200GB модель, но требует 48-96GB VRAM для нормальной скорости. Качество лучше (86-87%), но и требования выше. Если у вас несколько карт - вариант. Мы писали об этом в статье про запуск 397B через Unsloth.
Слоевый стриминг (layer streaming) - когда модель не помещается целиком, загружаем слои по очереди. Медленно (1-2 токена в секунду), но работает на любой карте. Подробности в нашем руководстве по запуску 70B+ моделей.
IQ1_S - еще более агрессивное 1-битное квантование с imatrix. Размер ~50GB, качество ~75%. Только для экспериментов, где качество не критично.

💡

Помните статью про IQ vs Q квантования? Smol-IQ2_XS - это эволюция тех принципов. Матрица важности + оптимизация под скорость сбора данных.

Кому подойдет smol-IQ2_XS (а кому нет)

Берите, если:

У вас одна мощная карта (128GB VRAM или больше)
Нужно потестировать гигантскую модель перед развертыванием в облаке
Работаете с творческими задачами (поэзия, сторителлинг), где небольшая потеря точности не критична
Хотите максимальную скорость при ограниченной памяти

Не берите, если:

Нужна максимальная точность для научных или финансовых расчетов
У вас несколько карт с суммарно 200+ GB VRAM (лучше взять Q4_K_M)
Планируете использовать модель в production без дополнительного дообучения
Нет времени на 3-4 часа квантования (ищите готовые версии)

Что будет дальше с квантованием гигантов

На 17 февраля 2026 года в разработке llama.cpp уже есть IQ1_XXS - 1-битное квантование с улучшенной imatrix. Обещают 60GB для Qwen3.5-397B с качеством 78-80%. Звучит нереально? Полгода назад smol-IQ2_XS тоже казался фантастикой.

Еще один тренд - специализированные квантования под задачи. Одна матрица важности для кода, другая для научных текстов, третья для диалогов. Загружаете нужную imatrix - получаете модель, оптимизированную под вашу задачу.

Мой прогноз: к концу 2026 года мы увидим 500B+ модели, которые запускаются на 64GB картах с качеством, не уступающим сегодняшним 200B моделям в FP16. А smol-IQ2_XS станет таким же стандартом, как сегодня Q4_K_M для 70B моделей.

Совет напоследок: не гонитесь за самым агрессивным квантованием. Возьмите smol-IQ2_XS, протестируйте на своих задачах. Если качество устраивает - отлично. Если нет - попробуйте собрать imatrix на своем датасете, а не на стандартном "smol". Разница в 1-2% качества иногда стоит дополнительных 5 часов вычислений.

И да, если у вас все еще возникают проблемы с запуском больших моделей - посмотрите наши бенчмарки производительности llama.cpp. Там есть сравнения разных форматов квантования на реальном железе.

Запуск Qwen3.5-397B на 128GB GPU: детальный разбор smol-IQ2_XS квантования в llama.cpp