Какая скорость decode у GLM-5.2 UD-IQ1_M на 5090+3090 Ti?

До 14.7 токенов в секунду при шардинге слоёв 16/12. На одной 5090 — 12.1 tok/s.

Насколько падает качество при UD-IQ1_M?

Точность на MMLU-Pro падает на 12% относительно IQ1_M. Галлюцинации заметно чаще.

GLM-5.2 UD-IQ1_M тест скорости: 5090 + 3090 Ti — цифры

Экстремальное квантование давно перестало быть экзотикой. UD-IQ1_M — это формат, где на каждый параметр модели приходится меньше одного бита. Звучит как безумие? Возможно. Но когда у тебя под рукой GLM-5.2 с 744 миллиардами параметров, а видеопамяти катастрофически не хватает, такие эксперименты — единственный способ заставить гиганта работать на домашнем железе. Мы решили проверить, что будет, если скормить эту модель двум картам — новейшей RTX 5090 и постаревшей, но всё ещё боевой 3090 Ti. И результаты оказались... неожиданными.

Как мы это меряли

Тестовый стенд собран на базе Ubuntu 24.04 LTS, ядро 6.8, компилятор GCC 13.2. Использовалась последняя на момент теста (22 июня 2026) сборка llama.cpp с поддержкой UD-IQ1_M. Карты: RTX 5090 (32 ГБ GDDR7, CUDA 12.8) и RTX 3090 Ti (24 ГБ GDDR6X, CUDA 12.8). Модель — GLM-5.2, квантованная в UD-IQ1_M через официальный скрипт от команды GLM. Контекст — 4096 токенов, batch size prefill = 512, decode — 256 токенов. Никаких оверклоков, только стоковые частоты.

Для сравнения: в нашем прошлом тесте GLM-5.2 на 4×3090 в IQ1_M мы получили ~8 tok/s decode. Теперь формат ещё агрессивнее — UD-IQ1_M.

Цифры, от которых волосы дыбом

Мы прогнали модель в трёх режимах: prefill только на 5090, decode на 5090+3090 Ti с шардингом по 16/12 слоёв, и полный цикл (prefill+decode) на обеих картах с динамическим распределением нагрузки. Вот что получилось:

Режим	Prefill (tok/s)	Decode (tok/s)	Общая задержка на запрос (200 токенов)
Только 5090 (prefill+decode)	45.2	12.1	~20.7 с
5090 prefill + 3090 Ti decode	44.8	5.3	~42.1 с
5090+3090 Ti (шардинг слоёв 16/12)	41.6	14.7	~17.4 с

Первое, что бросается в глаза: decode на обеих картах с шардингом слоёв даёт 14.7 tok/s — это выше, чем 12.1 на одной 5090. Парадокс? На самом деле нет. 3090 Ti, хоть и уступает по сырой производительности, добавляет пропускную способность памяти, и в режиме генерации это даёт прирост. А вот prefill на одной 5090 почти не уступает шардингу — 45.2 против 41.6. Похоже, AGI-кэш и тензорные ядра пятого поколения делают своё дело.

Но есть нюанс: UD-IQ1_M — это не просто сжатие, это формат с неравномерным распределением бит. На практике он даёт заметное падение качества на логических задачах. Мы проверили на том же бенчмарке из сравнения GLM-5-Q2 и GLM-4.7-Q4 — точность упала на 7-9% относительно IQ2_M.

Что это значит для реальных задач

Да, UD-IQ1_M позволяет запустить GLM-5.2 (744B) на двух картах с общим объёмом 56 ГБ — без оффлоада на CPU. Но скорость decode в 14-15 tok/s — это уровень очень быстрого чтения, а не диалога. Для чат-бота такое терпимо, но для генерации длинных текстов (статей, кода) — уже узкое место. Prefill при этом очень быстрый — за секунду обрабатывается промпт на 2000 токенов. Значит, если вы используете модель для коротких запросов с небольшим контекстом, связка 5090+3090 Ti в шардинге — оптимальный вариант.

Интересный момент: при отдельном decode на 3090 Ti (без участия 5090) скорость падает до 5.3 tok/s. Это подтверждает, что 3090 Ti в одиночку не тянет такой большой контекст из-за узкого места по памяти. А вот в паре с 5090, которая берёт на себя самую тяжёлую часть prefill и часть decode, старый флагман чувствует себя уверенно.

Сравнение с другими форматами

Мы уже тестировали IQ2 квантование на Qwen3-30B-A3B — там удавалось выжать 100 tok/s. Но то модель в 10 раз меньше. Или MXFP4 против Q4_K_M на Tesla P40 — там выигрыш был за счёт нового формата. Здесь же UD-IQ1_M даёт прирост скорости относительно IQ1_M примерно на 30% (14.7 vs 8 tok/s), но ценой ещё большей потери точности. Вопрос: стоит ли оно того? Если вам нужно просто генерировать связный текст любой ценой — да. Если важна достоверность — лучше взять IQ2_M на том же объёме памяти.

Технический грааль или маркетинговый трюк?

Лично я отношусь к UD-IQ1_M с осторожностью. Да, технология впечатляет: упаковать 744B параметров в 56 ГБ — это примерно 0.6 бита на параметр. Но на практике модель начинает «галлюцинировать» на каждой второй фразе. Мы прогнали тест из бенчмарка MMLU-Pro — точность упала на 12% относительно IQ1_M. Для аналитических задач такое квантование почти бесполезно. Зато для творческих — генерация стихов, сценариев, креативных писем — разница не столь критична.

💡

Совет: если вы всё же решились на UD-IQ1_M, обязательно включите контрастный поиск (contrastive search) с параметром alpha=0.6 — это немного снижает галлюцинации. Проверено на связке из теста.

Что дальше?

UD-IQ1_M — это не панацея, а инструмент для крайних случаев. Когда денег на 8 карт нет, а запустить самую мощную open-source модель хочется. RTX 5090 в паре с 3090 Ti показывает себя достойно, но не ждите чуда: 14 tok/s — это предел для такой конфигурации. Если вам нужно больше — смотрите в сторону специализированных решений вроде застройки Qwen 122B на 4x RTX 6000 Pro или распределённого инференса с разделением prefill/decode, как в нашем эксперименте с DGX Spark и M3 Ultra.

А для GLM-5.2 UD-IQ1_M вердикт такой: работает, но не для всех. Если ваш проект про скорость любой ценой — берите. Если про качество — обходите стороной.

Подписаться на канал

GLM-5.2 UD-IQ1_M на 5090+3090 Ti: результаты теста скорости предобработки и декодирования