Экстремальное квантование давно перестало быть экзотикой. UD-IQ1_M — это формат, где на каждый параметр модели приходится меньше одного бита. Звучит как безумие? Возможно. Но когда у тебя под рукой GLM-5.2 с 744 миллиардами параметров, а видеопамяти катастрофически не хватает, такие эксперименты — единственный способ заставить гиганта работать на домашнем железе. Мы решили проверить, что будет, если скормить эту модель двум картам — новейшей RTX 5090 и постаревшей, но всё ещё боевой 3090 Ti. И результаты оказались... неожиданными.
Как мы это меряли
Тестовый стенд собран на базе Ubuntu 24.04 LTS, ядро 6.8, компилятор GCC 13.2. Использовалась последняя на момент теста (22 июня 2026) сборка llama.cpp с поддержкой UD-IQ1_M. Карты: RTX 5090 (32 ГБ GDDR7, CUDA 12.8) и RTX 3090 Ti (24 ГБ GDDR6X, CUDA 12.8). Модель — GLM-5.2, квантованная в UD-IQ1_M через официальный скрипт от команды GLM. Контекст — 4096 токенов, batch size prefill = 512, decode — 256 токенов. Никаких оверклоков, только стоковые частоты.
Для сравнения: в нашем прошлом тесте GLM-5.2 на 4×3090 в IQ1_M мы получили ~8 tok/s decode. Теперь формат ещё агрессивнее — UD-IQ1_M.
Цифры, от которых волосы дыбом
Мы прогнали модель в трёх режимах: prefill только на 5090, decode на 5090+3090 Ti с шардингом по 16/12 слоёв, и полный цикл (prefill+decode) на обеих картах с динамическим распределением нагрузки. Вот что получилось:
| Режим | Prefill (tok/s) | Decode (tok/s) | Общая задержка на запрос (200 токенов) |
|---|---|---|---|
| Только 5090 (prefill+decode) | 45.2 | 12.1 | ~20.7 с |
| 5090 prefill + 3090 Ti decode | 44.8 | 5.3 | ~42.1 с |
| 5090+3090 Ti (шардинг слоёв 16/12) | 41.6 | 14.7 | ~17.4 с |
Первое, что бросается в глаза: decode на обеих картах с шардингом слоёв даёт 14.7 tok/s — это выше, чем 12.1 на одной 5090. Парадокс? На самом деле нет. 3090 Ti, хоть и уступает по сырой производительности, добавляет пропускную способность памяти, и в режиме генерации это даёт прирост. А вот prefill на одной 5090 почти не уступает шардингу — 45.2 против 41.6. Похоже, AGI-кэш и тензорные ядра пятого поколения делают своё дело.
Но есть нюанс: UD-IQ1_M — это не просто сжатие, это формат с неравномерным распределением бит. На практике он даёт заметное падение качества на логических задачах. Мы проверили на том же бенчмарке из сравнения GLM-5-Q2 и GLM-4.7-Q4 — точность упала на 7-9% относительно IQ2_M.
Что это значит для реальных задач
Да, UD-IQ1_M позволяет запустить GLM-5.2 (744B) на двух картах с общим объёмом 56 ГБ — без оффлоада на CPU. Но скорость decode в 14-15 tok/s — это уровень очень быстрого чтения, а не диалога. Для чат-бота такое терпимо, но для генерации длинных текстов (статей, кода) — уже узкое место. Prefill при этом очень быстрый — за секунду обрабатывается промпт на 2000 токенов. Значит, если вы используете модель для коротких запросов с небольшим контекстом, связка 5090+3090 Ti в шардинге — оптимальный вариант.
Интересный момент: при отдельном decode на 3090 Ti (без участия 5090) скорость падает до 5.3 tok/s. Это подтверждает, что 3090 Ti в одиночку не тянет такой большой контекст из-за узкого места по памяти. А вот в паре с 5090, которая берёт на себя самую тяжёлую часть prefill и часть decode, старый флагман чувствует себя уверенно.
Сравнение с другими форматами
Мы уже тестировали IQ2 квантование на Qwen3-30B-A3B — там удавалось выжать 100 tok/s. Но то модель в 10 раз меньше. Или MXFP4 против Q4_K_M на Tesla P40 — там выигрыш был за счёт нового формата. Здесь же UD-IQ1_M даёт прирост скорости относительно IQ1_M примерно на 30% (14.7 vs 8 tok/s), но ценой ещё большей потери точности. Вопрос: стоит ли оно того? Если вам нужно просто генерировать связный текст любой ценой — да. Если важна достоверность — лучше взять IQ2_M на том же объёме памяти.
Технический грааль или маркетинговый трюк?
Лично я отношусь к UD-IQ1_M с осторожностью. Да, технология впечатляет: упаковать 744B параметров в 56 ГБ — это примерно 0.6 бита на параметр. Но на практике модель начинает «галлюцинировать» на каждой второй фразе. Мы прогнали тест из бенчмарка MMLU-Pro — точность упала на 12% относительно IQ1_M. Для аналитических задач такое квантование почти бесполезно. Зато для творческих — генерация стихов, сценариев, креативных писем — разница не столь критична.
Что дальше?
UD-IQ1_M — это не панацея, а инструмент для крайних случаев. Когда денег на 8 карт нет, а запустить самую мощную open-source модель хочется. RTX 5090 в паре с 3090 Ti показывает себя достойно, но не ждите чуда: 14 tok/s — это предел для такой конфигурации. Если вам нужно больше — смотрите в сторону специализированных решений вроде застройки Qwen 122B на 4x RTX 6000 Pro или распределённого инференса с разделением prefill/decode, как в нашем эксперименте с DGX Spark и M3 Ultra.
А для GLM-5.2 UD-IQ1_M вердикт такой: работает, но не для всех. Если ваш проект про скорость любой ценой — берите. Если про качество — обходите стороной.