Динамические кванты Unsloth UD-XL: революция или разочарование?
Всего год назад мы удивлялись, как IQ2 квантование выжимает 100 токенов в секунду из Qwen3-30B-A3B. Сейчас на дворе 09.03.2026, и новый претендент – Unsloth UD-XL – обещает еще больше. Динамическое квантование, адаптирующееся к весам модели. Звучит как магия, но я всегда проверяю магию на Strix Halo с 32 ГБ оперативки.
Bartowski кванты – это как проверенный швейцарский нож. Простые, надежные, без сюрпризов. Unsloth UD-XL – это нож с лазерным прицелом, который иногда стреляет в ногу. Я протестировал оба на Qwen 3.5 35B и монструозном Qwen 3.5 122B, используя последнюю версию llama.cpp (коммит b3517 от февраля 2026). Результаты заставили меня пересмотреть свои ожидания.
Тестовый стенд: Strix Halo в деле
Конфигурация стандартная для 2026 года: AMD Strix Halo (12 ядер Zen 5, 40 CU RDNA 3.5), 32 ГБ унифицированной памяти LPDDR5X, Ubuntu 24.04 LTS. Все тесты запускал через llama.cpp с флагом --n-gpu-layers 40 для полной загрузки GPU. Система чистая, без лишних процессов. Если у вас другая конфигурация, цифры будут другими, но соотношение – нет.
Bartowski Q4_K_M: старый друг лучше новых двух
Файлы Bartowski для Qwen 35B и 122B я взял с его репозитория. Это классическое квантование Q4_K_M, но с оптимизациями под архитектуру Qwen. Запускаешь – и оно просто работает. Никаких неожиданностей. На Qwen 122B модель занимает около 68 ГБ памяти и выдает стабильные 45 токенов в секунду на длинных контекстах.
Логическая стабильность на высоте. Задаю цепочки рассуждений из 5-6 шагов – модель не сбивается. Код генерирует без бредовых синтаксических ошибок. Bartowski не пытается быть умным, он просто точно следует тому, что заквантовано.
Unsloth UD-XL: обещания и реальность
Unsloth UD-XL – это новый формат динамического квантования, который должен был превзойти все. По заявлению разработчиков, он адаптирует битность для разных слоев, минимизируя потери. На практике я скачал файлы UD-Q4_K_XL для обеих моделей. Размеры чуть меньше, чем у Bartowski. Запуск – и первое разочарование.
Скорость генерации на Qwen 122B упала до 32 TPS. Это на 30% медленнее Bartowski. При этом потребление памяти почти такое же – 67 ГБ. Где обещанная эффективность?
Но главная проблема не в скорости. Логическая стабильность хромает. Модель начинает рассуждение правильно, а на третьем шаге вдруг выдает абсурд. Например, в задаче на логику: "Если все люди смертны, и Сократ – человек, то..." Unsloth UD-XL иногда отвечает: "Сократ – это дерево". Серьезно.
Это подтверждает наши опасения из статьи про динамическое квантование Unsloth. Адаптивность ведет к непредсказуемым искажениям в критических слоях.
Цифры не врут: таблица сравнения
| Модель / Квант | Скорость (TPS) | Память (ГБ) | Логическая стабильность | Размер файла (ГБ) |
|---|---|---|---|---|
| Qwen 35B Bartowski Q4_K_M | 78 | 21.5 | Отличная | ~20 |
| Qwen 35B Unsloth UD-Q4_K_XL | 65 | 20.8 | Средняя | ~19.5 |
| Qwen 122B Bartowski Q4_K_M | 45 | 68 | Отличная | ~65 |
| Qwen 122B Unsloth UD-Q4_K_XL | 32 | 67 | Низкая | ~64 |
Тесты на логическую стабильность я проводил с набором из 100 задач на рассуждение (аналогичных GSM8K, но сложнее). Bartowski ошибался в 5% случаев, Unsloth UD-XL – в 18%. Для кодовых задач разрыв еще больше.
Почему динамические кванты подводят?
Все упирается в принцип динамического квантования. Unsloth UD-XL пытается определить, какие веса важнее, и выделяет им больше бит. В теории – гениально. На практике – алгоритм часто ошибается, особенно в больших моделях типа 122B. Критические веса для логических связей получают недостаточно точности, и модель "глючит".
Bartowski использует равномерное квантование. Оно менее изощренное, но предсказуемое. Как в той статье про квантование vs размер модели: иногда проще и надежнее.
Важно: это не значит, что все динамические кванты плохи. На меньших моделях (7B-13B) Unsloth UD-XL показывает себя лучше. Но для гигантов от 70B и выше – ставьте на надежность, а не на хитрые алгоритмы.
Кому какой квант выбрать?
Если вы работаете с Qwen 35B/122B и вам нужна стабильность для продакшена – Bartowski Q4_K_M. Скачать можно здесь (партнерская ссылка).
Если вы исследователь и хотите поэкспериментировать с новыми методами – попробуйте Unsloth UD-XL. Но будьте готовы к странностям в выводе. Возможно, к 2027 году они исправят алгоритм.
Для тех, у кого нет мощной видеокарты, советую посмотреть нашу статью про Minimax 2.1 на чистом CPU. Принципы выбора кванта схожи.
Что дальше?
Квантование в 2026 году все еще балансирует между скоростью и качеством. Новые форматы вроде IQ4_NL или MXFP4_MOE (о них мы писали в сравнении для MiniMax M2.5) предлагают свои компромиссы. Но мой прогноз: для моделей-гигантов следующего поколения (200B+) мы увидим возврат к более простым, но стабильным методам. Потому что когда модель стоит миллионы долларов на обучении, никто не захочет терять ее разум из-за модного кванта.
А пока – качайте Bartowski, настраивайте llama.cpp и не верьте рекламным обещаниям. Проверяйте все на своем железе. Как показал тест на Strix Halo, иногда старый друг действительно лучше.