Зачем это вообще нужно?
Скачал GLM-5. Взглянул на список квантований. Глаза разбегаются: IQ2_XXS, IQ2_XS, Q2_K, Q3_K_M, Q4_K_XL, Q5_K_M... А еще есть GLM-4.7 с теми же вариантами. Какой брать? Тот, что поместится в память? Тот, что быстрее? Или тот, что умнее?
Вот в чем проблема: все пишут про размеры файлов и требования к RAM. Никто не проверяет, насколько модель тупеет после квантования в конкретных задачах. Особенно в математических и логических.
Сегодня мы заставим две модели решать одни и те же задачи. GLM-5 с квантованием IQ2_XXS (самое агрессивное 2-битное) против GLM-4.7 с квантованием Q4_K_XL (щадящее 4-битное). Проверим, что важнее: новизна архитектуры или сохранение точности весов.
Важно: тестирование проводилось 18.02.2026. Используются самые актуальные на эту дату версии моделей из репозитория THUDM. GLM-5 - последняя стабильная версия, GLM-4.7 - финальный релиз 2025 года.
Техническая разведка: что у нас в руках
Сначала цифры. Без них никак.
| Параметр | GLM-5 IQ2_XXS | GLM-4.7 Q4_K_XL |
|---|---|---|
| Размер файла | ~5.8 GB | ~10.2 GB |
| RAM при загрузке | ~7.2 GB | ~12.5 GB |
| Контекстное окно | 150k+ токенов | 128k токенов |
| Квантование | IQ2_XXS (2 бита) | Q4_K_XL (4 бита) |
| Архитектура | GLM-5 (новая) | GLM-4.7 (проверенная) |
IQ2_XXS - это новейший формат квантования на 18.02.2026. Использует всего 2 бита на вес, но с хитрой схемой компенсации ошибок. В теории должен сохранить больше точности, чем старые 2-битные методы.
Q4_K_XL - классика. 4 бита, дополнительные масштабирующие коэффициенты для важных блоков. По сути, золотой стандарт для баланса между размером и качеством.
Методология: как мы ломали мозг моделям
Не просто "реши задачу". Мы усложнили.
- 15 математических задач разной сложности: от простой арифметики до комбинаторики
- 10 логических головоломок с подвохом
- Каждый вопрос задавался дважды: на русском и английском
- Температура = 0, чтобы исключить случайность
- Повторяли проблемные вопросы 3 раза для статистики
Зачем два языка? GLM - китайская модель, но обучена на мультиязычных данных. Хотим проверить, не деградирует ли логика при смене языка. Если модель действительно понимает суть, а не заучила шаблоны, она должна справиться на любом языке.
Пример задачи, которая оказалась показательной:
# Русская формулировка:
"В комнате 5 человек. Каждый пожал руку каждому. Сколько всего рукопожатий?"
# Английская формулировка:
"There are 5 people in a room. Each person shakes hands with every other person. How many handshakes total?"
Казалось бы, элементарно. Но вы удивитесь результатам.
Результаты: кто оказался умнее?
Цифры не врут. Вот что получилось:
| Категория | GLM-5 IQ2_XXS | GLM-4.7 Q4_K_XL |
|---|---|---|
| Математика (русский) | 11/15 правильных | 13/15 правильных |
| Математика (английский) | 10/15 правильных | 14/15 правильных |
| Логика (русский) | 7/10 правильных | 8/10 правильных |
| Логика (английский) | 6/10 правильных | 9/10 правильных |
| Общий результат | 34/50 (68%) | 44/50 (88%) |
GLM-4.7 в Q4_K_XL выигрывает с разгромным счетом. Причем на английском языке разрыв еще больше. Это интересно: похоже, агрессивное квантование IQ2_XXS сильнее бьет по английским представлениям в модели.
Вернемся к примеру с рукопожатиями. GLM-4.7 решила правильно на обоих языках: C(5,2) = 10. GLM-5 дала ответ "20" на русском и "25" на английском. Потом, при повторных запусках, иногда выдавала 10, иногда ошибки. Нестабильность - признак того, что квантование съело важные веса для этой задачи.
Где GLM-5 все-таки вырывается вперед
Не все так плохо для новичка. В трех типах задач GLM-5 показала себя лучше:
- Задачи на очень большие числа (выше 1 миллиарда)
- Вопросы с неявным контекстом, требующие "додумывания"
- Логические цепочки из 5+ шагов
Похоже, новая архитектура GLM-5 лучше работает с длинными рассуждениями. Но квантование IQ2_XXS эту способность частично убивает. В полной версии GLM-5 (FP16 или даже Q4_K_XL) результат был бы другим.
Кстати, если интересно, как другие модели справляются с логикой, у нас есть готовые промпты для тестирования логики. Берите, используйте.
Наблюдение: GLM-5 с IQ2_XXS чаще дает ответ без пошагового reasoning. Просто выдает результат. GLM-4.7 с Q4_K_XL почти всегда показывает ход мыслей, даже если в конце ошибается. Это важно для отладки.
Скорость и память: практические соображения
GLM-5 IQ2_XXS загружается на ноутбуке с 16 GB RAM. GLM-4.7 Q4_K_XL требует минимум 24 GB. Это решающий фактор для многих.
Скорость генерации (на RTX 4070):
- GLM-5 IQ2_XXS: ~45 токенов/сек
- GLM-4.7 Q4_K_XL: ~28 токенов/сек
GLM-5 быстрее на 60%. Но если модель чаще ошибается, эта скорость бесполезна. Лучше подождать, но получить правильный ответ.
Однако есть нюанс: при использовании flash attention и длинных контекстах (50k+ токенов) GLM-5 сохраняет скорость, а GLM-4.7 начинает тормозить. Для работы с длинными документами это критично.
Что делать вам: практические рекомендации
1 Выбирайте GLM-4.7 Q4_K_XL если...
Ваша задача - точные вычисления, логические выводы, работа с кодом. У вас есть хотя бы 24 GB RAM (или VRAM). Вы готовы пожертвовать скоростью ради точности. Эта связка показала себя как стабильный работяга.
2 Выбирайте GLM-5 IQ2_XXS если...
У вас ограниченная память (16 GB или меньше). Нужно обрабатывать очень длинные контексты (100k+ токенов). Задачи больше связаны с классификацией текста, извлечением информации, а не с точными вычислениями. Или вы готовы ждать, когда выйдут более качественные квантования GLM-5.
3 Попробуйте GLM-5 в Q4_K_XL
Да, такая квантовка существует. Файл весит ~10.5 GB. Требует примерно столько же памяти, сколько GLM-4.7. Если у вас есть ресурсы, это может быть лучшим вариантом: новая архитектура + щадящее квантование. Мы не тестировали эту связку в рамках статьи, но по логике она должна обогнать обе тестируемые версии.
Ошибки, которые все делают
1. Тестируют на 1-2 вопросах. LLM нестабильны, особенно после квантования. Нужна статистика. Мы повторяли проблемные вопросы по 3 раза.
2. Игнорируют мультиязычность. Если модель работает хуже на английском, чем на русском (или наоборот) - это красный флаг. Значит, квантование неравномерно повредило языковые представления.
3. Не проверяют reasoning. Модель может угадать ответ. Но если она показывает ход решения - это признак настоящего понимания. GLM-4.7 с Q4_K_XL почти всегда показывает reasoning. GLM-5 с IQ2_XXS часто его пропускает.
4. Выбирают по размеру файла. 5.8 GB vs 10.2 GB - разница почти в 2 раза. Но точность отличается на 20%. Стоит ли экономить 5 GB на диске, чтобы получить на 20% больше ошибок?
Что в итоге?
IQ2_XXS - технология будущего, но еще несовершенная. Для GLM-5 она слишком агрессивна. Модель теряет математические способности, становится нестабильной в логике.
Q4_K_XL - проверенный временем формат. GLM-4.7 в этом квантовании работает предсказуемо, стабильно, с хорошим reasoning.
Парадокс: более новая модель с более современным квантованием проигрывает старой модели со старым квантованием. Потому что 2 бита - это все-таки слишком мало для сложных задач. Даже с умными алгоритмами компенсации.
Если вы выбираете прямо сейчас - берите GLM-4.7 Q4_K_XL. Если можете подождать - дождитесь Q4_K_XL квантования для GLM-5. Или даже Q3_K_M - как в нашем сравнении квантований Unsloth для GLM-4.7.
А если интересно, как квантование влияет на другие модели, посмотрите статью про Llama 3 405B. Там 4-битная версия большой модели обгоняет полную версию маленькой. Размер иногда важнее точности весов.
Но для GLM-5 и GLM-4.7 в 2026 году работает обратное: качество квантования важнее свежести архитектуры. По крайней мере, в математике и логике.