Зачем это вообще нужно?

Скачал GLM-5. Взглянул на список квантований. Глаза разбегаются: IQ2_XXS, IQ2_XS, Q2_K, Q3_K_M, Q4_K_XL, Q5_K_M... А еще есть GLM-4.7 с теми же вариантами. Какой брать? Тот, что поместится в память? Тот, что быстрее? Или тот, что умнее?

Вот в чем проблема: все пишут про размеры файлов и требования к RAM. Никто не проверяет, насколько модель тупеет после квантования в конкретных задачах. Особенно в математических и логических.

Сегодня мы заставим две модели решать одни и те же задачи. GLM-5 с квантованием IQ2_XXS (самое агрессивное 2-битное) против GLM-4.7 с квантованием Q4_K_XL (щадящее 4-битное). Проверим, что важнее: новизна архитектуры или сохранение точности весов.

Важно: тестирование проводилось 18.02.2026. Используются самые актуальные на эту дату версии моделей из репозитория THUDM. GLM-5 - последняя стабильная версия, GLM-4.7 - финальный релиз 2025 года.

Техническая разведка: что у нас в руках

Сначала цифры. Без них никак.

Параметр	GLM-5 IQ2_XXS	GLM-4.7 Q4_K_XL
Размер файла	~5.8 GB	~10.2 GB
RAM при загрузке	~7.2 GB	~12.5 GB
Контекстное окно	150k+ токенов	128k токенов
Квантование	IQ2_XXS (2 бита)	Q4_K_XL (4 бита)
Архитектура	GLM-5 (новая)	GLM-4.7 (проверенная)

IQ2_XXS - это новейший формат квантования на 18.02.2026. Использует всего 2 бита на вес, но с хитрой схемой компенсации ошибок. В теории должен сохранить больше точности, чем старые 2-битные методы.

Q4_K_XL - классика. 4 бита, дополнительные масштабирующие коэффициенты для важных блоков. По сути, золотой стандарт для баланса между размером и качеством.

💡

Flash Attention (-fa) включался для обеих моделей. На GLM-5 дает прирост скорости до 40% при длинных контекстах. На GLM-4.7 эффект меньше - около 15-20%. Если у вас современная видеокарта с поддержкой flash attention (любая после 2023 года), всегда используйте этот флаг.

Методология: как мы ломали мозг моделям

Не просто "реши задачу". Мы усложнили.

15 математических задач разной сложности: от простой арифметики до комбинаторики
10 логических головоломок с подвохом
Каждый вопрос задавался дважды: на русском и английском
Температура = 0, чтобы исключить случайность
Повторяли проблемные вопросы 3 раза для статистики

Зачем два языка? GLM - китайская модель, но обучена на мультиязычных данных. Хотим проверить, не деградирует ли логика при смене языка. Если модель действительно понимает суть, а не заучила шаблоны, она должна справиться на любом языке.

Пример задачи, которая оказалась показательной:

# Русская формулировка:
"В комнате 5 человек. Каждый пожал руку каждому. Сколько всего рукопожатий?"

# Английская формулировка:
"There are 5 people in a room. Each person shakes hands with every other person. How many handshakes total?"

Казалось бы, элементарно. Но вы удивитесь результатам.

Результаты: кто оказался умнее?

Цифры не врут. Вот что получилось:

Категория	GLM-5 IQ2_XXS	GLM-4.7 Q4_K_XL
Математика (русский)	11/15 правильных	13/15 правильных
Математика (английский)	10/15 правильных	14/15 правильных
Логика (русский)	7/10 правильных	8/10 правильных
Логика (английский)	6/10 правильных	9/10 правильных
Общий результат	34/50 (68%)	44/50 (88%)

GLM-4.7 в Q4_K_XL выигрывает с разгромным счетом. Причем на английском языке разрыв еще больше. Это интересно: похоже, агрессивное квантование IQ2_XXS сильнее бьет по английским представлениям в модели.

Вернемся к примеру с рукопожатиями. GLM-4.7 решила правильно на обоих языках: C(5,2) = 10. GLM-5 дала ответ "20" на русском и "25" на английском. Потом, при повторных запусках, иногда выдавала 10, иногда ошибки. Нестабильность - признак того, что квантование съело важные веса для этой задачи.

Где GLM-5 все-таки вырывается вперед

Не все так плохо для новичка. В трех типах задач GLM-5 показала себя лучше:

Задачи на очень большие числа (выше 1 миллиарда)
Вопросы с неявным контекстом, требующие "додумывания"
Логические цепочки из 5+ шагов

Похоже, новая архитектура GLM-5 лучше работает с длинными рассуждениями. Но квантование IQ2_XXS эту способность частично убивает. В полной версии GLM-5 (FP16 или даже Q4_K_XL) результат был бы другим.

Кстати, если интересно, как другие модели справляются с логикой, у нас есть готовые промпты для тестирования логики. Берите, используйте.

Наблюдение: GLM-5 с IQ2_XXS чаще дает ответ без пошагового reasoning. Просто выдает результат. GLM-4.7 с Q4_K_XL почти всегда показывает ход мыслей, даже если в конце ошибается. Это важно для отладки.

Скорость и память: практические соображения

GLM-5 IQ2_XXS загружается на ноутбуке с 16 GB RAM. GLM-4.7 Q4_K_XL требует минимум 24 GB. Это решающий фактор для многих.

Скорость генерации (на RTX 4070):

GLM-5 IQ2_XXS: ~45 токенов/сек
GLM-4.7 Q4_K_XL: ~28 токенов/сек

GLM-5 быстрее на 60%. Но если модель чаще ошибается, эта скорость бесполезна. Лучше подождать, но получить правильный ответ.

Однако есть нюанс: при использовании flash attention и длинных контекстах (50k+ токенов) GLM-5 сохраняет скорость, а GLM-4.7 начинает тормозить. Для работы с длинными документами это критично.

Что делать вам: практические рекомендации

1 Выбирайте GLM-4.7 Q4_K_XL если...

Ваша задача - точные вычисления, логические выводы, работа с кодом. У вас есть хотя бы 24 GB RAM (или VRAM). Вы готовы пожертвовать скоростью ради точности. Эта связка показала себя как стабильный работяга.

2 Выбирайте GLM-5 IQ2_XXS если...

У вас ограниченная память (16 GB или меньше). Нужно обрабатывать очень длинные контексты (100k+ токенов). Задачи больше связаны с классификацией текста, извлечением информации, а не с точными вычислениями. Или вы готовы ждать, когда выйдут более качественные квантования GLM-5.

3 Попробуйте GLM-5 в Q4_K_XL

Да, такая квантовка существует. Файл весит ~10.5 GB. Требует примерно столько же памяти, сколько GLM-4.7. Если у вас есть ресурсы, это может быть лучшим вариантом: новая архитектура + щадящее квантование. Мы не тестировали эту связку в рамках статьи, но по логике она должна обогнать обе тестируемые версии.

💡

Не забывайте про flash attention (-fa). Особенно для GLM-5. На длинных контекстах разница в скорости может достигать 3x. Это как перейти с HDD на SSD в мире LLM.

Ошибки, которые все делают

1. Тестируют на 1-2 вопросах. LLM нестабильны, особенно после квантования. Нужна статистика. Мы повторяли проблемные вопросы по 3 раза.

2. Игнорируют мультиязычность. Если модель работает хуже на английском, чем на русском (или наоборот) - это красный флаг. Значит, квантование неравномерно повредило языковые представления.

3. Не проверяют reasoning. Модель может угадать ответ. Но если она показывает ход решения - это признак настоящего понимания. GLM-4.7 с Q4_K_XL почти всегда показывает reasoning. GLM-5 с IQ2_XXS часто его пропускает.

4. Выбирают по размеру файла. 5.8 GB vs 10.2 GB - разница почти в 2 раза. Но точность отличается на 20%. Стоит ли экономить 5 GB на диске, чтобы получить на 20% больше ошибок?

Что в итоге?

IQ2_XXS - технология будущего, но еще несовершенная. Для GLM-5 она слишком агрессивна. Модель теряет математические способности, становится нестабильной в логике.

Q4_K_XL - проверенный временем формат. GLM-4.7 в этом квантовании работает предсказуемо, стабильно, с хорошим reasoning.

Парадокс: более новая модель с более современным квантованием проигрывает старой модели со старым квантованием. Потому что 2 бита - это все-таки слишком мало для сложных задач. Даже с умными алгоритмами компенсации.

Если вы выбираете прямо сейчас - берите GLM-4.7 Q4_K_XL. Если можете подождать - дождитесь Q4_K_XL квантования для GLM-5. Или даже Q3_K_M - как в нашем сравнении квантований Unsloth для GLM-4.7.

А если интересно, как квантование влияет на другие модели, посмотрите статью про Llama 3 405B. Там 4-битная версия большой модели обгоняет полную версию маленькой. Размер иногда важнее точности весов.

Но для GLM-5 и GLM-4.7 в 2026 году работает обратное: качество квантования важнее свежести архитектуры. По крайней мере, в математике и логике.

GLM-5-Q2 против GLM-4.7-Q4: битва квантований на математике и логике