Новый GLM-5 от Zhipu AI вышел в конце 2025-го, но настоящий ажиотаж начался только сейчас, когда в Unsloth добавили нативную поддержку модели. Я пропустил его через два разных квантования — стандартный Q2 и экзотический TQ1 — на Mac Studio с M3 Ultra, и результаты заставили пересмотреть некоторые устоявшиеся представления о локальных LLM в 2026 году.

Что такое GLM-5 и почему он важен сейчас

GLM-5 — это не просто очередное инкрементальное обновление. Архитектурно это гибридная модель, которая использует как плотные, так и sparse экспертные (MoE) слои в зависимости от задачи. Но главное не это. Главное — она спроектирована с учетом современных методов квантования с самого начала, а не как запоздалая мысль. Это заметно по тому, как она держит качество даже при агрессивном сжатии.

💡

На февраль 2026 года GLM-5 доступен в размерах от 1.5B до 72B параметров. Самый сбалансированный вариант для локального запуска — 14B, который и тестировался в этом обзоре. Базовая FP16 версия занимает около 28 ГБ.

Q2 против TQ1: битва квантов на ринге M3 Ultra

Все привыкли к Q4_K_M как к золотому стандарту. Но времена меняются. Unsloth предлагает два новых формата для GLM-5: традиционный Q2 (2 бита на вес) и экспериментальный TQ1 (ternary quantization — троичное квантование).

TQ1 — это не просто «почти 2 бита». Веса здесь могут принимать три значения: -1, 0, +1. Ноль — это не просто округление, это активный sparsity, который нейросеть учится использовать. Теоретически это должно давать лучшее качество при том же размере, чем бинарное квантование.

Параметр	GLM-5 14B (FP16)	GLM-5 14B (Q2)	GLM-5 14B (TQ1)
Размер на диске	~28 ГБ	~3.8 ГБ	~3.9 ГБ
Скорость (токенов/с)	~8-10	18-22	19-24
Загрузка в память	~30 ГБ	~4.5 ГБ	~4.7 ГБ

Цифры говорят сами за себя. 20 токенов в секунду — это не теоретический максимум, а стабильная рабочая скорость при генерации ответов длиной 500-1000 токенов. Для сравнения: та же модель в формате Q4_K_M на этом железе давала около 14-16 TPS. Ускорение в 1.5 раза — серьезный аргумент.

TQ1 быстрее Q2 на 5-10%, но разница почти незаметна на практике. Главный вопрос — качество. На синтетических тестах (MMLU, HellaSwag) TQ1 показывает результаты на 2-4% выше, чем Q2. Но синтетика — это одно, а реальные задачи — другое.

Феномен самоисправления: когда модель видит ваши опечатки

Вот где началось самое интересное. Я тестировал модели на типичных задачах: написание кода, ответы на вопросы, summarization. И случайно допустил опечатку в промпте: "напиши функцю на Python для расчета факториала".

Q2-версия послушно начала писать код, но с комментарием: "Вы, вероятно, имели в виду 'функцию'. Вот код..." TQ1-версия поступила иначе: она вообще не упоминала опечатку, просто дала безупречный код функции, как будто промпт был идеальным.

Я пошел дальше. Целая серия промптов с намеренными ошибками:

"Какая столица Франии?" (вместо "Франции")
"Объясни квантовую механиху"
"Как настроить Wi-Fi роутер TP-Link ARCER?"

Обе модели демонстрировали высокий уровень "понимания" ошибок. Q2 чаще явно указывал на них, TQ1 чаще молча исправлял. Это не просто исправление опечаток — это демонстрация семантического понимания контекста. Модель не сопоставляет словарь, она понимает, что "Франия" в контексте вопроса о столицах — это с высокой вероятностью "Франция".

M3 Ultra как платформа для локальных LLM в 2026

Mac Studio с M3 Ultra (24-core CPU, 76-core GPU, 192 ГБ unified memory) — это практически идеальная машина для тестирования таких моделей. 192 ГБ памяти позволяют загружать даже 72B-версии в квантованном виде, а архитектура с unified memory устраняет главную проблему GPU — ограниченную VRAM.

Но есть нюанс. Unsloth для MLX (фреймворк Apple для ML) еще не полностью оптимизирован под все возможности M3 Ultra. Часть вычислений все еще идет на CPU, что создает бутылочное горлышко. Когда оптимизация догонит железо, те же 20 TPS могут превратиться в 30+.

Для сравнения: на аналогичной по цене системе с RTX 4090 (24 ГБ) GLM-5 14B в Q2 формате показывает около 25-28 TPS. Но 4090 не запустит 72B модель, а M3 Ultra — запросто. Здесь выбор между скоростью и масштабируемостью.

💡

Если вы выбираете между квантованиями для разных задач, посмотрите наш разбор про квантование vs размер модели. Там подробно разобраны компромиссы между битностью и качеством рассуждений.

Кому подойдет GLM-5 в 2026 году?

Ситуация с локальными моделями на февраль 2026 напоминает выбор автомобиля: есть быстрые спортивные модели (как некоторые версии MiniMax M2.5), есть мощные внедорожники (72B-монстры), а GLM-5 — это надежный седан бизнес-класса.

Выбирайте GLM-5 с квантованием Q2, если:

Нужна максимальная скорость на ограниченных ресурсах (даже на MacBook Air с M4)
Работаете в основном с английским и китайским языками (родные языки модели)
Цените предсказуемость и стабильность больше, чем экспериментальные фичи

Стоит попробовать TQ1-версию, если:

Тестируете новые подходы к квантованию (это направление будет только развиваться)
Задачи требуют тонкого понимания контекста и исправления неявных ошибок
Есть запас по памяти и можно пожертвовать 0.5 ГБ ради потенциального качества

Не ждите от GLM-5 чудес в нишевых областях вроде медицинской диагностики или юридического анализа. Это универсальная модель-рабочая лошадка, а не узкий специалист. Для программирования лучше посмотреть на специализированные сравнения.

Что будет дальше с квантованием и скоростью?

Тренд 2026 года очевиден: модели проектируются с учетом квантования с первого дня. Архитектуры становятся более "квантодружественными". TQ1 — только начало. Уже тестируются методы с адаптивной битностью (разные слои — разное квантование) и квантованием с учетом распределения активаций, а не только весов.

Скорость в 20 TPS на потребительском железе скоро станет базовым ожиданием, а не роскошью. И это меняет всё. Когда модель отвечает быстрее, чем вы успеваете прочитать вопрос, исчезает психологический барьер между "запросом к ИИ" и "разговором с помощником".

Самое интересное, что способность исправлять опечатки — это не фича, а побочный эффект более глубокого семантического понимания. Модель, которая видит "Франия" и понимает "Франция", — это модель, которая на шаг ближе к реальному пониманию, а не статистическому угадыванию.

Мой прогноз на вторую половину 2026: появятся модели размером 20-30B, которые в 3-битном квантовании будут показывать качество сегодняшних 70B-моделей в FP16, при скорости 40+ TPS на M4 Ultra. И они будут исправлять не только опечатки, но и логические противоречия в ваших промптах, прежде чем давать ответ. А пока — GLM-5 в Q2/TQ1 дает отличный вкус этого будущего уже сегодня.

GLM-5: 20 токенов в секунду на M3 Ultra, магия с опечатками и битва квантов Q2 против TQ1