GLM 5.2 Computer Vision: production-тест и выводы

Бенчмарки врут. Production — нет

Когда Zhipu AI в середине июня 2026 года выкатила GLM 5.2, большинство обзоров упиралось в синтетические тесты. NCBench, MMLU, HumanEval — всё это, конечно, красиво. Но нас, инженеров, волнует другое: как модель поведёт себя на реальных multi-file задачах Computer Vision. Не в красивой песочнице, а в продакшене, где пайплайн хрустит, а время ответа — деньги.

Мы взяли три типовых сценария: распознавание объектов на сложных сценах, анализ геометрии (углы, линии, сетки) и OCR многоколоночных документов с картинками. Сравнили GLM 5.2 с главными игроками — GPT-5 Vision, Claude 3.7 Sonnet и Gemini 3. И вот что получилось.

Разочарование от прошлого релиза GLM 5 (мы писали о провале на европейских языках) сменилось любопытством: смогут ли инженеры Zhipu вытянуть CV? Спойлер: да, смогли.

Сценарий 1: геометрия без галлюцинаций

Помните историю PhotoMentor, где Gemini 2.0 уверял пользователя, что горизонт завален на 15°, хотя он был идеально ровным? (мы описывали этот кейс). GLM 5.2 на тех же тестах показал среднюю ошибку в 1.2°. GPT-5 Vision — 3.8°, Gemini 3 — 4.1°, Claude 3.7 — 5.0°. Победа китайской модели почти с двукратным отрывом.

Мы отправили модели 50 изображений с намеренно искажённой перспективой — билборды, книжные полки, линии электропередач. GLM 5.2 не только правильно определял углы наклона, но и различал параллельные линии, где конкуренты начинали «галлюцинировать» пересечения. Это напрямую решает проблему, описанную в нашем разборе «Слепые пятна VLM» — пространственное мышление у GLM 5.2 на голову выше.

Сценарий 2: multi-file OCR и смешанные документы

Тут мы дали задачу: загрузить трёхстраничный PDF с таблицами, рукописными пометками и наложенными графиками. Модель должна была извлечь все числовые значения и связать их с подписями. GLM 5.2 справился за 8.3 секунды на один документ, допустив 2 ошибки распознавания из 94 ячеек. GPT-5 Vision — 12.1 секунды, 4 ошибки. Gemini 3 — 14.7 секунды, 5 ошибок. Claude 3.7 — 9.8 секунды, 3 ошибки.

Модель	Точность OCR (%)	Скорость (сек)	Геометрия (средняя ошибка °)
GLM 5.2	97.9	8.3	1.2
GPT-5 Vision	95.7	12.1	3.8
Claude 3.7 Sonnet	96.8	9.8	5.0
Gemini 3	94.7	14.7	4.1

Интересная деталь: GLM 5.2 использовал собственный режим «Image+Code» — модель сначала визуально сегментировала документ, а потом строила Python-скрипт для точного извлечения. Этот гибридный подход, который мы впервые заметили в обзоре GLM-Image, здесь оказался ключевым.

Почему GLM 5.2 обогнал даже GPT-5.2 в «бытовом» понимании

В мартовском тесте («GLM 5 против GPT-5.2: почему китайская модель оказалась умнее в бытовом вопросе») мы выяснили, что GLM лучше понимает физику ситуации, а не просто оперирует числами. В CV это проявилось с новой силой: когда мы показали фотографию мятой коробки и спросили, сколько предметов может в неё поместиться, GLM 5.2 оценил объём с учётом деформации, а конкуренты просто посчитали пиксели пустого пространства.

Не всё гладко — на задачах генерации изображений GLM 5.2 по‑прежнему проигрывает Gemini 3 и Midjourney. Но для анализа и понимания сцен это лучший инструмент на рынке open‑source community.

Production-косты: меньше токенов — меньше денег

Цена инференса GLM 5.2 через API — $0.45 за миллион входных токенов и $0.90 за миллион выходных. Это на 30% дешевле GPT-5 Vision и вдвое дешевле Claude 3.7. Для задач с большим числом картинок (например, модерация контента) выгода очевидна. А локальный запуск на собственных GPU благодаря оптимизированной архитектуре (об этом писали в разборе PR на Hugging Face) позволяет вовсе сэкономить на облаке.

Субъективное: что бесит

Да, GLM 5.2 быстр и точен. Но его документация — отвратительна. Примеры multi-file вызовов разбросаны по трем разным репозиториям, а обработка ошибок в ответе — чёрный ящик. Ошибка HTTP 422 с формулировкой «invalid parameter — check input» — спасибо, кэп. По сравнению с прозрачностью CLI-инструментов от OpenAI или Anthropic — шаг назад.

Зато интеграция с существующими CV-пайплайнами (мы тестировали через YOLOv8 + GLM как рефинмент) работает как часы. В паре с традиционными моделями детекции он превращается в надёжного контролёра, который перепроверяет сомнительные находки.

💡

Совет: не используйте GLM 5.2 для генерации изображений — для этого он не заточен. Но для анализа, распознавания и понимания контекста — это новый лидер open‑source. В прошлом тесте «GLM 4.7 против Gemini 3: Битва за HTML5 Pacman» мы уже видели, что китайские модели умеют неожиданно выстреливать.

Не удивлюсь, если в следующем обновлении Zhipu AI добавят поддержку видео — архитектура GLM 5.2 уже сейчас тянет последовательности из 16 изображений с минимальной потерей контекста. Конкуренты? Следят за кошельком. А мы просто используем лучшее, что есть на рынке.

Подписаться на канал

GLM 5.2 против конкурентов на задачах Computer Vision: production-тест и выводы