Бенчмарки врут. Production — нет
Когда Zhipu AI в середине июня 2026 года выкатила GLM 5.2, большинство обзоров упиралось в синтетические тесты. NCBench, MMLU, HumanEval — всё это, конечно, красиво. Но нас, инженеров, волнует другое: как модель поведёт себя на реальных multi-file задачах Computer Vision. Не в красивой песочнице, а в продакшене, где пайплайн хрустит, а время ответа — деньги.
Мы взяли три типовых сценария: распознавание объектов на сложных сценах, анализ геометрии (углы, линии, сетки) и OCR многоколоночных документов с картинками. Сравнили GLM 5.2 с главными игроками — GPT-5 Vision, Claude 3.7 Sonnet и Gemini 3. И вот что получилось.
Разочарование от прошлого релиза GLM 5 (мы писали о провале на европейских языках) сменилось любопытством: смогут ли инженеры Zhipu вытянуть CV? Спойлер: да, смогли.
Сценарий 1: геометрия без галлюцинаций
Помните историю PhotoMentor, где Gemini 2.0 уверял пользователя, что горизонт завален на 15°, хотя он был идеально ровным? (мы описывали этот кейс). GLM 5.2 на тех же тестах показал среднюю ошибку в 1.2°. GPT-5 Vision — 3.8°, Gemini 3 — 4.1°, Claude 3.7 — 5.0°. Победа китайской модели почти с двукратным отрывом.
Мы отправили модели 50 изображений с намеренно искажённой перспективой — билборды, книжные полки, линии электропередач. GLM 5.2 не только правильно определял углы наклона, но и различал параллельные линии, где конкуренты начинали «галлюцинировать» пересечения. Это напрямую решает проблему, описанную в нашем разборе «Слепые пятна VLM» — пространственное мышление у GLM 5.2 на голову выше.
Сценарий 2: multi-file OCR и смешанные документы
Тут мы дали задачу: загрузить трёхстраничный PDF с таблицами, рукописными пометками и наложенными графиками. Модель должна была извлечь все числовые значения и связать их с подписями. GLM 5.2 справился за 8.3 секунды на один документ, допустив 2 ошибки распознавания из 94 ячеек. GPT-5 Vision — 12.1 секунды, 4 ошибки. Gemini 3 — 14.7 секунды, 5 ошибок. Claude 3.7 — 9.8 секунды, 3 ошибки.
| Модель | Точность OCR (%) | Скорость (сек) | Геометрия (средняя ошибка °) |
|---|---|---|---|
| GLM 5.2 | 97.9 | 8.3 | 1.2 |
| GPT-5 Vision | 95.7 | 12.1 | 3.8 |
| Claude 3.7 Sonnet | 96.8 | 9.8 | 5.0 |
| Gemini 3 | 94.7 | 14.7 | 4.1 |
Интересная деталь: GLM 5.2 использовал собственный режим «Image+Code» — модель сначала визуально сегментировала документ, а потом строила Python-скрипт для точного извлечения. Этот гибридный подход, который мы впервые заметили в обзоре GLM-Image, здесь оказался ключевым.
Почему GLM 5.2 обогнал даже GPT-5.2 в «бытовом» понимании
В мартовском тесте («GLM 5 против GPT-5.2: почему китайская модель оказалась умнее в бытовом вопросе») мы выяснили, что GLM лучше понимает физику ситуации, а не просто оперирует числами. В CV это проявилось с новой силой: когда мы показали фотографию мятой коробки и спросили, сколько предметов может в неё поместиться, GLM 5.2 оценил объём с учётом деформации, а конкуренты просто посчитали пиксели пустого пространства.
Не всё гладко — на задачах генерации изображений GLM 5.2 по‑прежнему проигрывает Gemini 3 и Midjourney. Но для анализа и понимания сцен это лучший инструмент на рынке open‑source community.
Production-косты: меньше токенов — меньше денег
Цена инференса GLM 5.2 через API — $0.45 за миллион входных токенов и $0.90 за миллион выходных. Это на 30% дешевле GPT-5 Vision и вдвое дешевле Claude 3.7. Для задач с большим числом картинок (например, модерация контента) выгода очевидна. А локальный запуск на собственных GPU благодаря оптимизированной архитектуре (об этом писали в разборе PR на Hugging Face) позволяет вовсе сэкономить на облаке.
Субъективное: что бесит
Да, GLM 5.2 быстр и точен. Но его документация — отвратительна. Примеры multi-file вызовов разбросаны по трем разным репозиториям, а обработка ошибок в ответе — чёрный ящик. Ошибка HTTP 422 с формулировкой «invalid parameter — check input» — спасибо, кэп. По сравнению с прозрачностью CLI-инструментов от OpenAI или Anthropic — шаг назад.
Зато интеграция с существующими CV-пайплайнами (мы тестировали через YOLOv8 + GLM как рефинмент) работает как часы. В паре с традиционными моделями детекции он превращается в надёжного контролёра, который перепроверяет сомнительные находки.
Не удивлюсь, если в следующем обновлении Zhipu AI добавят поддержку видео — архитектура GLM 5.2 уже сейчас тянет последовательности из 16 изображений с минимальной потерей контекста. Конкуренты? Следят за кошельком. А мы просто используем лучшее, что есть на рынке.