Два года назад это звучало бы как научная фантастика. Сегодня это реальность: китайская open-source модель GLM-5 показывает результаты, которые статистически неотличимы от топового проприетарного Claude Opus. Исследование, опубликованное вчера, поставило точку в споре о качестве закрытых и открытых моделей.
Метрики не врут: цифры говорят сами за себя
Команда независимых исследователей из Беркли провела самое масштабное на сегодня сравнение. Они взяли 37 различных бенчмарков — от MMLU до свежего CodexHumanEval-2026 — и прогнали через них обе модели. Результаты?
| Бенчмарк | Claude Opus (v3.2) | GLM-5 (Ultra) | Разница |
|---|---|---|---|
| MMLU-Pro (2026) | 89.7% | 89.2% | -0.5% |
| HumanEval+ (Python) | 92.3% | 91.8% | -0.5% |
| AGIEval (китайский) | 85.4% | 87.1% | +1.7% |
| GSM-8K Extended | 94.1% | 93.9% | -0.2% |
Разница в 0,5% на MMLU-Pro — это статистический шум. Погрешность измерения. На практике пользователь не заметит разницы между ответом GLM-5 и Claude Opus в 99% случаев.
Интересный факт: на AGIEval (китайские экзамены и тесты) GLM-5 обгоняет Claude Opus на 1,7%. Китайские модели традиционно сильнее в азиатских языках и контекстах.
Почему это важно? Деньги. Контроль. Свобода.
GLM-5 Ultra можно скачать и запустить на своем железе. Нужны только 4xH100 или их аналог от Huawei. Claude Opus? Только через API, только по подписке, только с ограничениями.
Цена вопроса: GLM-5 Ultra в облаке стоит примерно $0,003 за 1K токенов. Claude Opus — $0,015. В пять раз дороже. Для компании, которая обрабатывает миллиарды токенов в месяц, разница измеряется сотнями тысяч долларов.
Но дело не только в деньгах. GLM-5 можно дообучить под свои задачи. Можно модифицировать. Можно интегрировать в закрытую инфраструктуру без отправки данных в облако. С Claude Opus это невозможно в принципе — вы арендуете черный ящик.
А как же GPT-5.2 и другие?
Исследователи не тестировали GPT-5.2 в этом сравнении — у OpenAI свои правила игры. Но предыдущие сравнения показывали, что GLM-5 может обыгрывать GPT-5.2 в бытовых вопросах и китайском контексте.
Важный момент: GLM-5 — не первая попытка. Его предшественник GLM-5 (первая версия) провалил тесты на европейских языках и хинди. Команда Zhipu AI учла ошибки и выпустила Ultra-версию, которая исправила эти проблемы.
Что изменилось в GLM-5 Ultra по сравнению с первой версией?
- Улучшенное понимание контекста до 128K токенов (было 64K)
- Мультиязычная тренировка на 50+ языках вместо 30
- Новая архитектура MoE (Mixture of Experts) с 16 экспертами
- Оптимизация для квантования до 4 бит без потери качества
Что это значит для разработчиков?
Вчера у вас был выбор: либо качество (Claude/GPT), либо контроль и цена (открытые модели). Сегодня выбор стал сложнее.
Если вам нужна максимальная производительность на английском — возможно, Claude Opus все еще ваш выбор. Но если вы работаете с мультиязычными данными, особенно с азиатскими языками, или вам критически важна приватность — GLM-5 становится серьезным конкурентом.
Интересный кейс: компании, которые используют Owlex MCP-сервер для работы с кодом, теперь могут добавить GLM-5 в свой арсенал. И получить качество уровня Claude за пятую часть стоимости.
Важный нюанс: GLM-5 Ultra требует серьезных ресурсов. 320 миллиардов параметров, 4xH100 для инференса в полной точности. Но есть и облегченные версии — GLM-5 Pro и GLM-5 Air, которые работают на более скромном железе.
А что насчет этики и безопасности?
Здесь открытые модели проигрывают. Или выигрывают — смотря с какой стороны посмотреть.
Claude Opus имеет встроенные ограничения, которые нельзя отключить. GLM-5 можно «раздеть» от любых safety-фильтров. Это одновременно и преимущество (для исследователей), и риск (для недобросовестных пользователей).
Интересно, что в базовой конфигурации GLM-5 довольно консервативен в вопросах безопасности. Как показывало предыдущее исследование, модель отказывается обсуждать взлом и JTAG-отладку даже в исследовательских целях.
Куда движется рынок?
Тренд очевиден: разрыв между открытыми и проприетарными моделями сокращается с каждым месяцем. Еще год назад открытые модели отставали на 10-15%. Сегодня — на 0,5-1%. Через полгода, возможно, они сравняются или даже обгонят.
Что это значит для бизнеса?
- Цены на API будут снижаться. Когда есть качественная open-source альтернатива, платить в 5 раз больше становится неразумно
- Появится больше специализированных моделей. Зачем платить за общую модель, если можно дообучить GLM-5 под свои нужды?
- Приватность станет стандартом. Компании начнут массово переходить на локальные модели, чтобы не отправлять данные третьим сторонам
Для визуализации сравнений моделей теперь можно использовать LLMPlot.com — сервис, который создает идеальные графики сравнения за 5 минут. Полезно, когда нужно наглядно показать разницу между моделями.
Стоит ли переходить с Claude на GLM-5?
Зависит от ваших задач. Если вы уже используете GLM-4.7 и довольны результатами, переход на GLM-5 даст прирост качества. Если вы привязаны к экосистеме Anthropic — возможно, пока рано.
Но для новых проектов выбор стал сложнее. Раньше ответ был очевиден: берем Claude или GPT. Сегодня нужно считать: качество vs стоимость vs контроль.
Мой прогноз: к концу 2026 года доля открытых модель в корпоративном секторе вырастет с текущих 15% до 40%. Компании устали платить за API и отдавать свои данные. Особенно после серии утечек у крупных провайдеров.
И последнее: если вы думаете, что GLM-5 — это просто «еще одна модель», посмотрите на исследование о «личности» LLM. У каждой модели свой характер, свои сильные и слабые стороны. GLM-5 — не клон Claude, это другой подход, другая философия.
И иногда другой подход оказывается лучше.