Тест, который поставил всех в тупик
Вчера вечером я задал двум топовым моделям 2026 года один вопрос. Простой, бытовой, без подвоха. Казалось бы.
Вопрос звучал так: "У меня есть 2 литра молока в пакете. Я перелил его в банку на 1,5 литра. Сколько молока осталось в пакете?"
GPT-5.2 ответил: "0,5 литра осталось в пакете". GLM 5 сказал: "Ничего не осталось - вы перелили всё молоко в банку".
Почему GPT-5.2 ошибся, а GLM 5 понял
Здесь вся суть современного ИИ. GPT-5.2 увидел числа: 2 литра, 1,5 литра. Вычел. Получил 0,5. Математически верно.
GLM 5 увидел контекст: пакет, банка, переливание. Понял физический процесс. Если переливать из пакета в банку - в пакете ничего не останется. Даже если банка меньше.
Что это говорит об архитектурах моделей
На 11 февраля 2026 года у нас есть две принципиально разные философии:
| GPT-5.2 | GLM 5 |
|---|---|
| Фокус на точных вычислениях | Фокус на контекстном понимании |
| Декомпозиция задачи на части | Целостное восприятие ситуации |
| Следует математической логике | Использует здравый смысл |
GLM 5, особенно в последней версии, которая доступна на OpenRouter, показывает неожиданные результаты в тестах на здравый смысл. Не потому что он "умнее" математически. А потому что он лучше понимает, как устроен мир.
Проблема не в GPT-5.2, а в подходе
OpenAI годами тренировала модели на решении задач. Много задач. Сложных, комплексных. Но они забыли про простые вещи.
Когда вы читаете про 22 часа ожидания ответа от GPT-5.2, становится ясно: модель слишком много "думает". Анализирует. Рассуждает. И теряет простой здравый смысл.
GLM 5 не стал вычислять. Он представил ситуацию. Увидел пакет молока. Увидел банку. Понял процесс переливания. Ответил интуитивно.
Что это значит для пользователей
Если вам нужен ИИ для:
- Бытовых советов
- Понимания житейских ситуаций
- Контекстных ответов без излишней сложности
GLM 5 может оказаться лучше. Особенно если посмотреть на его результаты на OpenRouter.
Но для сложных вычислений, программирования, анализа данных - GPT-5.2 всё ещё лидер. Хотя и здесь появляются конкуренты вроде GPT-5.3 Codex.
Как тестировать модели на здравый смысл
Не доверяйте бенчмаркам. Они измеряют не то. Создайте свои тесты:
1 Используйте бытовые ситуации
"Если я положу мороженое в микроволновку на 5 минут, что будет?" Правильный ответ не про температуру плавления, а про то, что получится лужа.
2 Добавляйте физические ограничения
"Можно ли пронести диван через дверь шириной 70 см, если диван шириной 80 см?" Математика говорит нет. Здравый смысл - может быть, если наклонить.
3 Проверяйте понимание процессов
Как в нашем тесте с молоком. Не просто вычисления, а понимание последовательности действий.
Больше готовых промптов для таких тестов можно найти в специальной статье.
Почему GLM 5 справляется лучше
Китайские разработчики из Zhipu AI сфокусировались на другом подходе. Они меньше гнались за параметрами, больше - за пониманием контекста.
Если посмотреть технические детали GLM 5, видно: архитектура оптимизирована для целостного понимания, а не для пошагового анализа.
И это работает. GLM-4.7 уже показывал, что можно быть умнее, не будучи больше. GLM 5 продолжает эту линию.
Что будет дальше
Две тенденции на 2026 год:
- Западные модели будут становиться всё сложнее, аналитичнее, "умнее" в техническом смысле
- Китайские и opensource-модели будут фокусироваться на практической полезности, здравом смысле, скорости
Это не значит, что одна лучше другой. Это значит, что нужно выбирать модель под задачу.
Для бизнес-аналитики - возможно, GPT-5.2. Для чата с поддержкой клиентов - вероятно, GLM 5. Для кодинга - посмотрите на специализированные модели.
Самая большая ошибка при выборе ИИ
Думать, что есть одна "лучшая" модель. Её нет. Есть модели, которые лучше решают конкретные задачи.
GLM 5 оказался умнее в бытовом вопросе. Но это не делает его универсальным чемпионом. Это делает его лучшим инструментом для определённого типа задач.
Перед выбором модели задайте себе вопрос: что для вас важнее - математическая точность или контекстное понимание? Скорость ответа или глубина анализа? Как пишут в другой статье, логические сбои убивают доверие быстрее, чем фактические ошибки.
Мой совет: создайте свой набор из 10 бытовых вопросов. Протестируйте на них все доступные модели. Выберите ту, которая чаще отвечает "как человек", а не "как калькулятор".
И помните: иногда самый умный ответ - это не самый точный с математической точки зрения. Иногда это просто ответ, который имеет смысл.