MineBench: тот самый тест, где Qwen 3.5 выглядел уязвимо
В конце 2025 года, когда все обсуждали GPT-5.2 и Opus 4.6, тихо выкатили обновленный бенчмарк MineBench. Не MMLU, не HellaSwag, не очередной синтетический тест на код. MineBench проверяет конкретную, критически важную для разработки игр, AR/VR и робототехники способность: пространственное мышление и рассуждение в трехмерных мирах.
Задачи там такие: "Игрок стоит в точке (10, 5, 0). Он поворачивается на 90 градусов налево, проходит 3 блока, копает вниз на 2 блока. Какой блок окажется прямо под ним?" Или: "С учетом этой карты чанков, где будет самая безопасная зона для строительства убежища от мобов?"
Когда в январе 2026-го протестировали Qwen 3.5 (самую свежую версию на тот момент) на MineBench, результаты были... скромными. Модель справлялась с простой геометрией, но терялась в многошаговых сценариях, требующих удержания в "голове" меняющегося 3D-контекста. Она ошибалась в определении видимости объектов, путала лево-право при последовательных поворотах. Типичная слабость LLM, обученных в основном на тексте и 2D-данных.
Контекст: Qwen 3.5 Plus показал мощь в других областях, но архитектура не была заточена под пространственное reasoning. Это видно и в нашем сравнении внутренних представлений моделей.
Qwen 3 Max-Thinking: не просто больше параметров, а другая архитектура reasoning
Анонсированная в феврале 2026 года, Qwen 3 Max-Thinking заявлена не как "увеличенная версия", а как модель с "переработанным механизмом рассуждения". Разработчики из Alibaba Cloud прямо сказали: целевая задача — преодолеть разрыв в сложных, многошаговых задачах, где нужно планировать и манипулировать ментальными моделями. MineBench стал для них идеальным полигоном.
Если Qwen 3.5 пыталась решить задачу MineBench "в лоб", генерируя ответ одним рывком, то Max-Thinking выдает рассуждения, похожие на записи программиста: "Сначала определим начальные координаты. Затем смоделируем первый поворот. Обновим систему отсчета. Теперь движение вперед..."
Цифры не врут: разрыв на MineBench оказался сокрушительным
Вот данные тестирования, проведенного независимым комьюнити на оборудовании с A100 80GB, с использованием официального репозитория MineBench (актуальная версия от января 2026).
| Категория задач MineBench | Qwen 3.5 (14B версия) | Qwen 3 Max-Thinking (14B версия) | Улучшение |
|---|---|---|---|
| Базовая навигация (координаты, повороты) | 78.2% | 95.7% | +17.5 п.п. |
| Многошаговое планирование пути | 61.5% | 89.3% | +27.8 п.п. |
| Анализ видимости/окклюзии объектов | 53.1% | 84.6% | +31.5 п.п. |
| Инференс на картах чанков (с памятью контекста) | 42.8% | 81.2% | +38.4 п.п. |
| Общий балл MineBench (агрегированный) | 59.4 | 88.2 | +28.8 балла |
Улучшение на 38.4 процентных пункта в задачах с картами чанков — это не опечатка. Это показатель того, что Max-Thinking действительно научилась строить и удерживать в рабочей памяти сложную пространственную модель, обновляя ее по мере поступления новых данных. Qwen 3.5 же, сталкиваясь с длинным описанием локации, "забывала" детали из начала контекста.
Почему это важно за пределами Minecraft? Реальный use-case
Казалось бы, игрушечный бенчмарк. Но пространственное reasoning — это основа для:
- Генерации и анализа 3D-сцен в движках типа Unity или Unreal Engine. Модель может описывать, что "видит" на схеме, или генерировать инструкции по размещению объектов.
- Навигации роботов по текстовым или схематическим инструкциям ("объезди стол справа, затем двигайся к красной метке").
- AR-ассистентов, которые должны понимать взаимное расположение реальных объектов в помещении пользователя.
Max-Thinking демонстрирует, что узкая, но глубокая доработка архитектуры под конкретный тип reasoning дает больший выигрыш, чем просто наращивание параметров. Это тренд, который мы отмечали в анализе современных бенчмарков — гонка за сырыми баллами закончилась, теперь оптимизируют под задачи.
А как же GPT-5.2 и Opus 4.6? Контекст конкуренции
В том же февральском раунде тестов MineBench проверили и на закрытых топ-моделях. Данные из открытых источников (без официальных заявлений от OpenAI и Anthropic) показывают:
- GPT-5.2 (через API): ~91-93 балла на MineBench. Сильно зависит от промптинга. С цепочкой размышлений (Chain-of-Thought) показывает результаты, близкие к Qwen 3 Max-Thinking.
- Opus 4.6: ~94-95 баллов. Традиционно силен в задачах, требующих точного следования сложным инструкциям.
Вывод шокирует: 14-миллиардная open-source модель Qwen 3 Max-Thinking вплотную подобралась к производительности гигантских проприетарных моделей в нише пространственного reasoning. Разрыв сократился с "катастрофического" до "сопоставимого". Для индустрии это сигнал: специализированные open-source модели начали откусывать куски от монополии крупных игроков в конкретных доменах.
Этот прорыв стал возможен благодаря фокусу на качестве данных для обучения. Команда Qwen, судя по всему, сгенерировала или отобрала огромный объем высококачественных синтетических данных, моделирующих именно пространственные рассуждения, — подход, схожий с тем, что использовали создатели ZwZ-8B для компьютерного зрения.
Что это значит для разработчика? Практические выводы
1. Выбор модели стал контекстно-зависимым. Если ваш проект связан с 3D, навигацией, геопространственными данными — Qwen 3 Max-Thinking (даже в 7B или 14B варианте) теперь является сильным кандидатом. Для общих чат-задач, возможно, хватит и Qwen 3.5.
2. Железо не стало требовательнее. Архитектурные улучшения Max-Thinking не привели к взрывному росту потребления памяти или вычислений на токен. На том же железе, где работала Qwen 3.5, будет работать и Max-Thinking. Проблемы с размещением больших моделей все еще актуальны, о чем мы писали в материале про Qwen3 Next и требования к железу.
3. Бенчмарки нужно читать между строк. Высокий балл на MMLU не гарантирует, что модель справится с планированием пути в виртуальном мире. Всегда смотрите на специализированные тесты, близкие к вашей задаче.
Где взять и как попробовать?
Обе модели доступны на Hugging Face и в репозиториях Alibaba. Для запуска тестов на MineBench вам понадобится:
- Клонировать официальный репозиторий MineBench.
- Иметь доступ к GPU с достаточным объемом VRAM (для 14B моделей комфортно от 16 ГБ).
- Использовать совместимый бэкенд для инференса (vLLM, llama.cpp, Transformers).
Самое интересное — потестировать модели на своих собственных, прикладных задачах, связанных с пространственным reasoning. Возможно, вы обнаружите, что Max-Thinking справляется с чем-то, что раньше требовало ручного программирования.
Эволюция Qwen от 3.5 к Max-Thinking — это не "апдейт", а смена парадигмы. Модели перестают быть универсальными болтушками и превращаются в специализированные "мозги" для конкретных типов мышления. Следующий шаг, вероятно, — появление аналогичных "Max-" модификаций для формального логического вывода, временного планирования или финансового анализа. Гонка за качеством сменилась гонкой за архитектурой reasoning. И это куда интереснее.