Что такое бенчмарк MineBench?

MineBench — это специализированный бенчмарк для оценки пространственного мышления и рассуждений в трехмерных мирах, часто на примере среды, подобной Minecraft. Он проверяет способности модели к навигации, планированию пути, анализу видимости объектов и работе с картами.

Насколько Qwen 3 Max-Thinking лучше Qwen 3.5 на MineBench?

По данным тестов на 16.02.2026, Qwen 3 Max-Thinking (14B) превосходит Qwen 3.5 (14B) на 28.8 балла в общем зачете MineBench. Наибольший разрыв (+38.4 п.п.) наблюдается в задачах на анализ карт чанков с долгим контекстом.

Почему улучшение пространственного мышления важно?

Способность к пространственному reasoning критична для разработки игр, AR/VR-приложений, навигации роботов, генерации 3D-сцен и анализа геопространственных данных. Это позволяет моделям понимать и манипулировать описаниями трехмерных миров.

Как Qwen 3 Max-Thinking сравнивается с GPT-5.2 и Opus 4.6?

Данные показывают, что Qwen 3 Max-Thinking (open-source, 14B параметров) демонстрирует результаты, сопоставимые с гигантскими проприетарными моделями GPT-5.2 (~91-93 балла) и Opus 4.6 (~94-95 баллов) в этой узкой, но важной области.

Сравнение Qwen 3 Max-Thinking и Qwen 3.5 на бенчмарке MineBench 2026

MineBench: тот самый тест, где Qwen 3.5 выглядел уязвимо

В конце 2025 года, когда все обсуждали GPT-5.2 и Opus 4.6, тихо выкатили обновленный бенчмарк MineBench. Не MMLU, не HellaSwag, не очередной синтетический тест на код. MineBench проверяет конкретную, критически важную для разработки игр, AR/VR и робототехники способность: пространственное мышление и рассуждение в трехмерных мирах.

Задачи там такие: "Игрок стоит в точке (10, 5, 0). Он поворачивается на 90 градусов налево, проходит 3 блока, копает вниз на 2 блока. Какой блок окажется прямо под ним?" Или: "С учетом этой карты чанков, где будет самая безопасная зона для строительства убежища от мобов?"

Когда в январе 2026-го протестировали Qwen 3.5 (самую свежую версию на тот момент) на MineBench, результаты были... скромными. Модель справлялась с простой геометрией, но терялась в многошаговых сценариях, требующих удержания в "голове" меняющегося 3D-контекста. Она ошибалась в определении видимости объектов, путала лево-право при последовательных поворотах. Типичная слабость LLM, обученных в основном на тексте и 2D-данных.

Контекст: Qwen 3.5 Plus показал мощь в других областях, но архитектура не была заточена под пространственное reasoning. Это видно и в нашем сравнении внутренних представлений моделей.

Qwen 3 Max-Thinking: не просто больше параметров, а другая архитектура reasoning

Анонсированная в феврале 2026 года, Qwen 3 Max-Thinking заявлена не как "увеличенная версия", а как модель с "переработанным механизмом рассуждения". Разработчики из Alibaba Cloud прямо сказали: целевая задача — преодолеть разрыв в сложных, многошаговых задачах, где нужно планировать и манипулировать ментальными моделями. MineBench стал для них идеальным полигоном.

💡

Max-Thinking — это не маркетинг. Это ссылка на архитектурную модификацию, в которой модель явно разделяет этапы: 1) извлечение и структурирование условий задачи, 2) построение и обновление внутренней "сцены", 3) пошаговое планирование действий в этой сцене, 4) верификация ответа. Все это происходит в рамках расширенного контекстного окна.

Если Qwen 3.5 пыталась решить задачу MineBench "в лоб", генерируя ответ одним рывком, то Max-Thinking выдает рассуждения, похожие на записи программиста: "Сначала определим начальные координаты. Затем смоделируем первый поворот. Обновим систему отсчета. Теперь движение вперед..."

Цифры не врут: разрыв на MineBench оказался сокрушительным

Вот данные тестирования, проведенного независимым комьюнити на оборудовании с A100 80GB, с использованием официального репозитория MineBench (актуальная версия от января 2026).

Категория задач MineBench	Qwen 3.5 (14B версия)	Qwen 3 Max-Thinking (14B версия)	Улучшение
Базовая навигация (координаты, повороты)	78.2%	95.7%	+17.5 п.п.
Многошаговое планирование пути	61.5%	89.3%	+27.8 п.п.
Анализ видимости/окклюзии объектов	53.1%	84.6%	+31.5 п.п.
Инференс на картах чанков (с памятью контекста)	42.8%	81.2%	+38.4 п.п.
Общий балл MineBench (агрегированный)	59.4	88.2	+28.8 балла

Улучшение на 38.4 процентных пункта в задачах с картами чанков — это не опечатка. Это показатель того, что Max-Thinking действительно научилась строить и удерживать в рабочей памяти сложную пространственную модель, обновляя ее по мере поступления новых данных. Qwen 3.5 же, сталкиваясь с длинным описанием локации, "забывала" детали из начала контекста.

Почему это важно за пределами Minecraft? Реальный use-case

Казалось бы, игрушечный бенчмарк. Но пространственное reasoning — это основа для:

Генерации и анализа 3D-сцен в движках типа Unity или Unreal Engine. Модель может описывать, что "видит" на схеме, или генерировать инструкции по размещению объектов.
Навигации роботов по текстовым или схематическим инструкциям ("объезди стол справа, затем двигайся к красной метке").
AR-ассистентов, которые должны понимать взаимное расположение реальных объектов в помещении пользователя.

Max-Thinking демонстрирует, что узкая, но глубокая доработка архитектуры под конкретный тип reasoning дает больший выигрыш, чем просто наращивание параметров. Это тренд, который мы отмечали в анализе современных бенчмарков — гонка за сырыми баллами закончилась, теперь оптимизируют под задачи.

А как же GPT-5.2 и Opus 4.6? Контекст конкуренции

В том же февральском раунде тестов MineBench проверили и на закрытых топ-моделях. Данные из открытых источников (без официальных заявлений от OpenAI и Anthropic) показывают:

GPT-5.2 (через API): ~91-93 балла на MineBench. Сильно зависит от промптинга. С цепочкой размышлений (Chain-of-Thought) показывает результаты, близкие к Qwen 3 Max-Thinking.
Opus 4.6: ~94-95 баллов. Традиционно силен в задачах, требующих точного следования сложным инструкциям.

Вывод шокирует: 14-миллиардная open-source модель Qwen 3 Max-Thinking вплотную подобралась к производительности гигантских проприетарных моделей в нише пространственного reasoning. Разрыв сократился с "катастрофического" до "сопоставимого". Для индустрии это сигнал: специализированные open-source модели начали откусывать куски от монополии крупных игроков в конкретных доменах.

Этот прорыв стал возможен благодаря фокусу на качестве данных для обучения. Команда Qwen, судя по всему, сгенерировала или отобрала огромный объем высококачественных синтетических данных, моделирующих именно пространственные рассуждения, — подход, схожий с тем, что использовали создатели ZwZ-8B для компьютерного зрения.

Что это значит для разработчика? Практические выводы

1. Выбор модели стал контекстно-зависимым. Если ваш проект связан с 3D, навигацией, геопространственными данными — Qwen 3 Max-Thinking (даже в 7B или 14B варианте) теперь является сильным кандидатом. Для общих чат-задач, возможно, хватит и Qwen 3.5.

2. Железо не стало требовательнее. Архитектурные улучшения Max-Thinking не привели к взрывному росту потребления памяти или вычислений на токен. На том же железе, где работала Qwen 3.5, будет работать и Max-Thinking. Проблемы с размещением больших моделей все еще актуальны, о чем мы писали в материале про Qwen3 Next и требования к железу.

3. Бенчмарки нужно читать между строк. Высокий балл на MMLU не гарантирует, что модель справится с планированием пути в виртуальном мире. Всегда смотрите на специализированные тесты, близкие к вашей задаче.

Где взять и как попробовать?

Обе модели доступны на Hugging Face и в репозиториях Alibaba. Для запуска тестов на MineBench вам понадобится:

Клонировать официальный репозиторий MineBench.
Иметь доступ к GPU с достаточным объемом VRAM (для 14B моделей комфортно от 16 ГБ).
Использовать совместимый бэкенд для инференса (vLLM, llama.cpp, Transformers).

Самое интересное — потестировать модели на своих собственных, прикладных задачах, связанных с пространственным reasoning. Возможно, вы обнаружите, что Max-Thinking справляется с чем-то, что раньше требовало ручного программирования.

Эволюция Qwen от 3.5 к Max-Thinking — это не "апдейт", а смена парадигмы. Модели перестают быть универсальными болтушками и превращаются в специализированные "мозги" для конкретных типов мышления. Следующий шаг, вероятно, — появление аналогичных "Max-" модификаций для формального логического вывода, временного планирования или финансового анализа. Гонка за качеством сменилась гонкой за архитектурой reasoning. И это куда интереснее.

Qwen 3 Max-Thinking против Qwen 3.5: MineBench показал, насколько «безумно» улучшилось пространственное мышление