Сравнение Qwen 3 Max-Thinking и Qwen 3.5 на бенчмарке MineBench 2026 | AiManual
AiManual Logo Ai / Manual.
16 Фев 2026 Гайд

Qwen 3 Max-Thinking против Qwen 3.5: MineBench показал, насколько «безумно» улучшилось пространственное мышление

Тестирование пространственного мышления: Qwen 3 Max-Thinking показывает прорыв против Qwen 3.5 на бенчмарке MineBench. Данные на 16.02.2026.

MineBench: тот самый тест, где Qwen 3.5 выглядел уязвимо

В конце 2025 года, когда все обсуждали GPT-5.2 и Opus 4.6, тихо выкатили обновленный бенчмарк MineBench. Не MMLU, не HellaSwag, не очередной синтетический тест на код. MineBench проверяет конкретную, критически важную для разработки игр, AR/VR и робототехники способность: пространственное мышление и рассуждение в трехмерных мирах.

Задачи там такие: "Игрок стоит в точке (10, 5, 0). Он поворачивается на 90 градусов налево, проходит 3 блока, копает вниз на 2 блока. Какой блок окажется прямо под ним?" Или: "С учетом этой карты чанков, где будет самая безопасная зона для строительства убежища от мобов?"

Когда в январе 2026-го протестировали Qwen 3.5 (самую свежую версию на тот момент) на MineBench, результаты были... скромными. Модель справлялась с простой геометрией, но терялась в многошаговых сценариях, требующих удержания в "голове" меняющегося 3D-контекста. Она ошибалась в определении видимости объектов, путала лево-право при последовательных поворотах. Типичная слабость LLM, обученных в основном на тексте и 2D-данных.

Контекст: Qwen 3.5 Plus показал мощь в других областях, но архитектура не была заточена под пространственное reasoning. Это видно и в нашем сравнении внутренних представлений моделей.

Qwen 3 Max-Thinking: не просто больше параметров, а другая архитектура reasoning

Анонсированная в феврале 2026 года, Qwen 3 Max-Thinking заявлена не как "увеличенная версия", а как модель с "переработанным механизмом рассуждения". Разработчики из Alibaba Cloud прямо сказали: целевая задача — преодолеть разрыв в сложных, многошаговых задачах, где нужно планировать и манипулировать ментальными моделями. MineBench стал для них идеальным полигоном.

💡
Max-Thinking — это не маркетинг. Это ссылка на архитектурную модификацию, в которой модель явно разделяет этапы: 1) извлечение и структурирование условий задачи, 2) построение и обновление внутренней "сцены", 3) пошаговое планирование действий в этой сцене, 4) верификация ответа. Все это происходит в рамках расширенного контекстного окна.

Если Qwen 3.5 пыталась решить задачу MineBench "в лоб", генерируя ответ одним рывком, то Max-Thinking выдает рассуждения, похожие на записи программиста: "Сначала определим начальные координаты. Затем смоделируем первый поворот. Обновим систему отсчета. Теперь движение вперед..."

Цифры не врут: разрыв на MineBench оказался сокрушительным

Вот данные тестирования, проведенного независимым комьюнити на оборудовании с A100 80GB, с использованием официального репозитория MineBench (актуальная версия от января 2026).

Категория задач MineBenchQwen 3.5 (14B версия)Qwen 3 Max-Thinking (14B версия)Улучшение
Базовая навигация (координаты, повороты)78.2%95.7%+17.5 п.п.
Многошаговое планирование пути61.5%89.3%+27.8 п.п.
Анализ видимости/окклюзии объектов53.1%84.6%+31.5 п.п.
Инференс на картах чанков (с памятью контекста)42.8%81.2%+38.4 п.п.
Общий балл MineBench (агрегированный)59.488.2+28.8 балла

Улучшение на 38.4 процентных пункта в задачах с картами чанков — это не опечатка. Это показатель того, что Max-Thinking действительно научилась строить и удерживать в рабочей памяти сложную пространственную модель, обновляя ее по мере поступления новых данных. Qwen 3.5 же, сталкиваясь с длинным описанием локации, "забывала" детали из начала контекста.

Почему это важно за пределами Minecraft? Реальный use-case

Казалось бы, игрушечный бенчмарк. Но пространственное reasoning — это основа для:

  • Генерации и анализа 3D-сцен в движках типа Unity или Unreal Engine. Модель может описывать, что "видит" на схеме, или генерировать инструкции по размещению объектов.
  • Навигации роботов по текстовым или схематическим инструкциям ("объезди стол справа, затем двигайся к красной метке").
  • AR-ассистентов, которые должны понимать взаимное расположение реальных объектов в помещении пользователя.

Max-Thinking демонстрирует, что узкая, но глубокая доработка архитектуры под конкретный тип reasoning дает больший выигрыш, чем просто наращивание параметров. Это тренд, который мы отмечали в анализе современных бенчмарков — гонка за сырыми баллами закончилась, теперь оптимизируют под задачи.

А как же GPT-5.2 и Opus 4.6? Контекст конкуренции

В том же февральском раунде тестов MineBench проверили и на закрытых топ-моделях. Данные из открытых источников (без официальных заявлений от OpenAI и Anthropic) показывают:

  • GPT-5.2 (через API): ~91-93 балла на MineBench. Сильно зависит от промптинга. С цепочкой размышлений (Chain-of-Thought) показывает результаты, близкие к Qwen 3 Max-Thinking.
  • Opus 4.6: ~94-95 баллов. Традиционно силен в задачах, требующих точного следования сложным инструкциям.

Вывод шокирует: 14-миллиардная open-source модель Qwen 3 Max-Thinking вплотную подобралась к производительности гигантских проприетарных моделей в нише пространственного reasoning. Разрыв сократился с "катастрофического" до "сопоставимого". Для индустрии это сигнал: специализированные open-source модели начали откусывать куски от монополии крупных игроков в конкретных доменах.

Этот прорыв стал возможен благодаря фокусу на качестве данных для обучения. Команда Qwen, судя по всему, сгенерировала или отобрала огромный объем высококачественных синтетических данных, моделирующих именно пространственные рассуждения, — подход, схожий с тем, что использовали создатели ZwZ-8B для компьютерного зрения.

Что это значит для разработчика? Практические выводы

1. Выбор модели стал контекстно-зависимым. Если ваш проект связан с 3D, навигацией, геопространственными данными — Qwen 3 Max-Thinking (даже в 7B или 14B варианте) теперь является сильным кандидатом. Для общих чат-задач, возможно, хватит и Qwen 3.5.

2. Железо не стало требовательнее. Архитектурные улучшения Max-Thinking не привели к взрывному росту потребления памяти или вычислений на токен. На том же железе, где работала Qwen 3.5, будет работать и Max-Thinking. Проблемы с размещением больших моделей все еще актуальны, о чем мы писали в материале про Qwen3 Next и требования к железу.

3. Бенчмарки нужно читать между строк. Высокий балл на MMLU не гарантирует, что модель справится с планированием пути в виртуальном мире. Всегда смотрите на специализированные тесты, близкие к вашей задаче.

Где взять и как попробовать?

Обе модели доступны на Hugging Face и в репозиториях Alibaba. Для запуска тестов на MineBench вам понадобится:

  • Клонировать официальный репозиторий MineBench.
  • Иметь доступ к GPU с достаточным объемом VRAM (для 14B моделей комфортно от 16 ГБ).
  • Использовать совместимый бэкенд для инференса (vLLM, llama.cpp, Transformers).

Самое интересное — потестировать модели на своих собственных, прикладных задачах, связанных с пространственным reasoning. Возможно, вы обнаружите, что Max-Thinking справляется с чем-то, что раньше требовало ручного программирования.

Эволюция Qwen от 3.5 к Max-Thinking — это не "апдейт", а смена парадигмы. Модели перестают быть универсальными болтушками и превращаются в специализированные "мозги" для конкретных типов мышления. Следующий шаг, вероятно, — появление аналогичных "Max-" модификаций для формального логического вывода, временного планирования или финансового анализа. Гонка за качеством сменилась гонкой за архитектурой reasoning. И это куда интереснее.