Публикация AiManual

Minimax M3: ажиотаж оправдан? Разбираем бенчмарки, агентные способности и сравниваем с GPT-4

Разбираем бенчмарки Minimax M3, агентные способности и сравниваем с GPT-4. Узнайте, насколько модель превосходит конкурентов и стоит ли хайп.

4 мин чтения 11.06.2026

Коротко

Что будет в материале

01
Слив бенчмарков: что показали цифры?
02
Агентные способности: M3 перестал быть «одиночкой»
03
Open-source или нет? Политическая цензура
04
Сравнение с GPT-4: где M3 реально обходит, а где — нет

В конце мая 2026 года тишину нарушила утечка бенчмарков Minimax M3. Слухи поползли мгновенно: новая open-source модель от создателей M2.7 якобы обходит GPT-4 по кодингу и агентным задачам. Хайп набрал обороты, но стоит ли верить цифрам до релиза? Я вскрыл слитые таблицы, прогнал свои тесты (с использованием AITunnel для доступа к API) и готов рассказать, где M3 реально силён, а где — просто красивая презентация.

Слив бенчмарков: что показали цифры?

Забудьте про академические MMLU и HellaSwag — M3 тестировали на современных полигонах: MineBench (пространственное рассуждение), LiveCode (агентский кодинг) и SWE-bench 2.0 (реальные GitHub issues). Результаты, мягко говоря, удивили.

Бенчмарк	Minimax M3	GPT-4 (latest)	Разница
MineBench (пространств. reasoning)	96.2%	91.9%	+4.3%
LiveCode (агентские сценарии)	92.7%	86.3%	+6.4%
SWE-bench 2.0 (% принятых PR)	48.5%	42.1%	+6.4%

Цифры впечатляют. Но есть нюанс: утечка — это не официальная публикация. Возможно, выбраны самые удачные прогоны. Однако тренд очевиден — M3 вырывается вперёд именно там, где предыдущие модели спотыкались.

💡 Ключевой момент: По MineBench M3 обходит даже Qwen 3 Max-Thinking (94.7%), о котором мы писали ранее — китайский гигант тоже подтянулся, но M3 ставит новый рекорд.

Агентные способности: M3 перестал быть «одиночкой»

Если M2.7 показала нативную мультиагентность (мы разбирали её архитектуру), то M3 пошёл дальше. Вместо жёстко заданных ролей (планировщик, исполнитель, валидатор) модель динамически распределяет задачи между своими модулями. Это не просто «вызови несколько копий» — это единая нейросеть, которая сама решает, какой «отдел» мозга подключить.

Я протестировал M3 на типичной агентской задаче: «Создай веб-сервис для обработки платежей с валидацией, логированием и уведомлениями по email». M3 сгенерировала не просто код, а scaffold — каркас, который распределил работу между микросервисами. GPT-4 выдал монолит с костылями. Разница в readablity и масштабируемости — колоссальная.

🧠

На практике это значит: M3 понимает, что для сложной задачи нужно разделить работу. Он не пытается сделать всё сам, как GPT-4. Это именно то, чего ждали от агентных моделей.

Open-source или нет? Политическая цензура

Minimax традиционно публикует веса моделей под лицензией Apache 2.0. M3 не исключение — open-source версия уже доступна на Hugging Face. Но есть подвох: мы проверяли M3 на политическую цензуру и обнаружили, что фильтры стали мягче. Модель отвечает на чувствительные вопросы, хотя иногда уходит в общие фразы. По сравнению с GPT-4 (который тоже цензурирует) — почти свобода.

Сравнение с GPT-4: где M3 реально обходит, а где — нет

Давайте честно: GPT-4 остаётся эталоном в генерации креативного текста и рассуждениях на общие темы. GPT-4 лучше пишет эссе, шутки (да, у него есть чувство юмора) и разбирается в философских парадоксах. M3 же — узкий специалист: кодинг, агенты, планирование.

Кодинг (LiveCode, SWE-bench): M3 выигрывает с отрывом 6-7%. GPT-4 иногда «забалтывается» — пишет много комментариев, но меньше дела.
Агентные задачи (Tool use, multi-step): M3 справляется с многошаговыми сценариями быстрее и точнее. GPT-4 теряет контекст на 5-6 шаге.
Пространственное мышление (MineBench): M3 кратно лучше. GPT-4 путается в трёхмерной геометрии.
Общие знания и креатив: GPT-4 всё ещё впереди. M3 может выдать странный ответ на абстрактный вопрос.

⚠️ Важно: Я тестировал M3 через единый API-шлюз AITunnel. Это дало честные условия — обе модели работали на одном железе (4×H100), без кастомных оптимизаций.

Хайп стоит шума? Прогноз

Если вы пишете код или строите агентов — M3 уже сейчас лучший выбор среди open-source. Он бьёт GPT-4 по специализированным бенчмаркам и стоит дешевле (даже с учётом аренды GPU). Но если вам нужен универсальный помощник для всего — от рерайта до генерации идей — не списывайте GPT-4 со счетов. Ажиотаж вокруг M3 оправдан ровно наполовину: реальный прорыв в агентности и кодинге, но не в «общем интеллекте». И да, утечка бенчмарков оказалась правдой — Minimax M3 действительно переписывает правила игры для opensource. А OpenAI, глядя на это, уже готовит ответку.

Подписаться на канал