Шепотки на форумах, дропнутые бенчмарки на PrivateBench и внезапная активность в репозиториях Minimax на Hugging Face. Если вы следите за китайской гонкой LLM, то уже чуете: M3 на подходе. И это не просто очередной аперитив — по слухам, модель перепилит всё, что было до неё. Разбираемся, что накопали к концу мая 2026.
Что такого в этой M3? (Спойлер: не только параметры)
Слухи ходят разные. Кто-то говорит про 300+ миллиардов параметров с 15 активными (да, снова MoE, но с новым трюком). Кто-то — про контекст в 2 миллиона токенов без потерь, используя какую-то гибридную attention-схему в духе Mamba-2 и sliding window. Но главная фишка, которая взбудоражила LocalLLaMA-комьюнити, — заявленная возможность запуска на домашних GPU. Да-да, речь про 4×RTX 5090 или один M5 Ultra от Apple.
Если вы ещё не обновили свой M-мак, почитайте наш разбор Apple M5 Pro и M5 Max для локальных LLM — возможно, новый камень как раз под M3 и заточен.
Важный нюанс: официального анонса от Minimax пока нет. Все цифры — из слитых даташитов и постов на Weibo. Относитесь к ним как к очень правдоподобным сплетням.
Дорожная карта: от M2.1 до M3
Чтобы понять, куда катится M3, давайте вспомним, с чего всё начиналось. M2.1 выстрелила в кодинге и агентах — тогда это был прорыв. Потом M2.5 взяла SWE-Bench с 80.2%, а M2.7 научилась учиться сама (self-play reinforcement learning без учителя). И вот на этом фоне M3 — не просто эволюция, а, по заверениям инсайдеров, квантовый скачок.
Утечки упоминают новую технику обучения под названием "Dynamic Expert Routing 2.0" — якобы модель сама решает, сколько экспертов активировать под конкретную задачу, и тратит на это в 2 раза меньше флопсов, чем у M2.5. Звучит как магия, но если это правда, то локальный запуск перестанет быть уделом миллионеров.
Где M3 проигрывает (и это нормально)
Давайте без розовых очков. По слитым бенчмаркам M3 проседает в генерации креативного текста (HumanEval creative) и в задачах на юмор. Кажется, китайские инженеры снова решили, что кодинг и логика важнее шуток. Если вам нужна модель для LARP или написания сценариев, возможно, DeepSeek V4 или Kimi K3 остаются лучшим выбором.
Ещё один момент — скорость инференса на старых GPU. На M3 Max (чип Apple) модель работает, но не так шустро, как на M5 Pro. Наши тесты M5 Max vs M3 Max показали, что новая архитектура с длинным контекстом (2M токенов) даёт прирост в 40% на новых чипах, а старые M3 Max просто не справляются с кэшированием. Так что если у вас MacBook Pro 2023 — готовьтесь к тормозам.
Инсайдеры утверждают, что Minimax M3 будет доступна в двух вариантах: полная (300B) и дистиллированная (27B) для локального запуска. Дистиллированная версия, по слухам, уже тестируется на RTX 4090 с 4-битной квантизацией.
Когда релиз? Календарь инсайдов
Если верить последнему посту анонимного сотрудника Minimax на Reddit (аккаунт уже удалён, но скрины сохранились), официальный анонс назначен на 15 июня 2026. Открытый вес на Hugging Face обещают через неделю после анонса. Запомните эту дату. Если задержка — готовьтесь к стандартным «китайским двум неделям», которые растягиваются на месяц.
Кстати, M2.5 тоже выходила с задержкой — вместо обещанного релиза в понедельник выложили во вторник ночью. Так что держите кулачки.
Что в итоге? Стоит ли ждать M3
Если вы разрабатываете агентов, пишете код или гоняете бенчмарки — M3 выглядит как must-have. Если вам нужна болталка для домашки — и M2.5 справится, её первые тесты на реальных задачах показали, что для 95% случаев её хватает за глаза. M3 — это ставка на будущее: сверхдлинный контекст, умная маршрутизация и возможность запуска на одном GPU (благодаря 4-битной квантизации). Дождёмся 15 июня и увидим, не перегрелись ли оптимисты.
А пока — советую заглянуть в статью про Nemotron-3-Super-120B Uncensored — там тоже MoE с Mamba attention, и это даёт представление о том, куда движется индустрия. Возможно, M3 возьмёт лучшее оттуда и упакует в свой фирменный минимализм.