MiniMax M2.7: самоэволюция ИИ через RL-петли и агенты | Март 2026

Китайцы закрутили петлю. Буквально.

В марте 2024 все обсуждали M2.1 — открытую Mixture-of-Experts модель, которая била гигантов. В марте 2026 разговор другой. MiniMax выпустила M2.7. И это не просто новая версия. Это модель, которая участвует в собственной доработке.

Звучит как сценарий для плохого сериала про восстание машин. Но архитектура, которую они показали, работает. И довольно безумно.

💡

M2.7 не ждёт, пока инженеры напишут новый датасет. Она создаёт задачи для самотестирования, запускает на них агентов, анализирует провалы и предлагает патчи в собственный код обучения. Это и есть RL-петля (Reinforcement Learning).

От MoE к SOE: Self-Optimizing Engine

Если M2.1 была Mixture of Experts, то M2.7 — это Mixture of Agentic Experts. Ядро системы — не одна большая модель, а оркестр из девяти специализированных агентов. Каждый отвечает за свой этап эволюции.

Исследователь: ищет слабые места модели на свежих бенчмарках (например, на только что вышедшем SWE-Pro v3).
Критик: оценивает, где ответы M2.7 отстают от, скажем, свежей DeepSeek-V3 671B (да, они тоже не стоят на месте).
Архитектор: предлагает изменения в конфигурации модели или процессе обучения.
Инженер: пишет и тестирует код для этих изменений.
Координатор — управляет всей этой цирковой труппой, чтобы они не передрались за ресурсы.

И это не метафора. Внутри M2.7 работает фреймворк, похожий на тот, что мы разбирали в статье про AI-фабрику, только встроенный прямо в цикл обучения.

Главный страх — выравнивание. Если агенты начнут оптимизировать не те метрики, получится монстр. MiniMax утверждает, что решила это через жёсткие «конституционные» промпты для каждого агента. Но верится с трудом, учитывая их же прошлые проблемы.

Цифры, которые заставляют задуматься

На бумаге всё красиво. Но что по факту? MiniMax приводит данные на 23 марта 2026 года.

Бенчмарк	M2.1 (2024)	M2.7 (2026)	Прирост
SWE-Pro (производство кода)	81.2%	94.7%	+13.5 п.п.
GDPval-AA (агентское выравнивание)	62.1%	88.3%	+26.2 п.п.
Стоимость инференса (отн.)	1.0x	~1.8x	Выше

Рост на GDPval-AA впечатляет. Этот бенчмарк как раз проверяет, не сходит ли агент с ума в длительных задачах. Видимо, уроки по RLM пошли впрок. Но платим мы за это вычислениями. Запуск всей агентной команды для одного цикла самоанализа — это не шутка.

Так что, теперь ИИ будет бесконечно улучшаться?

Нет. И вот почему.

Во-первых, петля нуждается в «семенах» — начальных задачах от людей. Без человеческого курса модель будет оптимизировать то, что умеет, а не то, что нужно.

Во-вторых, есть физические пределы. Каждый цикл самооптимизации требует времени и GPU. В MiniMax говорят о 3-5 циклах в неделю для серьёзных улучшений. Это не взрывной рост, а методичная работа.

В-третьих, мир меняется. Модель может идеально решать вчерашние задачи, но сегодня выходит новая версия Python или ломается API. Тут без человека не обойтись. Хотя M2.7 уже умеет читать документацию и адаптироваться — это её сильная сторона.

💡

Практический вывод: M2.7 — не автономный бог-ИИ. Это высококлассный инженер-стажёр, который может провести код-ревью самого себя, но итоговое решение и постановку задачи всё равно даёт человек.

Кому это нужно прямо сейчас?

Если вы запускаете продакшен с автономными агентами, которые работают с кодом — присмотритесь. M2.7 может снизить количество костылей и ручных правок. Особенно в связке с RL-средами для тестирования.

Если вы исследователь — архитектура M2.7 открыта. Можно попробовать собрать свою самооптимизирующуюся систему на базе меньших моделей. Главное — не упустить агентов из-под контроля.

Если вы обычный пользователь — вы этого скорее всего не заметите. Но через полгода чат-боты, доработанные такими системами, станут чуть менее тупыми.

Что будет дальше? Мой прогноз

К концу 2026 года мы увидим первую серьёзную аварию. Не взбунтовавшийся ИИ, а тихий баг в самооптимизации, который загонит модель в локальный максимум и сделает её бесполезной по конкретному типу задач. Командам придётся экстренно учиться ставить «предохранители» в RL-петли.

А ещё — агентские войны между китайскими компаниями перейдут на новый уровень. Не просто чья модель умнее, а чья модель быстрее и безопаснее эволюционирует в условиях неопределённости. Ставки растут. Игра началась.

Подписаться на канал

MiniMax M2.7: модель, которая учит сама себя, и почему это уже не фантастика