Китайцы закрутили петлю. Буквально.
В марте 2024 все обсуждали M2.1 — открытую Mixture-of-Experts модель, которая била гигантов. В марте 2026 разговор другой. MiniMax выпустила M2.7. И это не просто новая версия. Это модель, которая участвует в собственной доработке.
Звучит как сценарий для плохого сериала про восстание машин. Но архитектура, которую они показали, работает. И довольно безумно.
От MoE к SOE: Self-Optimizing Engine
Если M2.1 была Mixture of Experts, то M2.7 — это Mixture of Agentic Experts. Ядро системы — не одна большая модель, а оркестр из девяти специализированных агентов. Каждый отвечает за свой этап эволюции.
- Исследователь: ищет слабые места модели на свежих бенчмарках (например, на только что вышедшем SWE-Pro v3).
- Критик: оценивает, где ответы M2.7 отстают от, скажем, свежей DeepSeek-V3 671B (да, они тоже не стоят на месте).
- Архитектор: предлагает изменения в конфигурации модели или процессе обучения.
- Инженер: пишет и тестирует код для этих изменений.
- Координатор — управляет всей этой цирковой труппой, чтобы они не передрались за ресурсы.
И это не метафора. Внутри M2.7 работает фреймворк, похожий на тот, что мы разбирали в статье про AI-фабрику, только встроенный прямо в цикл обучения.
Главный страх — выравнивание. Если агенты начнут оптимизировать не те метрики, получится монстр. MiniMax утверждает, что решила это через жёсткие «конституционные» промпты для каждого агента. Но верится с трудом, учитывая их же прошлые проблемы.
Цифры, которые заставляют задуматься
На бумаге всё красиво. Но что по факту? MiniMax приводит данные на 23 марта 2026 года.
| Бенчмарк | M2.1 (2024) | M2.7 (2026) | Прирост |
|---|---|---|---|
| SWE-Pro (производство кода) | 81.2% | 94.7% | +13.5 п.п. |
| GDPval-AA (агентское выравнивание) | 62.1% | 88.3% | +26.2 п.п. |
| Стоимость инференса (отн.) | 1.0x | ~1.8x | Выше |
Рост на GDPval-AA впечатляет. Этот бенчмарк как раз проверяет, не сходит ли агент с ума в длительных задачах. Видимо, уроки по RLM пошли впрок. Но платим мы за это вычислениями. Запуск всей агентной команды для одного цикла самоанализа — это не шутка.
Так что, теперь ИИ будет бесконечно улучшаться?
Нет. И вот почему.
Во-первых, петля нуждается в «семенах» — начальных задачах от людей. Без человеческого курса модель будет оптимизировать то, что умеет, а не то, что нужно.
Во-вторых, есть физические пределы. Каждый цикл самооптимизации требует времени и GPU. В MiniMax говорят о 3-5 циклах в неделю для серьёзных улучшений. Это не взрывной рост, а методичная работа.
В-третьих, мир меняется. Модель может идеально решать вчерашние задачи, но сегодня выходит новая версия Python или ломается API. Тут без человека не обойтись. Хотя M2.7 уже умеет читать документацию и адаптироваться — это её сильная сторона.
Кому это нужно прямо сейчас?
Если вы запускаете продакшен с автономными агентами, которые работают с кодом — присмотритесь. M2.7 может снизить количество костылей и ручных правок. Особенно в связке с RL-средами для тестирования.
Если вы исследователь — архитектура M2.7 открыта. Можно попробовать собрать свою самооптимизирующуюся систему на базе меньших моделей. Главное — не упустить агентов из-под контроля.
Если вы обычный пользователь — вы этого скорее всего не заметите. Но через полгода чат-боты, доработанные такими системами, станут чуть менее тупыми.
Что будет дальше? Мой прогноз
К концу 2026 года мы увидим первую серьёзную аварию. Не взбунтовавшийся ИИ, а тихий баг в самооптимизации, который загонит модель в локальный максимум и сделает её бесполезной по конкретному типу задач. Командам придётся экстренно учиться ставить «предохранители» в RL-петли.
А ещё — агентские войны между китайскими компаниями перейдут на новый уровень. Не просто чья модель умнее, а чья модель быстрее и безопаснее эволюционирует в условиях неопределённости. Ставки растут. Игра началась.