Когда 230 миллиардов параметров — это не хвастовство, а инструмент
Помните шумиху вокруг MiniMax-M2.1? Той самой 230-миллиардной модели, которая в январе 2026 года перевернула представление о том, что может локальный AI. Все обсуждали архитектуру MoE, рекорды в кодинге, эффективность. Но никто не спросил: а как они вообще дошли до такого?
Оказывается, секрет не в количестве параметров. Не в архитектуре. И даже не в данных (хотя и в них тоже). Секрет — в подходе, который западные компании давно забыли.
Интервью с исследователем из MiniMax — это не про PR. Это про конкретные решения, которые превращают теоретические модели в рабочие инструменты. И некоторые из них вас удивят.
"Мы не строим модели. Мы строим системы"
— Так начинает наш разговор Olive Song, ведущий исследователь MiniMax. — Западный подход: собрать датасет побольше, параметров побольше, запустить обучение. Китайский подход: сначала понять, где модель будет работать. А потом уже подбирать под это архитектуру.
Кажется очевидным? Тогда почему 90% стартапов делают наоборот?
MiniMax-M2.1 — не случайный успех. Это результат пяти лет экспериментов, где каждая неудача анализировалась не как провал, а как данные. "У нас есть база из 47 тысяч "провальных" конфигураций моделей," — говорит Olive. — "Мы знаем, что не работает. И это ценнее, чем знать, что работает."
Три правила, которые нарушают все
Правило первое: качество данных важнее количества. Западные лаборатории гордятся терабайтами текста. MiniMax гордится тем, что выкинула 60% своего исходного датасета.
— У нас была команда из 200 человек, которые восемь месяцев просто чистили данные. Не аннотировали. Не размечали. Чистили. Убирали дубликаты, мусор, низкокачественный контент. Вы думаете, это дорого? Дешевле, чем обучать модель на хламе.
Правило второе: архитектуру подбирают под задачу, а не наоборот. MoE в M2.1 выбрали не потому, что это модно. Потому что для смешанных задач (текст + код + рассуждения) плотная архитектура проигрывает в 3-4 раза по эффективности.
Правило третье: тестирование начинается до обучения. Не после.
— Мы строим "скелет" модели — 1-2% от финального размера. И тестируем его на 500+ разных задачах. Если показывает плохие результаты на 20% тестов — меняем архитектуру. Зачем ждать, пока обучим 230 миллиардов параметров?
Почему M2.1 реально работает там, где другие падают
Вспомните наш практический бенчмарк GLM-4.5-Air против MiniMax-M2.1. Разница не только в цифрах. Разница в стабильности.
— Западные модели оптимизируют под бенчмарки. Мы оптимизируем под реальные сценарии. Видели, как M2.1 справляется с длинными контекстами? 128К токенов — это не ради галочки. Это потому, что наши клиенты (банки, аналитические компании) работают с документами по 200+ страниц.
И вот здесь кроется главный секрет: MiniMax тестирует модели не на стандартных датасетах. Они покупают реальные задачи у реальных компаний.
— У нас есть контракт с юридической фирмой в Шанхае. Они дают нам реальные договоры (анонимизированные), и мы проверяем, насколько хорошо модель находит в них риски. Скучно? Зато работает.
Ошибка, которую повторяют все новички
— Самая большая глупость — пытаться обучить одну модель на всё. Универсальный AI — это миф. Хорошая модель решает конкретный набор задач отлично, а остальные — приемлемо.
M2.1 заточена под три вещи: программирование, анализ текста, логические рассуждения. Для генерации креативного контента есть другие модели. Для работы с изображениями — третьи.
И это объясняет, почему M2.1 бьёт гигантов с вдвое меньшим числом параметров. Не потому, что она умнее. Потому, что она специализированнее.
Хотите создать конкурентоспособную модель? Забудьте про "универсальность". Выберите 2-3 типа задач, которые действительно важны. И бейте в них всеми силами.
Как они обходят проблему с данными
Китайские AI-компании работают в уникальных условиях. С одной стороны — огромный рынок. С другой — ограниченный доступ к западным данным.
— Мы не можем просто взять и скопировать подход OpenAI. У нас другой язык, другая культура, другие регуляторные требования. И это наше преимущество.
MiniMax создала собственный pipeline генерации синтетических данных. Не просто аугментация. Полноценные диалоги, код, аналитические тексты — сгенерированные другими моделями и проверенные людьми.
— 40% наших данных для обучения M2.1 — синтетические. И качество их выше, чем у многих "натуральных" датасетов. Потому что мы контролируем каждый этап.
Практический совет: что украсть у MiniMax прямо сейчас
1. Начните с малого. Не пытайтесь сразу создать модель на миллиарды параметров. Возьмите архитектуру MiniCPM-o-4.5 — она доказала, что размер не главное.
2. Чистите данные до обучения. Выкиньте всё, в чём не уверены. Лучше меньше, но качественнее.
3. Тестируйте на реальных задачах. Не на MNIST, не на GLUE. Возьмите задачу из вашей работы и проверьте, справляется ли модель.
4. Специализируйтесь. Выберите одну область и станьте в ней лучшими. Как M2.1 в программировании.
Самое интересное: MiniMax уже работает над следующей моделью. И по словам Olive, она будет ещё более специализированной.
— Мы поняли, что будущее не за гигантскими универсальными моделями. Будущее за сетью небольших, но идеально заточенных инструментов. M2.1 — не конец. Это начало новой эры.
И если вы до сих пор пытаетесь создать "ещё одну GPT", вы опоздали на три года. Будущее уже здесь. И оно говорит по-китайски.