MJ1: 3B мультимодальный судья против Gemini-3-Pro | Анализ 2026

3 миллиарда против 300: как карлик побил гиганта

Март 2026 года запомнится скандалом в мире мультимодального AI. Неизвестная ранее модель MJ1, размером всего 3 миллиарда параметров, официально обошла Gemini-3-Pro в ключевом бенчмарке для судей. Multimodal RewardBench показал 89.2% против 86.1%. Разрыв в 3.1 пункта при разнице в размере в 100 раз.

Звучит как техническая ошибка или розыгрыш. Но нет. Команда разработчиков из Лаборатории Perceptual выложила статью, веса модели и… тишина. Кода для инференса нет. Веса лежат мертвым грузом. Весь хайп разбивается о практическую невозможность использовать этот прорыв здесь и сейчас.

💡

Что такое мультимодальный судья? Это специализированная модель, которая оценивает качество ответов других мультимодальных AI (текст + изображение). Например, определяет, какой из двух ответов Gemini или SenseNova-MARS более точный, безопасный и соответствует инструкции. Критически важно для RLHF и автоматической оценки моделей.

За счет чего победа? Архитектура и тренировка

MJ1 — не просто дообученный клон. Это RL-trained judge, с нуля обучавшийся методом обучения с подкреплением на парах «хороший/плохой» ответ. Активные параметры? Все те же 3B, но архитектура оптимизирована для одной задачи — сравнения и оценки. Никакого общего чата, кодогенерации или креативности.

Он жертвует шириной ради глубины в одной нише. И это работает. В то время как Gemini-3-Pro распыляется на тысячи сценариев, MJ1 фокусируется на одном. Парадокс современного AI: универсальность проигрывает специализации в конкретных бенчмарках.

Модель (на 18.03.2026)	Параметры	Multimodal RewardBench	Доступность
MJ1	3 млрд	89.2%	Веса есть, кода нет
Gemini-3-Pro	~300 млрд+	86.1%	API (платный)
LFM2.5 1.2B (для сравнения)	1.2 млрд	72.4%	Полностью открытая

Главная проблема: бумажный тигр

Вот где начинается фарс. Вы не можете запустить MJ1. Нет репозитория с кодом модели, инференс-скриптами или примерами. Есть файл с весами в формате .safetensors и сухая научная статья. Сообщество лихорадочно пытается прикрутить эти веса к похожей архитектуре — но это как собрать двигатель Ferrari, имея только фотографию.

Предупреждение для разработчиков: Не планируйте интеграцию MJ1 в свои пайплайны оценки в ближайшие месяцы. Без официального кода модель останется академической диковинкой. Пока что для практических задач надежнее использовать настроенные промпты для больших LLM-судей или другие открытые аналоги.

Почему не выложили код? Стандартные отговорки: «инфраструктурные зависимости», «очистка кода», «юридические проверки». На деле — либо спешка с публикацией, чтобы успеть до конкурентов, либо стратегия «сначала статья, потом все остальное». Пока они готовят код, актуальность MJ1 может сойти на нет. В мире, где Claude Sonnet 4.6 и Gemini 3.1 Pro соревнуются за контекст в миллион токенов, несколько месяцев — это вечность.

Что это значит для индустрии? Смена парадигмы

Результат MJ1 доказывает: эра слепой гонки за параметрами для узких задач заканчивается. Можно создать крошечную, сверхэффективную модель, которая бьет монстров в их же игре. Этот принцип мы уже видели в MiniMax M2.5 для рассуждений и теперь в мультимодальной оценке.

Экономика: Запуск 3B модели стоит копейки против вызова API Gemini-3-Pro. Для массовой оценки генерируемого контента — это революция в стоимости.
Конфиденциальность: Судью можно крутить локально на одной видеокарте. Никакой отправки данных в Google или OpenAI.
Специализация: Будущее за роем маленьких, экспертных моделей, а не за одним универсальным оракулом.

Но есть и обратная сторона. Специализированный судья вроде MJ1 бесполезен для других задач. Он не объяснит свое решение как Kimi k2.5, не сгенерирует код по скриншоту (в отличие от участников этого сравнения). Он — винтик в большой системе, а не универсальный солдат.

Что делать прямо сейчас? Практический совет

Не ждите, когда MJ1 станет доступным. Архитектура и принцип его работы — вот главная ценность релиза.

Изучите статью. Принципы RL-тренировки для судей теперь можно попробовать применить к другим небольшим открытым мультимодальным моделям.
Тестируйте альтернативы. Пока MJ1 в подвешенном состоянии, посмотрите на другие компактные VLMs, которые можно дообучить под ваши данные.
Давите на open-source. Сообщество должно требовать от авторов не только веса, но и рабочий код. Без этого исследование остается невоспроизводимым — а значит, его ценность падает в разы.

Прогноз на конец 2026: появятся десятки клонов и улучшенных версий MJ1 от open-source сообщества. Кто-то соберет работающий пайплайн и выложит его на GitHub. И тогда 3B судья станет стандартным инструментом в арсенале каждого, кто тренирует мультимодальные модели. А Gemini-3-Pro останется выбирать те, кому важен не только результат в одном бенчмарке, а полноценный, готовый к работе инструмент.

Итог: MJ1 — это brilliant proof-of-concept и одновременно frustrating tease. Он показывает будущее, но отказывается дать нам в него ключи. В таких условиях, самый разумный подход — учиться на идеях, а не ждать милости от авторов.

Подписаться на канал

MJ1: 3B мультимодальный судья, превосходящий Gemini-3-Pro — анализ прорыва и ограничений

3 миллиарда против 300: как карлик побил гиганта

За счет чего победа? Архитектура и тренировка

Главная проблема: бумажный тигр

Что это значит для индустрии? Смена парадигмы

Что делать прямо сейчас? Практический совет

Подписывайтесь на наш канал!