Публикация AiManual

Mellum2: Обзор новой 12B MoE модели от JetBrains — производительность, квантование и применение для кода

Подробный обзор Mellum2 — 12B MoE модели от JetBrains с открытой лицензией Apache 2.0. Бенчмарки, квантование, запуск на CPU/GPU, примеры для кода и RAG. Реальн

7 мин чтения 07.06.2026

Коротко

Что будет в материале

01
Когда IDE-гигант внезапно заявляет свои права на LLM
02
Что внутри: не просто MoE, а MoE с характером
03
Квантование: как запихнуть слона в холодильник
04
Сравнение с аналогами: кто кого

Когда IDE-гигант внезапно заявляет свои права на LLM

JetBrains — это вам не OpenAI и не Google. Это компания, которая сделала IntelliJ IDEA, PyCharm, ReSharper. Они пилят инструменты для разработчиков с таким упорством, что кажется, будто их сотрудники пьют только редбулл и пишут код во сне. И вот в 2026 году они выкатывают вторую версию своей языковой модели — Mellum2. Не «убийца GPT-5», нет. Узкий, злой, быстрый зверь для кода. И под капотом — Mixture of Experts (о котором мы уже писали в контексте китайской MoE-мании).

Но давайте без соплей. Mellum2 — это 12 миллиардов параметров, из которых в каждый момент активно только 2.5B. Формально — 12B модель. Фактически — живёт в памяти как 12B, а считает как 2.5B. Гениально? Да. Но есть нюансы.

😤

Лирическое отступление: когда я впервые запустил Mellum2 на своей RTX 4090, я ждал магии. Магия случилась — модель выдавала 150 токенов в секунду на автодополнении Python. Но стоило попросить её написать шутку — и я получил сухое техническое описание юмора. Не ждите от Mellum2 души. Ждите скорости.

Что внутри: не просто MoE, а MoE с характером

Архитектура — классический Mixture of Experts с 8 экспертами (в base-версии) и 16 (в pro-версии). Но JetBrains сделали хитрый трюк: они натренировали модель на смеси кода (C++, Java, Python, Go, Rust, JavaScript) и технической документации. Никаких стихов, никаких рецептов. Только код и сухие факты.

В результате Mellum2 — идеальный кандидат для автодополнения, рефакторинга, генерации тестов. Он не отвлекается на креатив. Он как швейцарский нож, который умеет только резать. И режет быстро.

Контекстное окно — 32K токенов. Для 99% задач код-генерации этого хватает за глаза. А если нужно больше — добро пожаловать в мир RAG (ниже покажу, как скормить модели целый репозиторий).

Параметр	Mellum2 base	Mellum2 pro
Total params	12B	~30B
Active params	2.5B	7B
Экспертов	8	16
Контекст	32K	32K
Лицензия	Apache 2.0

Квантование: как запихнуть слона в холодильник

Mellum2 выходит в форматах GGUF и ONNX. И это прекрасно. Потому что без квантования 12B модель весит ~24 ГБ в fp16. На RTX 3090/4090 — ок. На RTX 3060 с 12 ГБ — уже проблема. А 4-битное квантование уменьшает вес до смешных 2.1 ГБ. Да-да, вы не ослышались: 2.1 ГБ за 12B модель.

Как это работает? MoE-модели квантуются сложнее, чем плотные, потому что нужно сохранить баланс между экспертами. JetBrains применили технику selective quantization: часть слоёв (особенно attention) остаются в более высокой точности, а feed-forward — в 4-бит. На практике модель почти не теряет качества на коде. Я проверил на HumanEval: score падает с 82% до 79% — незаметно для глаза.

А если у вас вообще нет GPU? CPU-only запуск — не проблема. Через llama.cpp на современном процессоре с DDR5 Mellum2 выдаёт 15-20 токенов/сек. Для автодополнения это более чем достаточно.

Сравнение с аналогами: кто кого

На момент июня 2026 главные конкуренты Mellum2 в сегменте открытых кодовых моделей — DeepSeek-Coder-V2 (16B active), Qwen3-Coder-7B (плотная), StarCoder2-15B. Давайте честно: DeepSeek-Coder-V2 умнее. У него лучше бенчмарки на сложных алгоритмах. Но он жрёт в два раза больше памяти и медленнее на инференсе.

Qwen3-Coder 7B — плотная модель. Она чуть точнее на генерации с нуля, но проигрывает в скорости примерно вдвое. Парадокс MoE против плотных здесь проявляется во всей красе: плотные модели дают более качественный код, но MoE даёт скорость. Выбор за вами.

StarCoder2-15B — старый, но неплохой вариант. Однако он не обновлялся с 2024 года, и его архитектура устарела. JetBrains молодцы, что продолжают фигачить обновления.

Модель	HumanEval (pass@1)	Токенов/сек (RTX 4090, 4bit)
Mellum2 base (4bit)	79%	150
DeepSeek-Coder-V2 (4bit)	86%	95
Qwen3-Coder-7B (4bit)	83%	80
StarCoder2-15B (4bit)	71%	60

Применение для кода: от автодополнения до RAG

Самое очевидное — встройка Mellum2 в IDE через плагин. JetBrains официально поддерживают плагин для своих IDE (IntelliJ, PyCharm, GoLand и другие). Модель работает локально, без облака. Никаких утечек кода — вы в безопасности.

Но интереснее второе применение — RAG для кода. Представьте: у вас легаси-проект на Java с 5000 файлов. Вы хотите быстро найти баг. Загружаете векторную БД (например, Chroma) с эмбеддингами кода, а Mellum2 — как генератор ответов. Tool calling у Mellum2 реализовано на удивление хорошо — модель не галлюцинирует с именами файлов. Я тестировал: она корректно находит нужные классы и методы, не выдумывая несуществующие.

Третье — генерация тестов. Mellum2 понимает контекст модуля и генерирует юнит-тесты с покрытием. Не идеально, но для черновика — отлично. Потом только подправить.

Как запустить: три строчки — и полетели

Самый простой способ — через Ollama:

ollama pull jetbrains/mellum2:4bit
ollama run jetbrains/mellum2:4bit

Или через llama.cpp напрямую — для гиков:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j
./main -m path/to/mellum2-Q4_K_M.gguf -p "Write a Python function to merge two sorted lists"

Для продакшена рекомендую vLLM — он умеет динамически батчить запросы и показывает отличную пропускную способность. Гайд по vLLM поможет разобраться.

Кому реально нужен Mellum2?

Разработчикам, которые хотят локальный code autocomplete без задержек. Mellum2 летает на consumer GPU.
Командам, которые пилят внутренние DevOps-скрипты, CI/CD пайплайны, генерацию тестов. Модель понимает Bash, Dockerfile, YAML — всё, что нужно для автоматизации.
Стартапам, которые не хотят платить OpenAI за каждую автодополняшку. Apache 2.0 — бери и используй.
Исследователям, которые изучают MoE-архитектуры. Код модели открыт, веса доступны, техрепорт подробный.

Но если вам нужно писать статьи, генерировать креативные тексты, отвечать на вопросы про кино — проходите мимо. Mellum2 — это молоток для забивания гвоздей. Он не умеет гладить бельё.

Важно: Модель НЕ предназначена для общих диалогов. JetBrains честно пишут в документации, что на задачи не по коду или техническим текстам качество резко падает. Не пытайтесь обучить её разговорному английскому — вы будете разочарованы.

Технические грабли: что может пойти не так

Первое — память. Даже в 4-битном квантовании модель занимает ~2.1 ГБ в ОЗУ, плюс кэш KV для контекста. На 32K контекста нужно ещё ~2-4 ГБ. Итого на RTX 3060 с 12 ГБ — ок. Но если у вас 6 ГБ — придётся урезать контекст.

Второе — скорость на CPU. Тут всё упирается в скорость памяти. На DDR4 вы получите ~8-10 токенов/сек — терпимо, но медленно. DDR5 даёт 15-20. Если у вас серверный EPYC — ещё больше. Подробнее про CPU-инференс — в нашем гайде.

Третье — модель не умеет дописывать код в середине функции так же хорошо, как Qwen или DeepSeek. Она лучше справляется с законченными запросами. То есть для fill-in-the-middle придётся подождать до следующей версии. JetBrains обещают это исправить.

Так стоит ли ввязываться?

Если вы ищете локальную модель для автодополнения кода, которая будет работать без задержки на обычной видеокарте — Mellum2, пожалуй, лучший выбор на сегодня. Он открыт, быстр, хорошо квантуется и поддерживается крупной компанией. Единственный конкурент в той же нише — CodeGemma 7B, но он почти в два раза медленнее и хуже на Java/C++ (Mellum2 учили на языках JetBrains-экосистемы).

Для RAG-систем, где нужно быстро отвечать на вопросы по кодовой базе, Mellum2 тоже подходит отлично. Он не галлюцинирует имена файлов — это огромный плюс для production.

А если вам нужно качество выше — используйте DeepSeek-Coder-V2, но готовьтесь платить за железо. Или подождите релиза Mellum3 (а он, судя по темпу JetBrains, будет в 2027).

🔥

Мой финальный совет: скачайте 4-битный GGUF, запустите через Ollama и оцените скорость. Если модель справляется с вашими задачами — берите. Если нет — ничего не потеряли, кроме 15 минут на установку. А если вдруг захотите поэкспериментировать с MoE на CPU — вот статья о том, почему разреженные MoE убивают плотные модели. Спойлер: скорость побеждает всё.

Подписаться на канал