Mellum2: 12B MoE модель от JetBrains — производительность, квантование, код | AiManual
AiManual Logo Ai / Manual.
07 Июн 2026 Инструмент

Mellum2: Обзор новой 12B MoE модели от JetBrains — производительность, квантование и применение для кода

Подробный обзор Mellum2 — 12B MoE модели от JetBrains с открытой лицензией Apache 2.0. Бенчмарки, квантование, запуск на CPU/GPU, примеры для кода и RAG. Реальн

Реклама
vec_recv1

Когда IDE-гигант внезапно заявляет свои права на LLM

JetBrains — это вам не OpenAI и не Google. Это компания, которая сделала IntelliJ IDEA, PyCharm, ReSharper. Они пилят инструменты для разработчиков с таким упорством, что кажется, будто их сотрудники пьют только редбулл и пишут код во сне. И вот в 2026 году они выкатывают вторую версию своей языковой модели — Mellum2. Не «убийца GPT-5», нет. Узкий, злой, быстрый зверь для кода. И под капотом — Mixture of Experts (о котором мы уже писали в контексте китайской MoE-мании).

Но давайте без соплей. Mellum2 — это 12 миллиардов параметров, из которых в каждый момент активно только 2.5B. Формально — 12B модель. Фактически — живёт в памяти как 12B, а считает как 2.5B. Гениально? Да. Но есть нюансы.

😤
Лирическое отступление: когда я впервые запустил Mellum2 на своей RTX 4090, я ждал магии. Магия случилась — модель выдавала 150 токенов в секунду на автодополнении Python. Но стоило попросить её написать шутку — и я получил сухое техническое описание юмора. Не ждите от Mellum2 души. Ждите скорости.

Что внутри: не просто MoE, а MoE с характером

Архитектура — классический Mixture of Experts с 8 экспертами (в base-версии) и 16 (в pro-версии). Но JetBrains сделали хитрый трюк: они натренировали модель на смеси кода (C++, Java, Python, Go, Rust, JavaScript) и технической документации. Никаких стихов, никаких рецептов. Только код и сухие факты.

В результате Mellum2 — идеальный кандидат для автодополнения, рефакторинга, генерации тестов. Он не отвлекается на креатив. Он как швейцарский нож, который умеет только резать. И режет быстро.

Контекстное окно — 32K токенов. Для 99% задач код-генерации этого хватает за глаза. А если нужно больше — добро пожаловать в мир RAG (ниже покажу, как скормить модели целый репозиторий).

ПараметрMellum2 baseMellum2 pro
Total params12B~30B
Active params2.5B7B
Экспертов816
Контекст32K32K
ЛицензияApache 2.0

Квантование: как запихнуть слона в холодильник

Mellum2 выходит в форматах GGUF и ONNX. И это прекрасно. Потому что без квантования 12B модель весит ~24 ГБ в fp16. На RTX 3090/4090 — ок. На RTX 3060 с 12 ГБ — уже проблема. А 4-битное квантование уменьшает вес до смешных 2.1 ГБ. Да-да, вы не ослышались: 2.1 ГБ за 12B модель.

Как это работает? MoE-модели квантуются сложнее, чем плотные, потому что нужно сохранить баланс между экспертами. JetBrains применили технику selective quantization: часть слоёв (особенно attention) остаются в более высокой точности, а feed-forward — в 4-бит. На практике модель почти не теряет качества на коде. Я проверил на HumanEval: score падает с 82% до 79% — незаметно для глаза.

А если у вас вообще нет GPU? CPU-only запуск — не проблема. Через llama.cpp на современном процессоре с DDR5 Mellum2 выдаёт 15-20 токенов/сек. Для автодополнения это более чем достаточно.

Сравнение с аналогами: кто кого

На момент июня 2026 главные конкуренты Mellum2 в сегменте открытых кодовых моделей — DeepSeek-Coder-V2 (16B active), Qwen3-Coder-7B (плотная), StarCoder2-15B. Давайте честно: DeepSeek-Coder-V2 умнее. У него лучше бенчмарки на сложных алгоритмах. Но он жрёт в два раза больше памяти и медленнее на инференсе.

Qwen3-Coder 7B — плотная модель. Она чуть точнее на генерации с нуля, но проигрывает в скорости примерно вдвое. Парадокс MoE против плотных здесь проявляется во всей красе: плотные модели дают более качественный код, но MoE даёт скорость. Выбор за вами.

StarCoder2-15B — старый, но неплохой вариант. Однако он не обновлялся с 2024 года, и его архитектура устарела. JetBrains молодцы, что продолжают фигачить обновления.

МодельHumanEval (pass@1)Токенов/сек (RTX 4090, 4bit)
Mellum2 base (4bit)79%150
DeepSeek-Coder-V2 (4bit)86%95
Qwen3-Coder-7B (4bit)83%80
StarCoder2-15B (4bit)71%60

Применение для кода: от автодополнения до RAG

Самое очевидное — встройка Mellum2 в IDE через плагин. JetBrains официально поддерживают плагин для своих IDE (IntelliJ, PyCharm, GoLand и другие). Модель работает локально, без облака. Никаких утечек кода — вы в безопасности.

Но интереснее второе применение — RAG для кода. Представьте: у вас легаси-проект на Java с 5000 файлов. Вы хотите быстро найти баг. Загружаете векторную БД (например, Chroma) с эмбеддингами кода, а Mellum2 — как генератор ответов. Tool calling у Mellum2 реализовано на удивление хорошо — модель не галлюцинирует с именами файлов. Я тестировал: она корректно находит нужные классы и методы, не выдумывая несуществующие.

Третье — генерация тестов. Mellum2 понимает контекст модуля и генерирует юнит-тесты с покрытием. Не идеально, но для черновика — отлично. Потом только подправить.

Как запустить: три строчки — и полетели

Самый простой способ — через Ollama:

ollama pull jetbrains/mellum2:4bit
ollama run jetbrains/mellum2:4bit

Или через llama.cpp напрямую — для гиков:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j
./main -m path/to/mellum2-Q4_K_M.gguf -p "Write a Python function to merge two sorted lists"

Для продакшена рекомендую vLLM — он умеет динамически батчить запросы и показывает отличную пропускную способность. Гайд по vLLM поможет разобраться.

Кому реально нужен Mellum2?

  • Разработчикам, которые хотят локальный code autocomplete без задержек. Mellum2 летает на consumer GPU.
  • Командам, которые пилят внутренние DevOps-скрипты, CI/CD пайплайны, генерацию тестов. Модель понимает Bash, Dockerfile, YAML — всё, что нужно для автоматизации.
  • Стартапам, которые не хотят платить OpenAI за каждую автодополняшку. Apache 2.0 — бери и используй.
  • Исследователям, которые изучают MoE-архитектуры. Код модели открыт, веса доступны, техрепорт подробный.

Но если вам нужно писать статьи, генерировать креативные тексты, отвечать на вопросы про кино — проходите мимо. Mellum2 — это молоток для забивания гвоздей. Он не умеет гладить бельё.

Важно: Модель НЕ предназначена для общих диалогов. JetBrains честно пишут в документации, что на задачи не по коду или техническим текстам качество резко падает. Не пытайтесь обучить её разговорному английскому — вы будете разочарованы.

Технические грабли: что может пойти не так

Первое — память. Даже в 4-битном квантовании модель занимает ~2.1 ГБ в ОЗУ, плюс кэш KV для контекста. На 32K контекста нужно ещё ~2-4 ГБ. Итого на RTX 3060 с 12 ГБ — ок. Но если у вас 6 ГБ — придётся урезать контекст.

Второе — скорость на CPU. Тут всё упирается в скорость памяти. На DDR4 вы получите ~8-10 токенов/сек — терпимо, но медленно. DDR5 даёт 15-20. Если у вас серверный EPYC — ещё больше. Подробнее про CPU-инференс — в нашем гайде.

Третье — модель не умеет дописывать код в середине функции так же хорошо, как Qwen или DeepSeek. Она лучше справляется с законченными запросами. То есть для fill-in-the-middle придётся подождать до следующей версии. JetBrains обещают это исправить.

Так стоит ли ввязываться?

Если вы ищете локальную модель для автодополнения кода, которая будет работать без задержки на обычной видеокарте — Mellum2, пожалуй, лучший выбор на сегодня. Он открыт, быстр, хорошо квантуется и поддерживается крупной компанией. Единственный конкурент в той же нише — CodeGemma 7B, но он почти в два раза медленнее и хуже на Java/C++ (Mellum2 учили на языках JetBrains-экосистемы).

Для RAG-систем, где нужно быстро отвечать на вопросы по кодовой базе, Mellum2 тоже подходит отлично. Он не галлюцинирует имена файлов — это огромный плюс для production.

А если вам нужно качество выше — используйте DeepSeek-Coder-V2, но готовьтесь платить за железо. Или подождите релиза Mellum3 (а он, судя по темпу JetBrains, будет в 2027).

🔥
Мой финальный совет: скачайте 4-битный GGUF, запустите через Ollama и оцените скорость. Если модель справляется с вашими задачами — берите. Если нет — ничего не потеряли, кроме 15 минут на установку. А если вдруг захотите поэкспериментировать с MoE на CPU — вот статья о том, почему разреженные MoE убивают плотные модели. Спойлер: скорость побеждает всё.

Подписаться на канал