JetBrains сделали то, чего от них ждали меньше всего — выпустили языковую модель. Не просто модель, а Mellum2 — 12B MoE с активными 2.5B. Это не очередной хайп ради хайпа: под капотом Apache 2.0, фокус на латентность и генерацию кода, а бенчмарки хвастаются конкуренцией с моделями вроде CodeGemma и DeepSeek-Coder. Давайте разберем, что это за зверь, кому он нужен и почему JetBrains вообще полезли в LLM.

Внимание: дата релиза — апрель 2026. К концу июня уже вышли несколько патчей, модель обкатали на реал-ворлд сценариях. Всё, что пишу — актуально на 28.06.2026.

Что за Mellum2? Архитектура цифрами

MoE (Mixture of Experts) — это когда у тебя 12 миллиардов параметров лежат мертвым грузом, но на каждый запрос просыпается только 2.5 миллиарда. Остальные ждут своего часа. Звучит расточительно? Еще как. Но работает быстрее.

Mellum2 собрана на 8 экспертах, из которых 2 активных на токен. Размерность скрытого слоя — 4096, количество голов внимания — 32, позиционные кодеры — RoPE. Обучали на 4.7 триллиона токенов, где примерно 60% — код (Python, Java, C++, Go), 20% — английский технический текст, 10% — китайский, 10% — прочее.

Параметр	Значение
Total параметров	12B
Active параметров	2.5B
Количество экспертов	8
Активных экспертов на токен	2
Hidden size	4096
Context length	8192 токенов
Дата обучения	Апрель 2026

Бенчмарки: не смотреть, а бежать

JetBrains приводят цифры в техническом отчете (кстати, вот мы уже писали про него). HumanEval+ — 78.3%, MBPP — 82.1%, GSM8K — 91.4%, MMLU — 74.6%. Не рекорды, но для 2.5B активных — очень достойно. В сравнении с CodeGemma 7B (не MoE) Mellum2 быстрее в 2.3 раза на одинаковом железе. А DeepSeek-Coder 6.7B обгоняет по точности на коде на 1.5-2%.

Но есть нюанс: бенчмарки — это бенчмарки. На реальных задачах в IDE JetBrains модель показала себя очень хорошо, но если гнать сложный многофайловый рефакторинг — может словить галлюцинации. Не критично, но имейте в виду.

Сравнение с другими MoE-моделями: мы недавно смотрели 20-30B MoE для tool calling. Mellum2 по tool calling чуть уступает специализированным моделям, но зато дешевле и шустрее. Хороший компромисс.

Low-latency: как JetBrains добились 20 мс на токен

Секрет — в комбинации MoE и нативного квантования с помощью FP8. JetBrains обучили модель сразу в смешанной точности: частично FP16, частично FP8. Это позволило запихать 12B в 8.2 ГБ VRAM (с квантованием до 4 бит — в 4.1 ГБ). На RTX 4090 получается около 20 мс на токен. На M4 Ultra — 18 мс. На CPU с llama.cpp — 55 мс, что тоже неплохо для офлайн-сценариев.

# Пример запуска через Ollama (модель уже в библиотеке)
ollama run mellum2

# Инференс через transformers
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("JetBrains/Mellum2-12B", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("JetBrains/Mellum2-12B")
inputs = tokenizer("Напиши функцию быстрой сортировки на Python", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0]))

Зачем это нужно: RAG, под-агенты, routing

Mellum2 — не универсальная модель для чата. Ее фишка — низкая задержка при генерации кода. Это идеальный кандидат для сервисов, где каждый миллисекунду вырезают из бюджета:

Routing: Быстро определить, к какому эксперту отправить запрос (шутка — это MoE, но можно использовать как рутер между разными LLM).
RAG-системы: Mellum2 отлично работает как генератор ответов на основе поиска, особенно если база знаний — техническая документация и код. Сравнение эмбеддингов для RAG мы тоже затрагивали, там много нюансов.
Под-агенты: Один из агентов в пайплайне — Mellum2. Быстро, дешево, код пишет чисто.

В первом обзоре Mellum2 мы уже показывали, как встроить его в CI/CD для авто-фиксов багов. За полгода ничего не изменилось — модель только обрастает комьюнити-доработками.

Альтернативы: кто рядом

Помимо Mellum2 на рынке есть EMO с эмерджентной модульностью — у нее всего 12.5% активных экспертов, но архитектура сложнее. Poolside Laguna XS.2 (33B MoE) мощнее, но тяжелее. Китайские MoE, про которые мы писали в обзоре MoE-мании, часто грешат неоптимальным routing. Mellum2 же — золотая середина: простая архитектура, понятный код, быстрый запуск.

Модель	Active params	HumanEval+	Задержка (RTX 4090)
Mellum2	2.5B	78.3%	~20 мс/токен
CodeGemma 7B	7B (dense)	74.1%	~45 мс/токен
DeepSeek-Coder 6.7B	6.7B (dense)	76.5%	~42 мс/токен
Poolside Laguna XS.2	~8B (active)	82.0%	~35 мс/токен

Кому реально стоит взять Mellum2

Не ждите, что модель заменит GPT-5 или Claude 4 на сложных рассуждениях. Mellum2 — это рабочая лошадка для инференса в продакшене, где дорога каждая микросекунда. Бюджетные проекты, стартапы, интегрированные среды разработки — вот ее стихия. Если вам нужно генерировать код низкой задержкой, не заморачиваясь с кастомными архитектурами — берите.

Лично я попробовал ее в оригинальном весе на HuggingFace и в квантованном виде. Разница в скорости — в 2.5 раза, точность падает на 1-2%, что для большинства кейсов некритично. Еще один плюс — модель не требует тонны VRAM, что позволяет запускать её даже на MacBook M4.

Недостатки: куда без них

Контекст 8192 — мало для анализа больших проектов. Ждем Mellum3?
Китайский язык в датасете — не для всех.
Отсутствие официального чат-интерфейса (только API и консоль).
Иногда routing между экспертами ошибается и на некод-запросы отвечает кодом.

Но даже с этим Mellum2 — один из самых удачных релизов 2026 года. JetBrains показали, что можно сделать маленькую, быструю и полезную модель, не пытаясь объять необъятное. Если вам интересна тема MoE и быстрых моделей — посмотрите наше руководство по внедрению MoE в трансформеры.

Подписаться на канал

Mellum2: обзор 12B Mixture-of-Experts модели JetBrains с активными 2.5B параметрами