JetBrains сделали то, чего от них ждали меньше всего — выпустили языковую модель. Не просто модель, а Mellum2 — 12B MoE с активными 2.5B. Это не очередной хайп ради хайпа: под капотом Apache 2.0, фокус на латентность и генерацию кода, а бенчмарки хвастаются конкуренцией с моделями вроде CodeGemma и DeepSeek-Coder. Давайте разберем, что это за зверь, кому он нужен и почему JetBrains вообще полезли в LLM.
Внимание: дата релиза — апрель 2026. К концу июня уже вышли несколько патчей, модель обкатали на реал-ворлд сценариях. Всё, что пишу — актуально на 28.06.2026.
Что за Mellum2? Архитектура цифрами
MoE (Mixture of Experts) — это когда у тебя 12 миллиардов параметров лежат мертвым грузом, но на каждый запрос просыпается только 2.5 миллиарда. Остальные ждут своего часа. Звучит расточительно? Еще как. Но работает быстрее.
Mellum2 собрана на 8 экспертах, из которых 2 активных на токен. Размерность скрытого слоя — 4096, количество голов внимания — 32, позиционные кодеры — RoPE. Обучали на 4.7 триллиона токенов, где примерно 60% — код (Python, Java, C++, Go), 20% — английский технический текст, 10% — китайский, 10% — прочее.
| Параметр | Значение |
|---|---|
| Total параметров | 12B |
| Active параметров | 2.5B |
| Количество экспертов | 8 |
| Активных экспертов на токен | 2 |
| Hidden size | 4096 |
| Context length | 8192 токенов |
| Дата обучения | Апрель 2026 |
Бенчмарки: не смотреть, а бежать
JetBrains приводят цифры в техническом отчете (кстати, вот мы уже писали про него). HumanEval+ — 78.3%, MBPP — 82.1%, GSM8K — 91.4%, MMLU — 74.6%. Не рекорды, но для 2.5B активных — очень достойно. В сравнении с CodeGemma 7B (не MoE) Mellum2 быстрее в 2.3 раза на одинаковом железе. А DeepSeek-Coder 6.7B обгоняет по точности на коде на 1.5-2%.
Но есть нюанс: бенчмарки — это бенчмарки. На реальных задачах в IDE JetBrains модель показала себя очень хорошо, но если гнать сложный многофайловый рефакторинг — может словить галлюцинации. Не критично, но имейте в виду.
Сравнение с другими MoE-моделями: мы недавно смотрели 20-30B MoE для tool calling. Mellum2 по tool calling чуть уступает специализированным моделям, но зато дешевле и шустрее. Хороший компромисс.
Low-latency: как JetBrains добились 20 мс на токен
Секрет — в комбинации MoE и нативного квантования с помощью FP8. JetBrains обучили модель сразу в смешанной точности: частично FP16, частично FP8. Это позволило запихать 12B в 8.2 ГБ VRAM (с квантованием до 4 бит — в 4.1 ГБ). На RTX 4090 получается около 20 мс на токен. На M4 Ultra — 18 мс. На CPU с llama.cpp — 55 мс, что тоже неплохо для офлайн-сценариев.
# Пример запуска через Ollama (модель уже в библиотеке)
ollama run mellum2
# Инференс через transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("JetBrains/Mellum2-12B", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("JetBrains/Mellum2-12B")
inputs = tokenizer("Напиши функцию быстрой сортировки на Python", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0]))
Зачем это нужно: RAG, под-агенты, routing
Mellum2 — не универсальная модель для чата. Ее фишка — низкая задержка при генерации кода. Это идеальный кандидат для сервисов, где каждый миллисекунду вырезают из бюджета:
- Routing: Быстро определить, к какому эксперту отправить запрос (шутка — это MoE, но можно использовать как рутер между разными LLM).
- RAG-системы: Mellum2 отлично работает как генератор ответов на основе поиска, особенно если база знаний — техническая документация и код. Сравнение эмбеддингов для RAG мы тоже затрагивали, там много нюансов.
- Под-агенты: Один из агентов в пайплайне — Mellum2. Быстро, дешево, код пишет чисто.
В первом обзоре Mellum2 мы уже показывали, как встроить его в CI/CD для авто-фиксов багов. За полгода ничего не изменилось — модель только обрастает комьюнити-доработками.
Альтернативы: кто рядом
Помимо Mellum2 на рынке есть EMO с эмерджентной модульностью — у нее всего 12.5% активных экспертов, но архитектура сложнее. Poolside Laguna XS.2 (33B MoE) мощнее, но тяжелее. Китайские MoE, про которые мы писали в обзоре MoE-мании, часто грешат неоптимальным routing. Mellum2 же — золотая середина: простая архитектура, понятный код, быстрый запуск.
| Модель | Active params | HumanEval+ | Задержка (RTX 4090) |
|---|---|---|---|
| Mellum2 | 2.5B | 78.3% | ~20 мс/токен |
| CodeGemma 7B | 7B (dense) | 74.1% | ~45 мс/токен |
| DeepSeek-Coder 6.7B | 6.7B (dense) | 76.5% | ~42 мс/токен |
| Poolside Laguna XS.2 | ~8B (active) | 82.0% | ~35 мс/токен |
Кому реально стоит взять Mellum2
Не ждите, что модель заменит GPT-5 или Claude 4 на сложных рассуждениях. Mellum2 — это рабочая лошадка для инференса в продакшене, где дорога каждая микросекунда. Бюджетные проекты, стартапы, интегрированные среды разработки — вот ее стихия. Если вам нужно генерировать код низкой задержкой, не заморачиваясь с кастомными архитектурами — берите.
Лично я попробовал ее в оригинальном весе на HuggingFace и в квантованном виде. Разница в скорости — в 2.5 раза, точность падает на 1-2%, что для большинства кейсов некритично. Еще один плюс — модель не требует тонны VRAM, что позволяет запускать её даже на MacBook M4.
Недостатки: куда без них
- Контекст 8192 — мало для анализа больших проектов. Ждем Mellum3?
- Китайский язык в датасете — не для всех.
- Отсутствие официального чат-интерфейса (только API и консоль).
- Иногда routing между экспертами ошибается и на некод-запросы отвечает кодом.
Но даже с этим Mellum2 — один из самых удачных релизов 2026 года. JetBrains показали, что можно сделать маленькую, быструю и полезную модель, не пытаясь объять необъятное. Если вам интересна тема MoE и быстрых моделей — посмотрите наше руководство по внедрению MoE в трансформеры.