Mellum2: 12B MoE модель JetBrains с 2.5B активными параметрами | AiManual
AiManual Logo Ai / Manual.
28 Июн 2026 Инструмент

Mellum2: обзор 12B Mixture-of-Experts модели JetBrains с активными 2.5B параметрами

Обзор Mellum2 — быстрой MoE-модели от JetBrains: 12B параметров с 2.5B активными, Apache 2.0, low-latency, бенчмарки, квантование, примеры использования для RAG

Реклама
partv2

JetBrains сделали то, чего от них ждали меньше всего — выпустили языковую модель. Не просто модель, а Mellum2 — 12B MoE с активными 2.5B. Это не очередной хайп ради хайпа: под капотом Apache 2.0, фокус на латентность и генерацию кода, а бенчмарки хвастаются конкуренцией с моделями вроде CodeGemma и DeepSeek-Coder. Давайте разберем, что это за зверь, кому он нужен и почему JetBrains вообще полезли в LLM.

Внимание: дата релиза — апрель 2026. К концу июня уже вышли несколько патчей, модель обкатали на реал-ворлд сценариях. Всё, что пишу — актуально на 28.06.2026.

Что за Mellum2? Архитектура цифрами

MoE (Mixture of Experts) — это когда у тебя 12 миллиардов параметров лежат мертвым грузом, но на каждый запрос просыпается только 2.5 миллиарда. Остальные ждут своего часа. Звучит расточительно? Еще как. Но работает быстрее.

Mellum2 собрана на 8 экспертах, из которых 2 активных на токен. Размерность скрытого слоя — 4096, количество голов внимания — 32, позиционные кодеры — RoPE. Обучали на 4.7 триллиона токенов, где примерно 60% — код (Python, Java, C++, Go), 20% — английский технический текст, 10% — китайский, 10% — прочее.

Параметр Значение
Total параметров 12B
Active параметров 2.5B
Количество экспертов 8
Активных экспертов на токен 2
Hidden size 4096
Context length 8192 токенов
Дата обучения Апрель 2026

Бенчмарки: не смотреть, а бежать

JetBrains приводят цифры в техническом отчете (кстати, вот мы уже писали про него). HumanEval+ — 78.3%, MBPP — 82.1%, GSM8K — 91.4%, MMLU — 74.6%. Не рекорды, но для 2.5B активных — очень достойно. В сравнении с CodeGemma 7B (не MoE) Mellum2 быстрее в 2.3 раза на одинаковом железе. А DeepSeek-Coder 6.7B обгоняет по точности на коде на 1.5-2%.

Но есть нюанс: бенчмарки — это бенчмарки. На реальных задачах в IDE JetBrains модель показала себя очень хорошо, но если гнать сложный многофайловый рефакторинг — может словить галлюцинации. Не критично, но имейте в виду.

Сравнение с другими MoE-моделями: мы недавно смотрели 20-30B MoE для tool calling. Mellum2 по tool calling чуть уступает специализированным моделям, но зато дешевле и шустрее. Хороший компромисс.

Low-latency: как JetBrains добились 20 мс на токен

Секрет — в комбинации MoE и нативного квантования с помощью FP8. JetBrains обучили модель сразу в смешанной точности: частично FP16, частично FP8. Это позволило запихать 12B в 8.2 ГБ VRAM (с квантованием до 4 бит — в 4.1 ГБ). На RTX 4090 получается около 20 мс на токен. На M4 Ultra — 18 мс. На CPU с llama.cpp — 55 мс, что тоже неплохо для офлайн-сценариев.

# Пример запуска через Ollama (модель уже в библиотеке)
ollama run mellum2
# Инференс через transformers
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("JetBrains/Mellum2-12B", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("JetBrains/Mellum2-12B")
inputs = tokenizer("Напиши функцию быстрой сортировки на Python", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0]))

Зачем это нужно: RAG, под-агенты, routing

Mellum2 — не универсальная модель для чата. Ее фишка — низкая задержка при генерации кода. Это идеальный кандидат для сервисов, где каждый миллисекунду вырезают из бюджета:

  • Routing: Быстро определить, к какому эксперту отправить запрос (шутка — это MoE, но можно использовать как рутер между разными LLM).
  • RAG-системы: Mellum2 отлично работает как генератор ответов на основе поиска, особенно если база знаний — техническая документация и код. Сравнение эмбеддингов для RAG мы тоже затрагивали, там много нюансов.
  • Под-агенты: Один из агентов в пайплайне — Mellum2. Быстро, дешево, код пишет чисто.

В первом обзоре Mellum2 мы уже показывали, как встроить его в CI/CD для авто-фиксов багов. За полгода ничего не изменилось — модель только обрастает комьюнити-доработками.

Альтернативы: кто рядом

Помимо Mellum2 на рынке есть EMO с эмерджентной модульностью — у нее всего 12.5% активных экспертов, но архитектура сложнее. Poolside Laguna XS.2 (33B MoE) мощнее, но тяжелее. Китайские MoE, про которые мы писали в обзоре MoE-мании, часто грешат неоптимальным routing. Mellum2 же — золотая середина: простая архитектура, понятный код, быстрый запуск.

Модель Active params HumanEval+ Задержка (RTX 4090)
Mellum2 2.5B 78.3% ~20 мс/токен
CodeGemma 7B 7B (dense) 74.1% ~45 мс/токен
DeepSeek-Coder 6.7B 6.7B (dense) 76.5% ~42 мс/токен
Poolside Laguna XS.2 ~8B (active) 82.0% ~35 мс/токен

Кому реально стоит взять Mellum2

Не ждите, что модель заменит GPT-5 или Claude 4 на сложных рассуждениях. Mellum2 — это рабочая лошадка для инференса в продакшене, где дорога каждая микросекунда. Бюджетные проекты, стартапы, интегрированные среды разработки — вот ее стихия. Если вам нужно генерировать код низкой задержкой, не заморачиваясь с кастомными архитектурами — берите.

Лично я попробовал ее в оригинальном весе на HuggingFace и в квантованном виде. Разница в скорости — в 2.5 раза, точность падает на 1-2%, что для большинства кейсов некритично. Еще один плюс — модель не требует тонны VRAM, что позволяет запускать её даже на MacBook M4.

Недостатки: куда без них

  • Контекст 8192 — мало для анализа больших проектов. Ждем Mellum3?
  • Китайский язык в датасете — не для всех.
  • Отсутствие официального чат-интерфейса (только API и консоль).
  • Иногда routing между экспертами ошибается и на некод-запросы отвечает кодом.

Но даже с этим Mellum2 — один из самых удачных релизов 2026 года. JetBrains показали, что можно сделать маленькую, быструю и полезную модель, не пытаясь объять необъятное. Если вам интересна тема MoE и быстрых моделей — посмотрите наше руководство по внедрению MoE в трансформеры.

Подписаться на канал