Если вы следили за выходом Mistral Small 4, то знаете: это не просто очередная игрушка. Это 119 миллиардов параметров, из которых активно всего 20 миллиардов — и при этом она видит изображения, пишет код и рассуждает так, будто училась в MIT. Звучит как фокус? Нет, это Mixture of Experts в действии.

Но загвоздка: мало кто знает, как эту штуку запустить у себя на компе, не обладая кластером из H100. В этой статье я покажу, как развернуть Mistral Small 4 локально, обойтись без облаков и не выжечь бюджет на электричестве. Поехали.

Коротко о звере: почему 119B ≠ 119B

Mistral Small 4 — флагманский open-source релиз французской лаборатории. Цифры: 119B суммарных параметров, 128 экспертов, активны только 2 эксперта (около 20B на каждую генерацию). Моя коллега уже писала подробный разбор: Mistral Small 4: французский эксперт на диете. А если хотите метафору с котлетами — вот статья про 128 котлет.

Но суть не в размере. Суть в том, что модель:

Мультимодальная — принимает изображения (фиксит схемы, анализирует графики).
Умеет рассуждать — цепочки мыслей (CoT) встроены прямо в обучение.
Генерирует код — Python, JS, Rust, Go — и объясняет, что написала.
Открыта — веса на Hugging Face, лицензия Apache 2.0.

По бенчмаркам она догоняет GPT-4o mini на задачах логики и кода, а в мультимодальных тестах bails близко к Claude 3 Sonnet. Но есть нюанс: всё это работает только если вы правильно её развернёте. Об этом дальше.

Чем она лучше конкурентов (и где сливает)

Ближайшие конкуренты — Qwen2.5-VL (72B), DeepSeek-V2 (236B + MoE), Llama 3.1 70B. Сравним по трём параметрам.

Модель	Размер	MoE?	Мультимода	Локальный запуск (24GB VRAM)
Mistral Small 4	119B/20B active	Да	Да	+ с квантованием
Qwen2.5-VL 72B	72B full	Нет	Да	- (72B не влезает)
DeepSeek-V2.5	236B/37B active	Да	Нет	- (нужно больше памяти)
Llama 3.1 70B	70B full	Нет	Нет	- (70B без квантования не влезет)

Итог: Mistral Small 4 — единственная из перечисленных, кто даёт мультимоду, реазинг и приемлемые требования к памяти благодаря MoE. Кстати, про архитектуру MoE я подробно писал вот здесь — если не знакомы, рекомендую глянуть.

Но есть и ложка дёгтя: модель требует много RAM для контекста. Заявлено до 128K токенов, но на практике при длинном контексте (больше 32K) скорость падает в разы. Если вам нужен сверхдлинный контекст — лучше посмотреть на гибридные роутеры.

Как запустить Mistral Small 4 локально (реальный гайд)

В теории всё красиво: скачал веса, запустил инференс. На практике — куча граблей. Сразу предупреждаю: не пытайтесь запустить полную версию без квантования на карте с 24 ГБ. Упадёте с OOM. Нужен 4-битный квант (Q4_K_M) либо аренда GPU с 48 ГБ+. Но я покажу, как обойтись без облаков.

1Выбираем квантованную версию

Лучший вариант — GGUF от сообщества (TheBloke). Идите на Hugging Face, ищите Mistral-Small-4-119B-GGUF. Скачивайте файл mistral-small-4-q4_k_m.gguf. Весит около 12 ГБ — вполне реально.

Если хотите запустить с поддержкой изображений, GGUF не подойдёт. Нужна оригинальная версия на PyTorch. Но для текста и кода GGUF — то, что доктор прописал.

2Устанавливаем llama.cpp

Самый надёжный способ инференса GGUF — llama.cpp. Клонируем, собираем, запускаем:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j

# Запуск сервера с моделью
./server -m /path/to/mistral-small-4-q4_k_m.gguf -ngl 35 -c 8192

Флаг -ngl 35 означает, что 35 слоёв модели отдаётся GPU. Если у вас 24 ГБ, можно попробовать 40 — но если не хватает, уменьшайте до 30. -c 8192 — длина контекста (можно увеличить до 16384, если хватает памяти).

Ошибка, которую я совершил: забыл поставить -ngl и думал, что модель тормозит. Нет, она просто считала на CPU. Если оставить -ngl 0, будете ждать минуту на один токен. Не повторяйте.

3Тестируем в чате

После запуска сервера, веб-интерфейс по умолчанию на http://localhost:8080. Открываете, выбираете модель и задаёте вопрос. Проверьте, как она справляется с кодом:

Напиши функцию на Python, которая принимает список чисел и возвращает новый список, содержащий только простые числа. Используй решето Эратосфена.

Mistral Small 4 выдаст не только код, но и объяснение, почему решето эффективнее перебора. В этом её сила — она рассуждает вслух.

4Мультимодальный режим через transformers (опционально)

Если вам нужно анализировать изображения, GGUF не спасёт. Придётся ставить оригинальную версию на PyTorch. Минимальные требования: 48 ГБ VRAM (например, NVIDIA A6000 или два RTX 3090 в NVLink). Процесс:

pip install transformers accelerate torch torchvision sentencepiece

python -c "from transformers import AutoModelForCausalLM, AutoProcessor; \
model = AutoModelForCausalLM.from_pretrained('mistralai/Mistral-Small-4'); \
processor = AutoProcessor.from_pretrained('mistralai/Mistral-Small-4')"

Если памяти не хватает, добавьте аргумент load_in_4bit=True — активирует 4-битное квантование через bitsandbytes. Это снизит потребление до ~30 ГБ, но немного уронит точность на мультимодальных задачах.

Совет: для работы с изображениями лучше арендовать GPU на час-два. Например, RunPod предлагает A100 80GB за ~2$ в час. Это дешевле, чем покупать карту за 15 000$.

Сравнение с другими локальными MoE-моделями

Если вы думаете, что Mistral Small 4 — единственный вариант, взгляните на Mellum2 от JetBrains (12B MoE). Это гораздо меньше — 12B против 119B, но зато он специализирован на коде и легко влезает в одну RTX 3060. Mistral Small 4 универсальнее, но требует ресурсов. Для задач типа code review внутри IDE Mellum2 может быть практичнее. Но если вам нужно объяснить нейросети, почему ваш код не работает, и чтобы она ещё и картинку дебага поняла — выбирайте Mistral.

Кому эта модель спасёт жизнь (а кому — нет)

Mistral Small 4 идеально подходит разработчикам, которые хотят локальный AI-ассистент без утечки данных. Например, вы пишете медицинское ПО и не можете отправить код в облако — модель можно запустить на сервере в офисе с одним A100. Также она хороша для исследовательских лабораторий, где нужно быстро прототипировать агентов с мультимодальным вводом.

Но если у вас обычный ноутбук с RTX 4060, даже с квантованием вы не сможете одновременно обрабатывать изображения и длинный контекст. Для таких случаев советую посмотреть подходы из статьи Два мозга лучше одного — роутер может отправлять сложные задачи на облачный API, а простые решать локальной мини-моделью.

Прогноз: что будет дальше

Mistral явно нацелились сделать open-source стандартом для enterprise. Думаю, к концу 2026 года мы увидим Mistral Large 4, который будет конкурировать с GPT-5, но при этом останется локальным. Уже сейчас Small 4 — лучшая открытая модель для тех, кому нужны и картиночки, и логика, и код. Если вам хватило смелости прочитать до сюда — дерзайте.

💡

Помните: даже с квантованием модель жрёт ~12-16 ГБ RAM и требует хороший GPU. Хотите попробовать без вложений? Арендуйте сервер на час: Vast.ai — дешёвый вариант с почасовой оплатой.

Не забудьте после тестов удалить образы и выключить аренду. А то знаю я вас — оставите A100 работать на сутки и получите счёт на 50$.

Подписаться на канал

Mistral Small 4: открытый MoE-зверь с рассуждением, картинками и кодом — как приручить локально