Если вы следили за выходом Mistral Small 4, то знаете: это не просто очередная игрушка. Это 119 миллиардов параметров, из которых активно всего 20 миллиардов — и при этом она видит изображения, пишет код и рассуждает так, будто училась в MIT. Звучит как фокус? Нет, это Mixture of Experts в действии.
Но загвоздка: мало кто знает, как эту штуку запустить у себя на компе, не обладая кластером из H100. В этой статье я покажу, как развернуть Mistral Small 4 локально, обойтись без облаков и не выжечь бюджет на электричестве. Поехали.
Коротко о звере: почему 119B ≠ 119B
Mistral Small 4 — флагманский open-source релиз французской лаборатории. Цифры: 119B суммарных параметров, 128 экспертов, активны только 2 эксперта (около 20B на каждую генерацию). Моя коллега уже писала подробный разбор: Mistral Small 4: французский эксперт на диете. А если хотите метафору с котлетами — вот статья про 128 котлет.
Но суть не в размере. Суть в том, что модель:
- Мультимодальная — принимает изображения (фиксит схемы, анализирует графики).
- Умеет рассуждать — цепочки мыслей (CoT) встроены прямо в обучение.
- Генерирует код — Python, JS, Rust, Go — и объясняет, что написала.
- Открыта — веса на Hugging Face, лицензия Apache 2.0.
По бенчмаркам она догоняет GPT-4o mini на задачах логики и кода, а в мультимодальных тестах bails близко к Claude 3 Sonnet. Но есть нюанс: всё это работает только если вы правильно её развернёте. Об этом дальше.
Чем она лучше конкурентов (и где сливает)
Ближайшие конкуренты — Qwen2.5-VL (72B), DeepSeek-V2 (236B + MoE), Llama 3.1 70B. Сравним по трём параметрам.
| Модель | Размер | MoE? | Мультимода | Локальный запуск (24GB VRAM) |
|---|---|---|---|---|
| Mistral Small 4 | 119B/20B active | Да | Да | + с квантованием |
| Qwen2.5-VL 72B | 72B full | Нет | Да | - (72B не влезает) |
| DeepSeek-V2.5 | 236B/37B active | Да | Нет | - (нужно больше памяти) |
| Llama 3.1 70B | 70B full | Нет | Нет | - (70B без квантования не влезет) |
Итог: Mistral Small 4 — единственная из перечисленных, кто даёт мультимоду, реазинг и приемлемые требования к памяти благодаря MoE. Кстати, про архитектуру MoE я подробно писал вот здесь — если не знакомы, рекомендую глянуть.
Но есть и ложка дёгтя: модель требует много RAM для контекста. Заявлено до 128K токенов, но на практике при длинном контексте (больше 32K) скорость падает в разы. Если вам нужен сверхдлинный контекст — лучше посмотреть на гибридные роутеры.
Как запустить Mistral Small 4 локально (реальный гайд)
В теории всё красиво: скачал веса, запустил инференс. На практике — куча граблей. Сразу предупреждаю: не пытайтесь запустить полную версию без квантования на карте с 24 ГБ. Упадёте с OOM. Нужен 4-битный квант (Q4_K_M) либо аренда GPU с 48 ГБ+. Но я покажу, как обойтись без облаков.
1Выбираем квантованную версию
Лучший вариант — GGUF от сообщества (TheBloke). Идите на Hugging Face, ищите Mistral-Small-4-119B-GGUF. Скачивайте файл mistral-small-4-q4_k_m.gguf. Весит около 12 ГБ — вполне реально.
Если хотите запустить с поддержкой изображений, GGUF не подойдёт. Нужна оригинальная версия на PyTorch. Но для текста и кода GGUF — то, что доктор прописал.
2Устанавливаем llama.cpp
Самый надёжный способ инференса GGUF — llama.cpp. Клонируем, собираем, запускаем:
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j
# Запуск сервера с моделью
./server -m /path/to/mistral-small-4-q4_k_m.gguf -ngl 35 -c 8192Флаг -ngl 35 означает, что 35 слоёв модели отдаётся GPU. Если у вас 24 ГБ, можно попробовать 40 — но если не хватает, уменьшайте до 30. -c 8192 — длина контекста (можно увеличить до 16384, если хватает памяти).
Ошибка, которую я совершил: забыл поставить -ngl и думал, что модель тормозит. Нет, она просто считала на CPU. Если оставить -ngl 0, будете ждать минуту на один токен. Не повторяйте.
3Тестируем в чате
После запуска сервера, веб-интерфейс по умолчанию на http://localhost:8080. Открываете, выбираете модель и задаёте вопрос. Проверьте, как она справляется с кодом:
Напиши функцию на Python, которая принимает список чисел и возвращает новый список, содержащий только простые числа. Используй решето Эратосфена.Mistral Small 4 выдаст не только код, но и объяснение, почему решето эффективнее перебора. В этом её сила — она рассуждает вслух.
4Мультимодальный режим через transformers (опционально)
Если вам нужно анализировать изображения, GGUF не спасёт. Придётся ставить оригинальную версию на PyTorch. Минимальные требования: 48 ГБ VRAM (например, NVIDIA A6000 или два RTX 3090 в NVLink). Процесс:
pip install transformers accelerate torch torchvision sentencepiece
python -c "from transformers import AutoModelForCausalLM, AutoProcessor; \
model = AutoModelForCausalLM.from_pretrained('mistralai/Mistral-Small-4'); \
processor = AutoProcessor.from_pretrained('mistralai/Mistral-Small-4')"Если памяти не хватает, добавьте аргумент load_in_4bit=True — активирует 4-битное квантование через bitsandbytes. Это снизит потребление до ~30 ГБ, но немного уронит точность на мультимодальных задачах.
Совет: для работы с изображениями лучше арендовать GPU на час-два. Например, RunPod предлагает A100 80GB за ~2$ в час. Это дешевле, чем покупать карту за 15 000$.
Сравнение с другими локальными MoE-моделями
Если вы думаете, что Mistral Small 4 — единственный вариант, взгляните на Mellum2 от JetBrains (12B MoE). Это гораздо меньше — 12B против 119B, но зато он специализирован на коде и легко влезает в одну RTX 3060. Mistral Small 4 универсальнее, но требует ресурсов. Для задач типа code review внутри IDE Mellum2 может быть практичнее. Но если вам нужно объяснить нейросети, почему ваш код не работает, и чтобы она ещё и картинку дебага поняла — выбирайте Mistral.
Кому эта модель спасёт жизнь (а кому — нет)
Mistral Small 4 идеально подходит разработчикам, которые хотят локальный AI-ассистент без утечки данных. Например, вы пишете медицинское ПО и не можете отправить код в облако — модель можно запустить на сервере в офисе с одним A100. Также она хороша для исследовательских лабораторий, где нужно быстро прототипировать агентов с мультимодальным вводом.
Но если у вас обычный ноутбук с RTX 4060, даже с квантованием вы не сможете одновременно обрабатывать изображения и длинный контекст. Для таких случаев советую посмотреть подходы из статьи Два мозга лучше одного — роутер может отправлять сложные задачи на облачный API, а простые решать локальной мини-моделью.
Прогноз: что будет дальше
Mistral явно нацелились сделать open-source стандартом для enterprise. Думаю, к концу 2026 года мы увидим Mistral Large 4, который будет конкурировать с GPT-5, но при этом останется локальным. Уже сейчас Small 4 — лучшая открытая модель для тех, кому нужны и картиночки, и логика, и код. Если вам хватило смелости прочитать до сюда — дерзайте.
Не забудьте после тестов удалить образы и выключить аренду. А то знаю я вас — оставите A100 работать на сутки и получите счёт на 50$.