Mistral Small 4: обзор open-source MoE модели 119B с reasoning и мультимодальностью | AiManual
AiManual Logo Ai / Manual.
26 Апр 2026 Инструмент

Mistral Small 4: французский эксперт на диете — 119B параметров, но активны только 20B

Разбираем Mistral Small 4: архитектура MoE с 128 экспертами, reasoning mode, мультимодальность. Сравнение с DeepSeek-V3, HyperNova-60B, Llama 4. Примеры кода и

Французы снова удивили. Mistral Small 4 — это не просто модель, а вызов всему рынку open-source LLM. 119 миллиардов параметров, из которых активны только 20. 128 экспертов в MoE-слое, но для каждого токена работают лишь двое. И всё это под лицензией Apache 2.0. Без цензуры, без скрытых ограничений, с полной мультимодальностью и режимом рассуждений.

В этой статье разберем, чем Small 4 отличается от конкурентов, как его запустить и кому он реально нужен. Если вы еще не читали наш обзор архитектуры — вот ссылка. Там подробно расписана философия 128 экспертов и топ-2 активации.

Ключевая фишка: Mistral Small 4 — первая открытая модель такого размера, которая объединяет reasoning (цепочку мыслей с внутренними токенами) и мультимодальность (текст, изображения, таблицы, код) в одном весе. Никаких отдельных версий — всё в одной чекпоинте.

Что под капотом: MoE без компромиссов

Архитектура — не классический плотный трансформер, а Mixture of Experts с 128 экспертами. В каждый момент времени для обработки токена активируются только 2 эксперта. Остальные 126 молчат — экономят память и флопсы. Итог: на инференсе модель ведет себя как плотная 20B, хотя владеет знаниями 119B.

Это не первая MoE-модель, но среди open-source аналогов Small 4 выделяется тремя вещами:

  1. Качество экспертов. Каждый эксперт — не маленький MLP, а полноценная нейросеть с 61 слоем. Благодаря этому даже два активных эксперта дают глубину, сопоставимую с плотной моделью в 70B.
  2. Сбалансированная загрузка. Маршрутизатор использует auxiliary loss и не позволяет двум-трем экспертам "захватить" все токены. Это то, о чем мы писали в руководстве по MoE — без балансировки модель деградирует.
  3. Новое позиционное кодирование. Mistral заменили RoPE на собственную схему, которая не сходит с ума на контексте в 256k токенов. Никаких потерь внимания на длинных дистанциях.

HyperNova-60B шла по похожему пути, но уступает Small 4 по мультимодальности и качеству reasoning. HyperNova — чисто текстовая модель без зрения. Mistral Small 4 видит картинки.

Reasoning mode: как модель думает вслух

В 2025 году reasoning-модели (o1, o3, Claude 4.5 Opus) стали стандартом. Mistral Small 4 включает так называемый "режим рассуждений" (reasoning mode). В этом режиме перед ответом модель генерирует внутреннюю цепочку мыслей, заключенную в специальные теги <think>...</think>. Пользователь может видеть ход рассуждений (или скрыть — опционально).

Мы уже разбирали Society of Thought — там совет экспертов внутри модели. У Mistral Small 4 похожий механизм: маршрутизатор отправляет reasoning-токены на экспертов, специализирующихся на логике. Это повышает качество на задачах MATH, GSM8K, HumanEval.

💡
Простой промпт для теста: "Реши уравнение x^2 - 5x + 6 = 0. Покажи все шаги." Без reasoning модель может выдать только ответ. С reasoning — полное итеративное решение.

При этом Small 4 не требует специального форматирования для включения reasoning. Можно просто попросить "думать пошагово" — модель сама переключится. В итогах 2025 года мы отмечали, что такой гибридный подход станет мейнстримом. Mistral Small 4 — подтверждение тренда.

Мультимодальность: видит, но не всегда понимает

В отличие от многих open-source моделей, Small 4 может обрабатывать изображения. Модель обучена на парах "картинка-текст" и способна описывать фото, таблицы, диаграммы, рукописные заметки. Мы провели отдельное тестирование мультимодальности — результаты неоднозначные.

Плюсы:

  • Хорошо извлекает текст из картинок (OCR) — почти на уровне Qwen-VL 2.5.
  • Справляется с таблицами и графиками (понимает структуру, оси координат).
  • Поддерживает несколько изображений в одном промпте.

Минусы:

  • Плохо с абстрактными концепциями ("напиши, какое настроение у этого пейзажа").
  • Не может рисовать или генерировать картинки — только анализировать.
  • При большом количестве объектов на изображении начинает галлюцинировать.

Тем не менее для задач документооборота, анализа графиков и OCR — более чем достаточно. А учитывая лицензию Apache 2.0, можно дообучать под специфические визуальные домены. Готовые промпты для тестирования зрения помогут быстро оценить качество.

Сравнение с альтернативами (апрель 2026)

Модель Параметры (активные) MoE Мультимодальность Reasoning Лицензия
Mistral Small 4 119B (20B) 128 экспертов Да (текст+изображения) Встроенный Apache 2.0
DeepSeek-V3 671B (37B) 256 экспертов Только текст Отдельная версия MIT (ограничена)
HyperNova-60B 60B (36B) Нет (плотная) Только текст Дообучение Apache 2.0
Qwen2.5-MoE 72B (16B) 16 экспертов Да (VL версия) Нет Apache 2.0

Как видно, прямой конкурент с похожими характеристиками (open-source, MoE, мультимодальность, reasoning) — по сути, только Mistral Small 4. DeepSeek-V3 больше и мощнее, но не опенсорсный полностью (ограничения по коммерции). HyperNova-60B — плотная модель, хороша для кода, но не мультимодальна. Qwen2.5-MoE — только текст в базе, мультимодальность отдельно.

Важный нюанс: Small 4 требует минимум 40 ГБ VRAM для инференса в FP16. С квантизацией AWQ/GPTQ можно уложиться в 24 ГБ. Для локального запуска на одной карте (например, RTX 4090) понадобится 4-bit квантование. Скачать веса можно на Hugging Face.

Примеры использования: от кода до агентов

Уникальная особенность Mistral Small 4 — способность одновременно выполнять reasoning, читать изображения и генерировать код. Это делает ее идеальной для агентных систем.

1 Анализ финансового графика и написание отчета

Загружаем скриншот графика акций, просим описать тренды и написать SQL-запрос для анализа аналогичных данных. Модель видит график, понимает контекст и генерирует код. Пример промпта: "На основе этого графического файла определи, была ли 'смерть креста' за последние 30 торговых сессий. Если да, напиши SQL для выделения таких паттернов за 2025 год." Small 4 справляется без дополнительных инструментов.

2 Автоматизация обработки накладных

Подаем на вход фотографию накладной. Модель извлекает текст (OCR), суммирует позиции, проверяет суммы, форматирует результат в JSON. Режим reasoning помогает верифицировать арифметику. Это реально снижает затраты на RPA-ботов.

3 Reasoning-агент для отладки кода

Скопировали стек ошибки и скриншот интерфейса — модель объясняет причину бага и предлагает исправление. Подобные сценарии мы описывали в тест-драйве MiniMax M2.5. Mistral Small 4 работает аналогично, но с открытыми весами.

Как запустить: быстрый старт

Для инференса можно использовать Hugging Face Transformers (версия >=4.50) или vLLM (версия >=0.8). Пример загрузки через Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "mistralai/Mistral-Small-4-119B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",
    torch_dtype="auto"
)

prompt = "<think>Answer the following question step by step.</think> What is 15% of 200?"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0]))

Для мультимодального ввода потребуется библиотека mistral-common (отдельный пакет от Mistral AI). Подробнее смотрите в документации к модели.

💡
Совет: используйте bfloat16 вместо float16 — модель обучалась в BF16, и точность выше. Если не хватает памяти, включите CPU offloading через device_map="sequential" или квантизацию через BitsAndBytes.

Кому это вообще нужно?

Mistral Small 4 — не для всех. Если вам нужна модель для простого чата — проще использовать GPT-4o через API. Но если вы:

  • строите агентные системы с мультимодальным входом;
  • хотите локально хостить модель с reasoning и без цензуры;
  • планируете дообучать модель под специфические визуальные задачи;
  • исследуете MoE-архитектуры и хотите экспериментировать;

...то Small 4 — пожалуй, лучший выбор на начало 2026 года. DeepSeek-V3 закрыт по коммерции, HyperNova-60B не видит картинки, Qwen2.5-MoE не имеет встроенного reasoning.

Один неочевидный совет: не гонитесь за полной разверткой на одной видеокарте. Вместо этого арендуйте A100 или H100 на несколько часов для тестов. Modal.com позволяет запустить модель на 4xA100 за $5-10 в час. Это дешевле, чем покупать железо.

Прогноз: к концу 2026 года мы увидим еще больше открытых MoE-моделей от других игроков. Но Mistral Small 4 задает планку — сочетание размера, открытости и функциональности пока никто не переплюнул. Если французы выпустят Large версию с 400B+ параметров, рынок вздрогнет.

Подписаться на канал