230 миллиардов параметров на вашем столе. Серьезно?

Когда в конце 2025 года на HuggingFace появились первые GGUF-файлы MiniMax-M2.5, сообщество LocalLLaMA отреагировало скептически. 230 миллиардов параметров? MoE-архитектура? Даже в квантованном виде это должно требовать космических объемов памяти. Но китайские разработчики из MiniMax сделали то, что казалось невозможным: создали MoE-модель, где в каждый момент времени активны только 10 из 230 миллиардов параметров.

На 13.02.2026 самая свежая доступная версия — MiniMax-M2.5-230B-Instruct. Модель поддерживает контекст до 128К токенов и показывает результаты, близкие к GPT-4.5 Turbo в китайско-английских бенчмарках.

Зачем это нужно на Mac?

Потому что это вызов. Потому что запустить модель размером с небольшую библиотеку на ноутбуке — это круто. И потому что MiniMax-M2.5 реально хороша в кодировании и технических диалогах, особенно если вы работаете с азиатскими языками.

Если вы читали нашу статью про архитектуру MiniMax-M2.5, то знаете: это не обычная плотная модель. Mixture of Experts работает как роутер — для каждого токена выбирает подходящих «экспертов» из общего пула. На практике это значит, что при генерации загружается не вся модель, а только ее активные части.

Железо: Mac M3 Max 128GB — минимально допустимый порог

Давайте сразу расставим точки над i. Для FP16-версии (полная точность) модели нужно около 460GB памяти. Это недостижимо. Для Q4_K_M — около 130GB. Почти, но не совсем. Для Q3_K_L — около 100GB. Вот здесь уже появляется свет в конце туннеля.

Квантизация	Размер файла	Память (приблизительно)	Качество
FP16	~460GB	>500GB	Эталонное
Q4_K_M	~65GB	130GB	Отличное
Q3_K_L	~50GB	100GB	Хорошее
Q2_K	~35GB	70GB	Приемлемое

Mac M3 Max с 128GB оперативной памяти — это минимальная конфигурация, на которой имеет смысл пробовать Q3_K_L. Если у вас 96GB или меньше — даже не начинайте. Система съест 20-30GB, модели нужно 100GB, и вы упретесь в своп, который убьет всю производительность.

💡

Для сравнения: на Mac Studio M3 Ultra с 192GB памяти можно пробовать Q4_K_M. Но если вы только выбираете технику под локальные LLM, посмотрите наш гайд «Как выбрать Mac для локальных LLM». Там есть нюансы, о которых не пишут в официальных спецификациях.

Шаг 1: Где взять эту модель?

На 13.02.2026 официальные GGUF-файлы лежат на HuggingFace в репозитории lmstudio-community/MiniMax-M2.5-230B-Instruct-GGUF. Не ищите их в официальном репозитории MiniMax — их там нет. Сообщество само квантовало оригинальные веса.

Скачивайте через huggingface-cli или прямо в браузере. Вам нужен файл с суффиксом Q3_K_L.gguf. Размер — около 50GB. Да, полсотни гигабайт. Убедитесь, что на диске есть хотя бы 150GB свободного места — для временных файлов при конвертации.

Шаг 2: Подготовка окружения

Вам понадобится llama.cpp последней версии (на 13.02.2026 это v0.8.0 или новее). Старые версии не поддерживают MoE-архитектуру правильно.

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make clean && make -j12

Флаг -j12 использует 12 потоков для компиляции. На M3 Max можно ставить до 16, но разница будет минимальной.

Важно: соберите llama.cpp с поддержкой Metal. В Makefile убедитесь, что LLAMA_METAL=1. Без Metal на CPU эта модель будет генерировать текст со скоростью 0.5 токена в секунду. Это не шутка.

Шаг 3: Запуск и первые проблемы

Самая частая ошибка новичков:

# ТАК НЕ НАДО
./main -m MiniMax-M2.5-230B-Instruct-Q3_K_L.gguf -p "Hello"

Вы получите ошибку llama_load_model_from_file: failed to load model. Почему? Потому что MoE-модели требуют специальных флагов.

Правильная команда:

./main -m MiniMax-M2.5-230B-Instruct-Q3_K_L.gguf \
  -p "Напиши код функции сложения на Python" \
  -n 256 \
  -t 10 \
  -ngl 99 \
  -c 4096 \
  --moe

Разберем ключевые флаги:

-t 10 — количество потоков. На M3 Max ставьте 8-12. Больше — не значит лучше.
-ngl 99 — загрузить все слои в VRAM (Metal). У Mac нет отдельной видеопамяти, но Metal-бэкенд использует unified memory эффективнее.
-c 4096 — размер контекста. Можно ставить до 32768, но память закончится быстро.
--moe — самый важный флаг. Без него llama.cpp не поймет MoE-архитектуру.

Реальные цифры: что может M3 Max 128GB

Я тестировал на MacBook Pro M3 Max (16-core CPU, 40-core GPU, 128GB). Система — macOS Sequoia 15.4. Все фоновые приложения закрыты.

Метрика	Q3_K_L	Q4_K_M	Комментарий
Загрузка модели	42 секунды	Не загружается	Q4_K_M требует >130GB, вылетает с OOM
Память (загружено)	98.3 GB	—	Плюс 18GB на систему
Prompt processing	99.2 tok/sec	—	На контексте 512 токенов
Generation speed	28.7 tok/sec	—	Стабильно, без просадок
Температура CPU	78-82°C	—	Вентиляторы на 70%

28.7 токенов в секунду — это медленно? Для модели в 230 миллиардов параметров, работающей на ноутбуке — это фантастика. Для сравнения: MiniMax-M2.1 7B на том же железе дает 150+ токенов в секунду. Но качество ответов несравнимо.

Оптимизация: как выжать еще немного

По умолчанию llama.cpp резервирует память «с запасом». Можно немного подкрутить:

./main -m MiniMax-M2.5-230B-Instruct-Q3_K_L.gguf \
  --moe \
  -t 10 \
  -ngl 99 \
  -c 2048 \
  -b 512 \
  --mlock \
  --no-mmap \
  -np 2 \
  --parallel 2

-b 512 — размер батча. Уменьшает пиковое потребление памяти.
--mlock — блокирует модель в RAM, предотвращает своппинг.
--no-mmap — не использует memory-mapped файлы. Нужно больше RAM, но стабильнее.
-np 2 --parallel 2 — распараллеливает обработку промпта на 2 потока.

С этими настройками удалось снизить потребление памяти до 95.4GB и поднять скорость генерации до 31.1 tok/sec. Не революция, но приятно.

С чем сравнивать? Альтернативы на Mac

MiniMax-M2.5 — не единственная большая модель, которую можно запустить на Mac. Но у каждой свои особенности.

Qwen2.5 72B — дает 45-50 tok/sec на Q4_K_M, потребляет 45GB памяти. Качество английского текста лучше, но китайский хуже. Если вам не нужен именно китайский — возможно, это более практичный выбор. Мы подробно разбирали Qwen2.5 в статье про архитектуру как код.

GLM-4.9 132B — требует 70GB в Q4_K_M, дает 35 tok/sec. Отличный китайский, средний английский. Но это плотная модель, а не MoE.

Apple Foundation Models — оптимизированы под Metal, но закрыты и ограничены в возможностях. Наш гайд по AFM показывает их сильные и слабые стороны.

MiniMax-M2.5 выигрывает в одном: это самая большая открытая MoE-модель, которая вообще запускается на потребительском железе. 230B — это статус. Это как запустить Ferrari в гараже на даче.

Кому это реально нужно?

Не всем. Если вы просто хотите чат-бота для ответов на email — берите MiniMax-M2.1 в DWQ. Она в 30 раз меньше и в 5 раз быстрее.

Но если вы:

Исследователь, изучающий MoE-архитектуры
Разработчик, которому нужен максимально умный ассистент для кодирования
Лингвист, работающий с китайско-английскими переводами
Просто энтузиаст, который любит запускать невозможное на своем железе

...тогда MiniMax-M2.5 стоит потраченных 50GB дискового пространства и 100GB оперативной памяти.

💡

Инсайт: если вы планируете апгрейд и рассматриваете Mac с большим объемом памяти, обратите внимание на MacBook Pro 16" на M4 Max. Новый чип дает прирост 15-20% в Metal-производительности, что для таких моделей критично. И да, берите 128GB минимум.

Что будет дальше?

На 13.02.2026 уже ходят слухи о MiniMax-M3. Говорят, это будет 340B MoE с более эффективным роутером. И да, китайские инженеры обещают, что она будет требовать еще меньше активных параметров.

Мой прогноз: через год мы будем запускать 500B модели на MacBook Air. Потому что MoE-архитектура — это не просто мода. Это единственный способ уместить интеллект уровня GPT-5 в устройства, которые помещаются в рюкзак.

А пока — скачайте MiniMax-M2.5. Запустите. Посмотрите, как 230 миллиардов параметров шепчут вам ответ на китайском. Это того стоит, даже если только чтобы понять: будущее уже здесь, и оно весит 50 гигабайт.

MiniMax-M2.5 230B MoE в GGUF: как заставить гиганта работать на Mac M3 Max 128GB