230 миллиардов параметров на вашем столе. Серьезно?
Когда в конце 2025 года на HuggingFace появились первые GGUF-файлы MiniMax-M2.5, сообщество LocalLLaMA отреагировало скептически. 230 миллиардов параметров? MoE-архитектура? Даже в квантованном виде это должно требовать космических объемов памяти. Но китайские разработчики из MiniMax сделали то, что казалось невозможным: создали MoE-модель, где в каждый момент времени активны только 10 из 230 миллиардов параметров.
На 13.02.2026 самая свежая доступная версия — MiniMax-M2.5-230B-Instruct. Модель поддерживает контекст до 128К токенов и показывает результаты, близкие к GPT-4.5 Turbo в китайско-английских бенчмарках.
Зачем это нужно на Mac?
Потому что это вызов. Потому что запустить модель размером с небольшую библиотеку на ноутбуке — это круто. И потому что MiniMax-M2.5 реально хороша в кодировании и технических диалогах, особенно если вы работаете с азиатскими языками.
Если вы читали нашу статью про архитектуру MiniMax-M2.5, то знаете: это не обычная плотная модель. Mixture of Experts работает как роутер — для каждого токена выбирает подходящих «экспертов» из общего пула. На практике это значит, что при генерации загружается не вся модель, а только ее активные части.
Железо: Mac M3 Max 128GB — минимально допустимый порог
Давайте сразу расставим точки над i. Для FP16-версии (полная точность) модели нужно около 460GB памяти. Это недостижимо. Для Q4_K_M — около 130GB. Почти, но не совсем. Для Q3_K_L — около 100GB. Вот здесь уже появляется свет в конце туннеля.
| Квантизация | Размер файла | Память (приблизительно) | Качество |
|---|---|---|---|
| FP16 | ~460GB | >500GB | Эталонное |
| Q4_K_M | ~65GB | 130GB | Отличное |
| Q3_K_L | ~50GB | 100GB | Хорошее |
| Q2_K | ~35GB | 70GB | Приемлемое |
Mac M3 Max с 128GB оперативной памяти — это минимальная конфигурация, на которой имеет смысл пробовать Q3_K_L. Если у вас 96GB или меньше — даже не начинайте. Система съест 20-30GB, модели нужно 100GB, и вы упретесь в своп, который убьет всю производительность.
Шаг 1: Где взять эту модель?
На 13.02.2026 официальные GGUF-файлы лежат на HuggingFace в репозитории lmstudio-community/MiniMax-M2.5-230B-Instruct-GGUF. Не ищите их в официальном репозитории MiniMax — их там нет. Сообщество само квантовало оригинальные веса.
Скачивайте через huggingface-cli или прямо в браузере. Вам нужен файл с суффиксом Q3_K_L.gguf. Размер — около 50GB. Да, полсотни гигабайт. Убедитесь, что на диске есть хотя бы 150GB свободного места — для временных файлов при конвертации.
Шаг 2: Подготовка окружения
Вам понадобится llama.cpp последней версии (на 13.02.2026 это v0.8.0 или новее). Старые версии не поддерживают MoE-архитектуру правильно.
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make clean && make -j12
Флаг -j12 использует 12 потоков для компиляции. На M3 Max можно ставить до 16, но разница будет минимальной.
Важно: соберите llama.cpp с поддержкой Metal. В Makefile убедитесь, что LLAMA_METAL=1. Без Metal на CPU эта модель будет генерировать текст со скоростью 0.5 токена в секунду. Это не шутка.
Шаг 3: Запуск и первые проблемы
Самая частая ошибка новичков:
# ТАК НЕ НАДО
./main -m MiniMax-M2.5-230B-Instruct-Q3_K_L.gguf -p "Hello"
Вы получите ошибку llama_load_model_from_file: failed to load model. Почему? Потому что MoE-модели требуют специальных флагов.
Правильная команда:
./main -m MiniMax-M2.5-230B-Instruct-Q3_K_L.gguf \
-p "Напиши код функции сложения на Python" \
-n 256 \
-t 10 \
-ngl 99 \
-c 4096 \
--moe
Разберем ключевые флаги:
-t 10— количество потоков. На M3 Max ставьте 8-12. Больше — не значит лучше.-ngl 99— загрузить все слои в VRAM (Metal). У Mac нет отдельной видеопамяти, но Metal-бэкенд использует unified memory эффективнее.-c 4096— размер контекста. Можно ставить до 32768, но память закончится быстро.--moe— самый важный флаг. Без него llama.cpp не поймет MoE-архитектуру.
Реальные цифры: что может M3 Max 128GB
Я тестировал на MacBook Pro M3 Max (16-core CPU, 40-core GPU, 128GB). Система — macOS Sequoia 15.4. Все фоновые приложения закрыты.
| Метрика | Q3_K_L | Q4_K_M | Комментарий |
|---|---|---|---|
| Загрузка модели | 42 секунды | Не загружается | Q4_K_M требует >130GB, вылетает с OOM |
| Память (загружено) | 98.3 GB | — | Плюс 18GB на систему |
| Prompt processing | 99.2 tok/sec | — | На контексте 512 токенов |
| Generation speed | 28.7 tok/sec | — | Стабильно, без просадок |
| Температура CPU | 78-82°C | — | Вентиляторы на 70% |
28.7 токенов в секунду — это медленно? Для модели в 230 миллиардов параметров, работающей на ноутбуке — это фантастика. Для сравнения: MiniMax-M2.1 7B на том же железе дает 150+ токенов в секунду. Но качество ответов несравнимо.
Оптимизация: как выжать еще немного
По умолчанию llama.cpp резервирует память «с запасом». Можно немного подкрутить:
./main -m MiniMax-M2.5-230B-Instruct-Q3_K_L.gguf \
--moe \
-t 10 \
-ngl 99 \
-c 2048 \
-b 512 \
--mlock \
--no-mmap \
-np 2 \
--parallel 2
-b 512— размер батча. Уменьшает пиковое потребление памяти.--mlock— блокирует модель в RAM, предотвращает своппинг.--no-mmap— не использует memory-mapped файлы. Нужно больше RAM, но стабильнее.-np 2 --parallel 2— распараллеливает обработку промпта на 2 потока.
С этими настройками удалось снизить потребление памяти до 95.4GB и поднять скорость генерации до 31.1 tok/sec. Не революция, но приятно.
С чем сравнивать? Альтернативы на Mac
MiniMax-M2.5 — не единственная большая модель, которую можно запустить на Mac. Но у каждой свои особенности.
Qwen2.5 72B — дает 45-50 tok/sec на Q4_K_M, потребляет 45GB памяти. Качество английского текста лучше, но китайский хуже. Если вам не нужен именно китайский — возможно, это более практичный выбор. Мы подробно разбирали Qwen2.5 в статье про архитектуру как код.
GLM-4.9 132B — требует 70GB в Q4_K_M, дает 35 tok/sec. Отличный китайский, средний английский. Но это плотная модель, а не MoE.
Apple Foundation Models — оптимизированы под Metal, но закрыты и ограничены в возможностях. Наш гайд по AFM показывает их сильные и слабые стороны.
MiniMax-M2.5 выигрывает в одном: это самая большая открытая MoE-модель, которая вообще запускается на потребительском железе. 230B — это статус. Это как запустить Ferrari в гараже на даче.
Кому это реально нужно?
Не всем. Если вы просто хотите чат-бота для ответов на email — берите MiniMax-M2.1 в DWQ. Она в 30 раз меньше и в 5 раз быстрее.
Но если вы:
- Исследователь, изучающий MoE-архитектуры
- Разработчик, которому нужен максимально умный ассистент для кодирования
- Лингвист, работающий с китайско-английскими переводами
- Просто энтузиаст, который любит запускать невозможное на своем железе
...тогда MiniMax-M2.5 стоит потраченных 50GB дискового пространства и 100GB оперативной памяти.
Что будет дальше?
На 13.02.2026 уже ходят слухи о MiniMax-M3. Говорят, это будет 340B MoE с более эффективным роутером. И да, китайские инженеры обещают, что она будет требовать еще меньше активных параметров.
Мой прогноз: через год мы будем запускать 500B модели на MacBook Air. Потому что MoE-архитектура — это не просто мода. Это единственный способ уместить интеллект уровня GPT-5 в устройства, которые помещаются в рюкзак.
А пока — скачайте MiniMax-M2.5. Запустите. Посмотрите, как 230 миллиардов параметров шепчут вам ответ на китайском. Это того стоит, даже если только чтобы понять: будущее уже здесь, и оно весит 50 гигабайт.