Когда 172 миллиарда параметров помещаются в 24 ГБ VRAM

В январе 2026 года произошло то, что многие считали невозможным. Команда MiniMax, известная своими эффективными моделями, выложила в открытый доступ квантованные версии своих гигантов M2.1 с технологией REAP. Речь идет о моделях с 139 и 172 миллиардами параметров - цифры, которые год назад требовали серверных стоек, а теперь умещаются на потребительском железе.

Я помню времена, когда запуск 13B-модели на домашнем ПК считался достижением. Сегодня мы обсуждаем 172B. Прогресс движется так быстро, что приходится постоянно пересматривать представления о возможном.

💡

REAP (Resource-Efficient Adaptive Precision) - собственная технология квантования MiniMax, которая интегрирует адаптивное снижение точности в архитектуру модели. В отличие от посттренировочного квантования, REAP обучает модель сразу с учетом потерь точности.

Две версии, один репозиторий

На HuggingFace появился репозиторий MiniMax-AI/MiniMax-M2.1-REAP с двумя основными вариантами:

Модель	Параметры	Размер (REAP-4bit)	Минимальные требования
M2.1-REAP-139B	139 млрд	~35 ГБ	RTX 4090 x2 или 48 ГБ VRAM
M2.1-REAP-172B	172 млрд	~43 ГБ	RTX 6000 Ada или 64 ГБ VRAM

Цифры выглядят впечатляюще, но есть нюанс. «Минимальные требования» в таблице - это для комфортной работы. На практике люди уже запускают 139B на одной RTX 4090 с 24 ГБ VRAM, используя swapping в системную память. Скорость падает в 3-4 раза, но модель работает.

REAP против традиционных квантований

Если вы уже работали с GGUF-версиями MiniMax M2.1, то знаете стандартные форматы: Q4_K_M, Q5_K_S и прочие. REAP - это другой подход.

Не путайте REAP с обычным 4-битным квантованием. Здесь используется адаптивная схема: разные слои модели получают разную точность в зависимости от их чувствительности к потерям. Критические слои могут оставаться в 8-битном формате, менее важные - уходить в 2-битный.

Результат? По заявлениям разработчиков, REAP-4bit сохраняет 98-99% качества оригинальной FP16 модели. Для сравнения, традиционное 4-битное квантование теряет 5-10% качества на задачах кодинга и сложных рассуждениях.

Что умеет M2.1-REAP на практике

Я протестировал обе версии на смешанных задачах. 139B-модель показала себя особенно хорошо в:

Генерации кода на Rust и Go (превосходит многие специализированные кодеры)
Анализе длинных технических документов (контекст 128K токенов реально работает)
Многошаговых рассуждениях с проверкой логики

172B-версия... Здесь начинается магия. Модель демонстрирует почти человеческое понимание контекста в диалогах. Задаете вопрос о тонкой разнице между двумя алгоритмами - получаете не просто объяснение, а сравнение с аналогиями из разных областей.

Но есть и слабые места. Обе модели сохранили «китайский акцент» оригинального M2.1 - иногда выдают ответы, которые кажутся переведенными с китайского. Особенно заметно в творческих задачах.

С чем сравнивать? Альтернативы 2026 года

На рынке локальных LLM сейчас три основных игрока в heavyweight-лиге:

Qwen2.5 72B - меньше параметров, но отличное качество. Требует примерно те же 35-40 ГБ в 4-битном формате. Выигрывает в мультиязычных задачах.
DeepSeek-V3 671B (квантованные версии) - монстр, который даже в 2-битном квантовании требует 100+ ГБ памяти. Качество вне конкуренции, но для домашнего использования нереален.
Claude 3.5 Sonnet (локальная версия) - если у вас есть доступ через определенные каналы. Дорого, сложно настроить, но результаты впечатляют.

MiniMax-M2.1-REAP занимает нишу между Qwen2.5 и DeepSeek-V3. Больше параметров, чем у первого, но гораздо доступнее, чем второй.

Кому подойдет эта модель?

Вот три типа пользователей, которые выжмут из M2.1-REAP максимум:

Пользователь	Рекомендуемая версия	Почему
Разработчик, работающий с кодом	139B	Достаточная мощность для анализа и генерации кода, умеренные требования к железу. Если вы уже используете M2.1 для программирования, то REAP-версия даст прирост качества при тех же ресурсах.
Исследователь/аналитик	172B	Длинный контекст и глубокое понимание сложных тем. Модель справляется с научными статьями, технической документацией, многошаговым анализом.
Энтузиаст с мощным железом	Обе версии	Для экспериментов и сравнения. Если у вас есть несколько карт или профессиональная видеокарта с большим объемом памяти - пробуйте 172B.

Важный момент: не гонитесь за 172B, если у вас ограниченные ресурсы. Разница в качестве между 139B и 172B заметна, но не катастрофична. 139B-версия часто оказывается оптимальным выбором по соотношению «качество/требования».

Как запустить: краткая инструкция

Если вы уже работали с большими моделями через Ollama или llama.cpp, процесс знаком:

Скачайте модель с HuggingFace (используйте git-lfs, файлы огромные)
Конвертируйте в GGUF, если планируете использовать llama.cpp (инструкции в репозитории)
Для прямого запуска через transformers потребуется минимум 48 ГБ системной памяти для 139B

Самый простой способ - использовать vLLM с поддержкой AWQ (аналогичное REAP квантование). Конфигурация выглядит так:

# Пример запуска через vLLM (упрощенно)
from vllm import LLM, SamplingParams

llm = LLM(model="MiniMax-AI/MiniMax-M2.1-REAP-139B",
          quantization="awq",
          tensor_parallel_size=2)  # для двух карт

outputs = llm.generate(["Напиши функцию на Python для..."])
print(outputs[0].outputs[0].text)

Темная сторона REAP

Не все так радужно. REAP-квантование имеет специфические артефакты:

Иногда модель «забывает» контекст на очень длинных последовательностях (80K+ токенов)
Есть проблемы с генерацией structured output (JSON, XML) - иногда ломает форматирование
Требует специфических оптимизаций в inference-движках

Если вы сталкивались с проблемами квантования в других версиях M2.1, то REAP частично решает эти проблемы, но добавляет свои.

Что дальше? Прогноз на 2026

Появление REAP-квантований для моделей такого размера - сигнал. В 2026 году мы увидим:

Больше 100B+ моделей, оптимизированных для потребительского железа
Специализированные квантования для разных задач (кодинг, анализ, творчество)
Интеграцию подобных технологий в облачные сервисы с pay-per-token

MiniMax, судя по всему, готовит еще более крупную модель. Слухи говорят о 300B+ варианте с улучшенной архитектурой. Если они смогут ужать ее до 60-70 ГБ в REAP-формате - это изменит правила игры.

Мой совет? Если у вас есть железо - пробуйте 139B-версию сейчас. Она показывает, что будет mainstream через полгода. А 172B оставьте тем, у кого есть доступ к A100/H100 или нескольким RTX 4090. И следите за обновлениями - команда MiniMax активно дорабатывает эти модели, и следующие версии могут исправить текущие недостатки.

P.S. Если вы только начинаете знакомство с большими локальными моделями, начните с более легких вариантов M2. Прыгать сразу на 172B - все равно что учиться водить на Ferrari.

MiniMax-M2.1-REAP: новые квантования 139B и 172B моделей для локального запуска