Собираем монстра: сколько стоит запустить MiniMax M2.5 для 8 пользователей?

Вам поступил запрос от бизнеса: разверни MiniMax M2.5 в продакшн, чтобы 8 человек могли одновременно работать с моделью, причем каждый получал бы около 35 токенов в секунду. Руководство смотрит на вас с ожиданием, а в голове крутится один вопрос: сколько это будет стоить и какое железо сожрет?

Я видел десятки таких проектов. Кто-то заказывает сразу 8x H100, тратит полмиллиона и потом выясняет, что модель даже не использует всю их память. Кто-то пытается впихнуть невпихуемое на две старые RTX 3090 и получает 3 токена в секунду, после чего пользователи уходят к конкурентам. Сегодня разберем, как рассчитать все точно, без переплат и нервных срывов.

Все расчеты актуальны на 23 февраля 2026 года. Мы говорим о модели MiniMax M2.5, конкретно о версии mratsim/MiniMax-M2.5-BF16-INT4-AWQ, которая на момент написания - самая оптимальная для развертывания на собственном железе.

1Из чего складывается аппетит модели: ломаем миф о 230 миллиардах

Первое, что сбивает с толку - цифра в 230 миллиардов параметров. Страшно? Не нужно. MiniMax M2.5 - это Mixture of Experts (MoE) модель. За один forward pass работает только часть сети - примерно 10 миллиардов параметров. Вот на них и нужно фокусироваться.

Мы берем AWQ-квантованную версию (INT4), где каждый параметр весит 4 бита, а не стандартные 16 (BF16). Это сразу делит необходимую память на 4. Но есть подвох: активации (activations) и кэш ключей-значений (KV-cache) все еще могут храниться в более высоком формате, например, BF16. Если их не учесть, модель просто не влезет в память.

💡

Если вы запускали модель на двух картах, как в нашем старом эксперименте, то для 2 пользователей это работало. 8+ параллельных запросов - это другой уровень, где на первый план выходит управление памятью и пропускная способность шины.

2Формула расчета VRAM: не верьте калькуляторам из интернета

Большинство онлайн-калькуляторов считают только вес параметров. Это грубая ошибка. Память делится на три части:

Веса модели: 10B активных параметров * 0.5 байта (4 бита) = ~5 GB.
Кэш KV: Зависит от контекста и батча. Для 8 параллельных запросов с контекстом 4K токенов это может добавить 10-15 GB.
Активации и рабочий буфер: Еще 3-5 GB для промежуточных вычислений.

Итог: для одного инстанса модели нужно около 20-25 GB VRAM. Но мы-то хотим 8 параллельных запросов! Здесь включается батчинг. Если складывать запросы в батч, то память растет нелинейно. Для 8 запросов в батче нужно уже не 8x20 GB, а, грубо, 40-50 GB, потому что часть данных переиспользуется.

# Грубый расчет пиковой VRAM для 8 параллельных запросов
import math

active_params = 10e9          # 10 миллиардов активных параметров
bits_per_param = 4            # AWQ 4-bit
weight_mem_gb = (active_params * bits_per_param) / (8 * 1e9)  # ~5 GB

batch_size = 8
seq_len = 4096
hidden_size = 5120            # Примерное hidden size для M2.5
kv_cache_factor = 2 * 2 * batch_size * seq_len * hidden_size / 1e9  # Упрощенно
kv_cache_mem_gb = kv_cache_factor * 2  # В байтах для BF16 (~13 GB)

activations_mem_gb = 5        # Эмпирическая оценка

peak_vram_gb = weight_mem_gb + kv_cache_mem_gb + activations_mem_gb
print(f\"Пиковая VRAM для батча из {batch_size}: {peak_vram_gb:.1f} GB\")
# Вывод: Пиковая VRAM для батча из 8: ~23 GB? Не совсем. На практике больше.

Код выше - упрощение. В реальности фреймворки вроде vLLM или TGI добавляют свои накладные расходы. Всегда закладывайте запас 20-30%. Если расчет показывает 40 GB, значит, нужно минимум 48 GB VRAM.

3Выбор видеокарт: 7x RTX 3090 - мазохизм или гениальность?

Одна карта с 48 GB VRAM (например, A6000 или 4090 с модом) - дорого. Две карты по 24 GB - часто недостаточно. Классическое решение для энтузиастов - связка из нескольких RTX 3090. У каждой 24 GB GDDR6X. Их нужно 3, чтобы получить 72 GB, что покрывает наши расчеты с запасом. Почему тогда в заголовке 7 карт?

А вот почему: для 8+ параллельных запросов с высокой скоростью выхода токенов критична не только память, но и вычислительная мощность. Одна 3090 может выдавать определенное количество токенов в секунду. Чтобы достичь 35 t/s на каждый из 8 потоков, нужно распределить нагрузку. 7 карт - это избыточно для памяти, но может быть оправдано для вычислений, если модель распараллелена по тензору или по слоям.

Конфигурация	Общая VRAM	Оценочная скорость (t/s на 8 запросов)	Главная проблема
3x RTX 3090	72 GB	15-20	Не хватает вычислительной мощности
4x RTX 3090	96 GB	22-28	Ближе к цели, но может не дотянуть
7x RTX 3090	168 GB	35+	Охлаждение, питание, стоимость

Да, 7 карт - это экстрим. Но если цель - гарантированно 35 t/s, то это рабочий вариант. Каждая карта будет загружена меньше, что снижает тепловыделение и позволяет держать высокие частоты. Альтернатива - 3x RTX 4090 с 24 GB, но их пропускная способность памяти выше, может хватить. Однако, в 2026 году RTX 4090 все еще дорогая, а 3090 можно найти на вторичке за относительно небольшие деньги.

4Материнская плата и CPU: здесь нельзя экономить

7 видеокарт нужно куда-то воткнуть. Обычная игровая материнская плата с 3-4 слотами PCIe не подойдет. Нужен серверный подход: материнская плата на сокете AMD EPYC (например, EPYC 7003/9004 серии). У них до 128 линий PCIe 4.0, что позволяет подключить 7 карт на полноскоростных слотах x8 или x16.

Почему скорость PCIe важна? При распределении модели по нескольким GPU данные постоянно перебрасываются между картами. Если карта подключена через PCIe 3.0 x4, это создаст узкое горло. Каждая карта должна работать минимум на PCIe 4.0 x8. Для этого и нужен EPYC.

💡

Если бюджет ограничен, посмотрите наш гайд про бюджетный сервер на MI50. Но для MiniMax M2.5 и 8 параллельных запросов я бы не советовал старые карты AMD - с поддержкой фреймворков могут быть проблемы.

Оперативная память: 512 GB DDR4 ECC - это необходимый минимум. Почему так много? Возможен оффлоадинг части слоев на CPU (например, с помощью библиотек типа Hugging Face Accelerate). Если VRAM переполнится, система будет сбрасывать данные в RAM. Также в RAM хранится код модели, который загружается перед передачей в VRAM. 768 GB - лучше.

5Блок питания, охлаждение и корпус: детали, которые убьют проект

7x RTX 3090 под нагрузкой потребляют около 350 ватт каждая. Это 2450 ватт только на видеокарты. Плюс CPU (200-300W), материнская плата, диски. Итог: нужен блок питания на 3000+ ватт. Серверный, с резервированием (redundant PSU), формата ATX или SSI. Дешевый китайский блок на 3000W за 200$ сожжет все оборудование в первую же неделю.

Охлаждение: воздушное не справится. Нужна кастомная СЖО (система жидкостного охлаждения) с большим радиатором и помпами, либо серверная стойка с принудительным обдувом. Температура памяти GDDR6X на 3090 за 100°C - это норма, но для стабильной работы 24/7 лучше держать ниже 90°C.

Пошаговый план сборки (для мазохистов)

Закупите железо: 7x RTX 3090 (б/у или новые), материнская плата ASRock Rack или Supermicro на EPYC 7313P, 512 GB RAM DDR4 ECC, БП на 3000W, корпус с хорошей вентиляцией.
Соберите стенд: Установите CPU, RAM, карты в слоты. Подключите питание ко всем картам (не забудьте про пины на самой плате).
Установите ПО: Ubuntu Server 24.04 LTS, драйверы NVIDIA последней версии (на 2026 год это, вероятно, ветка 550+), CUDA 12.6+.
Настройте модель: Клонируйте репозиторий с Hugging Face, установите библиотеки (transformers, accelerate, vLLM, autoawq). Используйте vLLM для эффективного батчинга.
Протестируйте: Запустите нагрузочный тест с 8 параллельными клиентами. Замерьте скорость генерации и потребление памяти. Если скорость ниже 35 t/s, попробуйте увеличить размер батча или поиграть с распределением слоев по картам.

# Пример запуска сервера vLLM для AWQ модели на нескольких GPU
# Установите vLLM: pip install vLLM
# Загрузите модель: mratsim/MiniMax-M2.5-BF16-INT4-AWQ

# Запуск сервера API
python -m vllm.entrypoints.openai.api_server \\
    --model mratsim/MiniMax-M2.5-BF16-INT4-AWQ \\
    --tensor-parallel-size 7 \\
    --gpu-memory-utilization 0.9 \\
    --max-num-batched-tokens 32768 \\
    --served-model-name MiniMax-M2.5

Где все может пойти не так: частые ошибки

Недостаточное питание PCIe слотов: Материнская плата может давать только 75W на слот, а 3090 требует 350W. Обязательно используйте отдельные кабели питания от БП для каждой карты. Не берите разветвители.
Перегрев карт в середине стека: Карты, стоящие вплотную, будут жариться. Используйте спейсеры (слот-удлинители) или корпус с горизонтальным расположением.
Неправильная версия CUDA или драйверов: Проверяйте совместимость фреймворков. Для vLLM на 2026 год нужен драйвер не ниже 550.
Игнорирование оперативной памяти: Если RAM закончится, система начнет использовать своп на диске, и скорость упадет до нуля. Мониторьте использование RAM во время тестов.

Самая частая ошибка - пытаться сэкономить на материнской плате или блоке питания. Скупой платит дважды, особенно когда сгоревшая карта стоит 1000$.

Вопросы, которые вы хотели задать, но боялись

Можно ли обойтись без 7 карт, используя квантование в GGUF и оффлоадинг на CPU?

Можно, как описано в гайде для Mac. Но скорость будет 2-3 токена в секунду на запрос. Для 8 пользователей это неприемлемо. GGUF хорош для экспериментов, но не для продакшн-нагрузки.

А что если взять не 3090, а более новые карты с 48 GB?

Если бюджет позволяет, то 3x RTX 5090 (условно, на 2026 год) с 48 GB будет идеально. Меньше проблем с охлаждением и питанием, выше производительность. Но такие карты, скорее всего, будут стоить как 10 б/у 3090. Считайте ROI.

Какой софт лучше использовать для параллельных запросов?

В 2026 году лидеры - vLLM и Text Generation Inference (TGI) от Hugging Face. Для AWQ моделей vLLM подходит лучше. Он умеет эффективно батчить запросы и управлять KV-кэшем.

И последнее. Прежде чем заказывать 7 видеокарт, спросите себя: может, проще арендовать инстанс в облаке с 8x H100 на время пиковой нагрузки? Собрать такой сервер - это админская работа на сотни часов. Иногда проще платить за облако, чем быть своим инженером, электриком и сантехником.

Но если вы все же решитесь - вы получите монстра, который будет рвать любые задачи. Только не забудьте купить огнетушитель. На всякий случай.

Подписаться на канал

Как рассчитать железо для развертывания MiniMax M2.5: гайд по аппаратным требованиям для 8+ параллельных запросов