MiMo-V2.5-Pro 1.02 трлн параметров: самохостинг vs API за $70

Компания Xiaomi выложила в открытый доступ MiMo-V2.5-Pro — модель с 1,02 триллиона параметров. Звучит как подарок судьбы для энтузиастов. Но есть нюанс: тот же провайдер, что обучал модель, предлагает API по цене $70 за 387 миллионов токенов. Дорого? Дешево? Давайте считать без иллюзий.

Если вы пропустили: MiMo-V2.5 — это Sparse MoE архитектура с 310B активных параметров (в версии Pro — 1.02 трлн общих). Подробнее про оригинальную модель мы уже писали в обзоре MiMo-V2.5.

1,02 триллиона — это сколько в железе?

Триллион параметров — это примерно 2 ТБ весов в FP16. Для инференса такой махины понадобится минимум 8 H100 (80 ГБ) в режиме тензорного параллелизма. А если хотите контекст в 1 млн токенов, как у MiMo-V2.5 — готовьте 16–32 H100 и распределенную память. Стоимость кластера под self-hosting стартует от $200–300 в час на облачных инстансах.

Но Xiaomi утверждает, что благодаря MoE (Mixture of Experts) на каждый токен активируется лишь ~10% параметров — около 100B. Это снижает требования к памяти, но не отменяет необходимости в большом количестве GPU для пакетной обработки. В теории это работает так, но на практике... давайте прикинем смету.

$70 за 387M токенов — а это вообще адекватно?

Поставщик / Модель	Цена за 1M входных токенов	Цена за 1M выходных токенов
MiMo-V2.5-Pro API	$0,18	$0,18
DeepSeek V3.2 API	$0,14	$0,42
OpenAI GPT-5 (условно)	$0,50	$1,50

$70 за 387M токенов — это примерно $0,18 за миллион. Для модели с триллионом параметров — смешная цена. DeepSeek V3.2, кстати, дешевле на входе ($0,14), но дороже на выходе ($0,42). В итоге при типичном использовании (30% вход, 70% выход) MiMo-V2.5-Pro может оказаться даже выгоднее. Подробный анализ стоимости разных моделей мы собрали в сравнении DeepSeek V3.2 и конкурентов.

Self-hosting: цена свободы

Допустим, вы решаете поднять модель локально. Свежий кластер из 8x H100 (80 ГБ) обойдётся в облаке примерно $35–40 в час. За 10 часов непрерывной работы — $400. За это время через API вы бы обработали около 2,2 млрд токенов (при цене $0,18/M). А на своём железе — максимум 100–150 млн, если повезёт.

И это без учёта затрат на охлаждение, обслуживание и амортизацию. Наш предыдущий разбор неудачного билда для LLM показал, что ROI для моделей больше 300B почти никогда не окупается, если у вас нет круглосуточной нагрузки.

Конечно, есть квантование, сжатие до 4 бит — тогда модель влезет на 2–4 H100. Но качество упадёт, а для 1M контекста — кратно упадёт скорость. Мы тестировали MiMo-V2.5 с 1M контекста на локальном ПК — на 4x RTX 4090 скорость составила 7–10 токенов в секунду. Для продакшна такое неприемлемо.

Промежуточный вердикт: API дешевле, но...

Для большинства сценариев API выигрывает. Но есть кейсы, когда self-hosting оправдан: если у вас сверхчувствительные данные (финансы, медицина) или нагрузка так велика, что стоимость API превышает стоимость аренды кластера. Посчитать точку безубыточности вам поможет реальный кейс с 200 млн токенов за 5 дней — там автор нашёл границу при 10 млрд ежемесячного потребления.

Ещё один аргумент за свой сервер — приватность. Если вы обрабатываете код, договоры или переписку — вы не хотите, чтобы они уходили к провайдеру. Вопрос цены приватности мы уже разбирали, и цифры там не в пользу API.

А вы знали, что с помощью Tokentap можно отследить реальное потребление токенов в ваших AI-пайплайнах? Статья о Tokentap — must-read, если хотите точно знать, сколько вы тратите.

Что дальше?

Пока вы читали этот текст, кто-то уже запустил MiMo-V2.5-Pro на 128 H100 через vLLM и получает 1500 токен/с. Другие ждут следующего поколения — B200 или Blackwell Ultra. Моя субъективная оценка: для единичных проектов брать API безусловно выгоднее. Но как только вы приближаетесь к миллиарду токенов в месяц, начинайте смотреть в сторону собственного кластера. И не забывайте, что через полгода выйдет модель с 2 трлн параметров — и эта дискуссия повторится снова.

Подписаться на канал

MiMo-V2.5-Pro с 1.02 трлн параметров: бесплатно, но заплатите $70 за 387M токенов

1,02 триллиона — это сколько в железе?

$70 за 387M токенов — а это вообще адекватно?

Self-hosting: цена свободы

Промежуточный вердикт: API дешевле, но...

Что дальше?

Подписывайтесь на наш канал!