Компания Xiaomi выложила в открытый доступ MiMo-V2.5-Pro — модель с 1,02 триллиона параметров. Звучит как подарок судьбы для энтузиастов. Но есть нюанс: тот же провайдер, что обучал модель, предлагает API по цене $70 за 387 миллионов токенов. Дорого? Дешево? Давайте считать без иллюзий.
Если вы пропустили: MiMo-V2.5 — это Sparse MoE архитектура с 310B активных параметров (в версии Pro — 1.02 трлн общих). Подробнее про оригинальную модель мы уже писали в обзоре MiMo-V2.5.
1,02 триллиона — это сколько в железе?
Триллион параметров — это примерно 2 ТБ весов в FP16. Для инференса такой махины понадобится минимум 8 H100 (80 ГБ) в режиме тензорного параллелизма. А если хотите контекст в 1 млн токенов, как у MiMo-V2.5 — готовьте 16–32 H100 и распределенную память. Стоимость кластера под self-hosting стартует от $200–300 в час на облачных инстансах.
Но Xiaomi утверждает, что благодаря MoE (Mixture of Experts) на каждый токен активируется лишь ~10% параметров — около 100B. Это снижает требования к памяти, но не отменяет необходимости в большом количестве GPU для пакетной обработки. В теории это работает так, но на практике... давайте прикинем смету.
$70 за 387M токенов — а это вообще адекватно?
| Поставщик / Модель | Цена за 1M входных токенов | Цена за 1M выходных токенов |
|---|---|---|
| MiMo-V2.5-Pro API | $0,18 | $0,18 |
| DeepSeek V3.2 API | $0,14 | $0,42 |
| OpenAI GPT-5 (условно) | $0,50 | $1,50 |
$70 за 387M токенов — это примерно $0,18 за миллион. Для модели с триллионом параметров — смешная цена. DeepSeek V3.2, кстати, дешевле на входе ($0,14), но дороже на выходе ($0,42). В итоге при типичном использовании (30% вход, 70% выход) MiMo-V2.5-Pro может оказаться даже выгоднее. Подробный анализ стоимости разных моделей мы собрали в сравнении DeepSeek V3.2 и конкурентов.
Self-hosting: цена свободы
Допустим, вы решаете поднять модель локально. Свежий кластер из 8x H100 (80 ГБ) обойдётся в облаке примерно $35–40 в час. За 10 часов непрерывной работы — $400. За это время через API вы бы обработали около 2,2 млрд токенов (при цене $0,18/M). А на своём железе — максимум 100–150 млн, если повезёт.
И это без учёта затрат на охлаждение, обслуживание и амортизацию. Наш предыдущий разбор неудачного билда для LLM показал, что ROI для моделей больше 300B почти никогда не окупается, если у вас нет круглосуточной нагрузки.
Конечно, есть квантование, сжатие до 4 бит — тогда модель влезет на 2–4 H100. Но качество упадёт, а для 1M контекста — кратно упадёт скорость. Мы тестировали MiMo-V2.5 с 1M контекста на локальном ПК — на 4x RTX 4090 скорость составила 7–10 токенов в секунду. Для продакшна такое неприемлемо.
Промежуточный вердикт: API дешевле, но...
Для большинства сценариев API выигрывает. Но есть кейсы, когда self-hosting оправдан: если у вас сверхчувствительные данные (финансы, медицина) или нагрузка так велика, что стоимость API превышает стоимость аренды кластера. Посчитать точку безубыточности вам поможет реальный кейс с 200 млн токенов за 5 дней — там автор нашёл границу при 10 млрд ежемесячного потребления.
Ещё один аргумент за свой сервер — приватность. Если вы обрабатываете код, договоры или переписку — вы не хотите, чтобы они уходили к провайдеру. Вопрос цены приватности мы уже разбирали, и цифры там не в пользу API.
А вы знали, что с помощью Tokentap можно отследить реальное потребление токенов в ваших AI-пайплайнах? Статья о Tokentap — must-read, если хотите точно знать, сколько вы тратите.
Что дальше?
Пока вы читали этот текст, кто-то уже запустил MiMo-V2.5-Pro на 128 H100 через vLLM и получает 1500 токен/с. Другие ждут следующего поколения — B200 или Blackwell Ultra. Моя субъективная оценка: для единичных проектов брать API безусловно выгоднее. Но как только вы приближаетесь к миллиарду токенов в месяц, начинайте смотреть в сторону собственного кластера. И не забывайте, что через полгода выйдет модель с 2 трлн параметров — и эта дискуссия повторится снова.