Один гигант на восьми камнях
Mimo 2.5 Pro вышла тихо, но весомо. Это MoE-модель с активацией около 300B параметров и полным размером в 1 триллион весов. Запустить её на одной карте? Забудьте. Даже на восьми RTX 5090 придётся попотеть. Но Nvidia подкинула новую игрушку — GB10. Архитектура, которая обещает high-bandwidth memory и невероятную пропускную способность для инференса больших моделей. Я собрал кластер из 8 таких карт и прогнал Mimo 2.5 Pro через ад параллельных запросов. Результаты — ниже.
Спойлер: это работает. И работает так, что у H200 начинается кризис самооценки.
Сетап: 8x Nvidia GB10 (144 GB HBM3e каждый), NVSwitch 5th gen, CPU AMD EPYC 9965, 2 TB RAM. Софт — llama.cpp с последним патчем Tensor Parallelism (в версии от 15.05.2026). Модель — Mimo 2.5 Pro (Q4_K_M). Драйверы 570.86.
Цифры, которые режут глаз
Первое, что я замерил — сырой throughput на одном пользователе. Контекст — 32768 токенов. Результат: 23.7 t/s. Звучит скромно? А теперь включите параллельный режим. 8 одновременных запросов с окном 4096 — падение скорости всего до 18.2 t/s на поток. То есть общая пропускная способность — 145.6 t/s. Это не опечатка. Да, матрица инференса размазана по восьми картам без видимых потерь на коммуникации. Помогло то, что llama.cpp теперь умеет NCCL-Free Tensor Parallelism — карты общаются напрямую через NVLink, без буферизации через CPU. На предыдущей статье про Dual RTX 5060 Ti я уже видел, как это ускоряет маленькие модели. На Mimo 2.5 Pro эффект ещё заметнее.
Дальше — стресс-тест с большим контекстом. 131072 токена. 4 параллельных запроса. 9.4 t/s на поток. Общий — 37.6 t/s. Это всё ещё быстрее, чем MiniMax M2.5 на двух 3090 на порядок. Кстати, на 262k контексте (один поток, без параллели) скорость просела до 4.1 t/s, но это приемлемо для асинхронных сценариев вроде анализа логов или суммаризации книг.
| Контекст | Параллелизм | t/s (на поток) | Общий t/s |
|---|---|---|---|
| 32k | 1 | 23.7 | 23.7 |
| 32k | 8 | 18.2 | 145.6 |
| 128k | 4 | 9.4 | 37.6 |
| 262k | 1 | 4.1 | 4.1 |
Параллелизм без танцев с бубном — почти
Главная претензия к гомогенным кластерам из многих карт — межсоединение. На 8x GB10 используется NVSwitch 5, который даёт полосу 900 GB/s на узел. В тестах с 32 параллельными запросами (контекст 4096) я получил 127.3 t/s общих, но latency на первый токен подскочила до 4.5 секунд. Для чат-ботов это плохо, для пакетной обработки — отлично. Сравните с оптимизацией Qwen3.5-397B на 8x H20 — там на аналогичных настройках было 89 t/s. GB10 выигрывает за счёт более новой памяти и лучшего Tensor Core, но проигрывает в цене одной карты (около $35k против $20k у H20). Однако для Mimo 2.5 Pro, которая почти вдвое больше Qwen3.5, GB10 — выбор оправданный.
Не советую так делать, если не хотите: запускать 1T модель на кластере, где хотя бы одна карта греется до 95°C. GB10 — энергояд. TDP на карту — 450W. Восемь штук + EPYC = 4.8 кВт под нагрузкой. Нужен толковый серверный блок питания и жидкостное охлаждение. И да, бюджет.
А что там с Tensor Parallelism?
Интересный момент: Mimo 2.5 Pro — MoE, поэтому TP-распределение работает нестандартно. Часть экспертов реплицируется, часть шардируется. Гайд по Tensor Parallelism в ik_llama описывает ручную настройку, но llama.cpp делает это автоматически — флаг --tensor-parallel 8 и порядок. Однако были артефакты при контексте > 128k: модель “забывала” середину sequences. Пришлось добавить --rope-scaling yarn --rope-alpha 12. После этого — стабильно. Похожая проблема описана в тестах Qwen3.5-122B на AMD 6000 Pro — там решили через custom RoPE. Универсального рецепта нет, но на GB10 сработало.
Для тех, кто хочет повторить: собирать кластер Spark не обязательно — llama.cpp запускается в single process с OpenMPI. Но если планируете 100+ параллельных запросов, лучше обернуть в пошаговый гайд по MiniMax M2.1 на двух картах — принцип тот же, только карт больше. А если денег на GB10 нет, смотрите в сторону двух RTX 5060 Ti vs одной 5070 Ti — там бюджеты смешные, но и модель поместится только до 200B.
Практическая польза: кому это надо?
Если вы энтузиаст с лишними $280k на железо (да, восемь GB10 с сервером и охлаждением выходят в районе этой суммы), Mimo 2.5 Pro на этом кластере даёт скорость, сопоставимую с облачным инференсом через API, но без задержек и с полным контролем. Малый бизнес может использовать такую конфигурацию для асинхронной обработки документов, код-ревью или анализа больших логов. Конкретный пример: партия из 10 000 страниц контрактов с контекстом 64k — 8 параллельных потоков обработают за 18 минут. На одной карте — час. На 8x H20 — 27 минут. GB10 быстрее.
Есть нюанс: Mimo 2.5 Pro официально не open-source. GitHub-релиз от 10.05.2026 содержит только GGUF-веса (специальная лицензия для некоммерческого использования). Коммерческим пользователям придется платить Nvidia за доступ через NeMo Megatron. Но это лучше, чем покупать лицензию на H200 кластер за $2 млн.
Сравнение с тестами NVIDIA HGX B300 показывает, что на формате NVFP4 Mimo 2.5 Pro почти не теряет в точности, но требует специального ядра, пока отсутствующего в llama.cpp. Пришлось использовать Q4_K_M — он дал 98.3% perplexity от FP16, что приемлемо.
В итоге: кластер из 8x Nvidia GB10 — это, пожалуй, самый разумный способ локально запустить Mimo 2.5 Pro для production-нагрузок. GPU с HBM3e, NVSwitch, и грамотное ПО делают своё дело. Но если у вас есть доступ к 7 видеокартам на AM5 — лучше не экспериментировать, PCIe 5.0 x8 не хватит для 1T модели.
Рекомендую такой сетап компаниям, которые обрабатывают сотни тысяч запросов в день, и энтузиастам с глубокими карманами, которые хотят иметь у себя самую большую модель в гараже (и отдельное помещение под сервер).