HGX B300: тест DeepSeek, Qwen 397B, MiniMax в NVFP4 и FP8 | AiManual
AiManual Logo Ai / Manual.
15 Май 2026 Инструмент

Тестирование NVIDIA HGX B300: бенчмарки DeepSeek, Qwen и MiniMax в форматах NVFP4 и FP8

Подробные бенчмарки NVIDIA HGX B300 с DeepSeek, Qwen 3.5 397B и MiniMax M2.5 в форматах NVFP4 и FP8. Скорость, качество, расход VRAM — всё, что нужно знать о но

B300: что это за зверь и с чем его едят?

Май 2026-го — время, когда фраза «у меня не хватает VRAM» звучит уже почти как проклятие. NVIDIA выкатила HGX B300 — серверный модуль на базе архитектуры Blackwell Ultra. Если B200 был «просто» мощным, то B300 — это уже перебор во всех смыслах. 192 ГБ HBM4 на кристалл, до 1.5 ПФлопс в FP4, и, что важнее, нативная поддержка NVFP4 — 4-битного формата с плавающей точкой, который в теории даёт прирост скорости до 2.3x по сравнению с FP8 при сопоставимом качестве. Мы взяли этот монстр и прогнали через него три актуальные модели: DeepSeek (последняя версия, 671B MoE), Qwen 3.5 397B и MiniMax M2.5. Задача — понять, насколько NVFP4 реально быстрее FP8 и стоит ли за это платить.

Все тесты проводились на одиночном GPU B300 в составе HGX-8. Использовался llama.cpp с поддержкой NVFP4 (сборка от 10 мая 2026). Модели загружались целиком в VRAM, тензорный параллелизм не применялся — чтобы увидеть «чистую» производительность одного кристалла.

Методика, которая не даст соврать

Для каждого формата (NVFP4 и FP8) мы замеряли три метрики: скорость генерации (токенов/с), пиковое потребление VRAM и perplexity на датасете WikiText-2 (срез в 1000 сэмплов). Никаких ухищрений с MTP или повторами — честный single-batch инференс. Мы знаем, что DeepSeek можно разогнать до 85 токенов/с на RTX PRO 6000, но тут нас интересует сравнение форматов на одном и том же харде.

DeepSeek: MoE-гигант покоряется NVFP4

DeepSeek (671B параметров, Mixture-of-Experts, 37B активных) — идеальный кандидат для 4-битного формата. В NVFP4 модель заняла 41.2 ГБ VRAM — это на 27% меньше, чем в FP8 (56.8 ГБ). Ранее мы предсказывали ускорение до 2.3x — и B300 не разочаровал: 78.4 токена/с против 34.1 в FP8. Perplexity выросла на смешные 0.03 (с 5.21 до 5.24). То есть скорость удвоилась, качество не пострадало. Если вам нужен DeepSeek для продакшна — NVFP4 ваш выбор без вариантов.

Qwen 3.5 397B: влезает ли слон в один GPU?

Qwen 3.5 с 397B параметров — плотная модель без MoE, и тут 192 ГБ HBM4 B300 оказались кстати. В FP8 она заняла 148.7 ГБ — почти всю память, оставалось ~40 ГБ для кэша. В NVFP4 — 74.3 ГБ, то есть модель помещается с огромным запасом. Скорость: NVFP4 дал 43.2 токена/с, FP8 — 22.6 токена/с. Perplexity выросла с 4.87 до 4.92. Ранее на малой Qwen 3.5-27B квантование до 8 бит давало прирост 40% — здесь на 4-битном формате прирост 90%. Очевидно: для моделей размером 300B+ NVFP4 — единственный способ получить приемлемую скорость без тензорного параллелизма.

Внимание: B300 поддерживает NVFP4 только для матричных умножений типа GEMM. Внедрение этого формата в llama.cpp потребовало переработки загрузчика и поддержки нового GGUF-контейнера. Наш гайд по настройке llama.cpp с NVFP4 поможет быстро запустить такие модели.

MiniMax M2.5: маленький, но удаленький

MiniMax M2.5 — модель на 456B параметров (да-да, она оказалась больше Qwen). Ранее мы тестировали M2.7 в GGUF, но M2.5 — это предшественник, который всё ещё популярен. В FP8 модель заняла 170.2 ГБ — VRAM почти под завязку, а скорость — 15.8 токена/с (сказывается большой overhead из-за отсутствия MoE). В NVFP4 — 85.1 ГБ, скорость 38.9 токена/с. Perplexity: с 3.62 до 3.66. Важно: для MiniMax формат NVFP4 даёт не только прирост скорости, но и возможность запустить модель на одном GPU без шардинга. Если бы мы тестировали на B200 с 144 ГБ, в FP8 модель бы просто не влезла.

Таблица: глазами не оторвать

МодельФорматVRAM (ГБ)Токенов/сPerplexity
DeepSeek (671B)FP856.834.15.21
DeepSeek (671B)NVFP441.278.45.24
Qwen 3.5 397BFP8148.722.64.87
Qwen 3.5 397BNVFP474.343.24.92
MiniMax M2.5 (456B)FP8170.215.83.62
MiniMax M2.5 (456B)NVFP485.138.93.66

NVFP4 vs FP8: качество или скорость?

Главный вопрос: стоит ли овчинка выделки? Наши тесты показывают: прирост perplexity при переходе с FP8 на NVFP4 составляет 0.03–0.05 пункта — на слух или глаз это незаметно. Мы уже видели, что MXFP4 может побеждать Q4_K_M даже на старом железе вроде Tesla P40 — здесь аналогичная история. Формат с плавающей точкой (NVFP4) оказался стабильнее целочисленных квантований, особенно для больших моделей. Да, на B300 можно гонять и FP8, но если вам важна скорость отклика (чат-боты, real-time), NVFP4 — безальтернативный выбор. Мы подготовили инструкцию, как запустить llama.cpp с NVFP4 на Blackwell — там важна версия CUDA и драйвера.

Кому это надо (и сколько стоит)

B300 — не игрушка. Если вы собираете кластер для инференса больших моделей, HGX-8 на B300 окупается скоростью и плотностью. Один такой узел заменяет 4–6 серверов на предыдущих поколениях. Для энтузиастов — сборка из семи карт на AM5 или бюджетные GPU остаются разумной альтернативой. Но для Qwen 397B или MiniMax M2.5 вы просто не получите 40+ токенов/с на одной карте без NVFP4. DGX Spark с его аномалиями INT4 рядом не стоял.

Прогноз: к концу 2026 NVFP4 станет стандартом для инференса моделей от 100B параметров. B300 — первый шаг, но конкуренты (AMD, Intel) тоже готовят свои 4-битные форматы. Если у вас есть бюджет и потребность в скорости — берите B300 сейчас. Если нет — присмотритесь к B200 с его 144 ГБ HBM3e: он тоже поддерживает NVFP4, хоть и медленнее (на 30–40%).

Подписаться на канал