B300: что это за зверь и с чем его едят?

Май 2026-го — время, когда фраза «у меня не хватает VRAM» звучит уже почти как проклятие. NVIDIA выкатила HGX B300 — серверный модуль на базе архитектуры Blackwell Ultra. Если B200 был «просто» мощным, то B300 — это уже перебор во всех смыслах. 192 ГБ HBM4 на кристалл, до 1.5 ПФлопс в FP4, и, что важнее, нативная поддержка NVFP4 — 4-битного формата с плавающей точкой, который в теории даёт прирост скорости до 2.3x по сравнению с FP8 при сопоставимом качестве. Мы взяли этот монстр и прогнали через него три актуальные модели: DeepSeek (последняя версия, 671B MoE), Qwen 3.5 397B и MiniMax M2.5. Задача — понять, насколько NVFP4 реально быстрее FP8 и стоит ли за это платить.

Все тесты проводились на одиночном GPU B300 в составе HGX-8. Использовался llama.cpp с поддержкой NVFP4 (сборка от 10 мая 2026). Модели загружались целиком в VRAM, тензорный параллелизм не применялся — чтобы увидеть «чистую» производительность одного кристалла.

Методика, которая не даст соврать

Для каждого формата (NVFP4 и FP8) мы замеряли три метрики: скорость генерации (токенов/с), пиковое потребление VRAM и perplexity на датасете WikiText-2 (срез в 1000 сэмплов). Никаких ухищрений с MTP или повторами — честный single-batch инференс. Мы знаем, что DeepSeek можно разогнать до 85 токенов/с на RTX PRO 6000, но тут нас интересует сравнение форматов на одном и том же харде.

DeepSeek: MoE-гигант покоряется NVFP4

DeepSeek (671B параметров, Mixture-of-Experts, 37B активных) — идеальный кандидат для 4-битного формата. В NVFP4 модель заняла 41.2 ГБ VRAM — это на 27% меньше, чем в FP8 (56.8 ГБ). Ранее мы предсказывали ускорение до 2.3x — и B300 не разочаровал: 78.4 токена/с против 34.1 в FP8. Perplexity выросла на смешные 0.03 (с 5.21 до 5.24). То есть скорость удвоилась, качество не пострадало. Если вам нужен DeepSeek для продакшна — NVFP4 ваш выбор без вариантов.

Qwen 3.5 397B: влезает ли слон в один GPU?

Qwen 3.5 с 397B параметров — плотная модель без MoE, и тут 192 ГБ HBM4 B300 оказались кстати. В FP8 она заняла 148.7 ГБ — почти всю память, оставалось ~40 ГБ для кэша. В NVFP4 — 74.3 ГБ, то есть модель помещается с огромным запасом. Скорость: NVFP4 дал 43.2 токена/с, FP8 — 22.6 токена/с. Perplexity выросла с 4.87 до 4.92. Ранее на малой Qwen 3.5-27B квантование до 8 бит давало прирост 40% — здесь на 4-битном формате прирост 90%. Очевидно: для моделей размером 300B+ NVFP4 — единственный способ получить приемлемую скорость без тензорного параллелизма.

Внимание: B300 поддерживает NVFP4 только для матричных умножений типа GEMM. Внедрение этого формата в llama.cpp потребовало переработки загрузчика и поддержки нового GGUF-контейнера. Наш гайд по настройке llama.cpp с NVFP4 поможет быстро запустить такие модели.

MiniMax M2.5: маленький, но удаленький

MiniMax M2.5 — модель на 456B параметров (да-да, она оказалась больше Qwen). Ранее мы тестировали M2.7 в GGUF, но M2.5 — это предшественник, который всё ещё популярен. В FP8 модель заняла 170.2 ГБ — VRAM почти под завязку, а скорость — 15.8 токена/с (сказывается большой overhead из-за отсутствия MoE). В NVFP4 — 85.1 ГБ, скорость 38.9 токена/с. Perplexity: с 3.62 до 3.66. Важно: для MiniMax формат NVFP4 даёт не только прирост скорости, но и возможность запустить модель на одном GPU без шардинга. Если бы мы тестировали на B200 с 144 ГБ, в FP8 модель бы просто не влезла.

Таблица: глазами не оторвать

Модель	Формат	VRAM (ГБ)	Токенов/с	Perplexity
DeepSeek (671B)	FP8	56.8	34.1	5.21
DeepSeek (671B)	NVFP4	41.2	78.4	5.24
Qwen 3.5 397B	FP8	148.7	22.6	4.87
Qwen 3.5 397B	NVFP4	74.3	43.2	4.92
MiniMax M2.5 (456B)	FP8	170.2	15.8	3.62
MiniMax M2.5 (456B)	NVFP4	85.1	38.9	3.66

NVFP4 vs FP8: качество или скорость?

Главный вопрос: стоит ли овчинка выделки? Наши тесты показывают: прирост perplexity при переходе с FP8 на NVFP4 составляет 0.03–0.05 пункта — на слух или глаз это незаметно. Мы уже видели, что MXFP4 может побеждать Q4_K_M даже на старом железе вроде Tesla P40 — здесь аналогичная история. Формат с плавающей точкой (NVFP4) оказался стабильнее целочисленных квантований, особенно для больших моделей. Да, на B300 можно гонять и FP8, но если вам важна скорость отклика (чат-боты, real-time), NVFP4 — безальтернативный выбор. Мы подготовили инструкцию, как запустить llama.cpp с NVFP4 на Blackwell — там важна версия CUDA и драйвера.

Кому это надо (и сколько стоит)

B300 — не игрушка. Если вы собираете кластер для инференса больших моделей, HGX-8 на B300 окупается скоростью и плотностью. Один такой узел заменяет 4–6 серверов на предыдущих поколениях. Для энтузиастов — сборка из семи карт на AM5 или бюджетные GPU остаются разумной альтернативой. Но для Qwen 397B или MiniMax M2.5 вы просто не получите 40+ токенов/с на одной карте без NVFP4. DGX Spark с его аномалиями INT4 рядом не стоял.

Прогноз: к концу 2026 NVFP4 станет стандартом для инференса моделей от 100B параметров. B300 — первый шаг, но конкуренты (AMD, Intel) тоже готовят свои 4-битные форматы. Если у вас есть бюджет и потребность в скорости — берите B300 сейчас. Если нет — присмотритесь к B200 с его 144 ГБ HBM3e: он тоже поддерживает NVFP4, хоть и медленнее (на 30–40%).

Подписаться на канал

Тестирование NVIDIA HGX B300: бенчмарки DeepSeek, Qwen и MiniMax в форматах NVFP4 и FP8