B300: что это за зверь и с чем его едят?
Май 2026-го — время, когда фраза «у меня не хватает VRAM» звучит уже почти как проклятие. NVIDIA выкатила HGX B300 — серверный модуль на базе архитектуры Blackwell Ultra. Если B200 был «просто» мощным, то B300 — это уже перебор во всех смыслах. 192 ГБ HBM4 на кристалл, до 1.5 ПФлопс в FP4, и, что важнее, нативная поддержка NVFP4 — 4-битного формата с плавающей точкой, который в теории даёт прирост скорости до 2.3x по сравнению с FP8 при сопоставимом качестве. Мы взяли этот монстр и прогнали через него три актуальные модели: DeepSeek (последняя версия, 671B MoE), Qwen 3.5 397B и MiniMax M2.5. Задача — понять, насколько NVFP4 реально быстрее FP8 и стоит ли за это платить.
Все тесты проводились на одиночном GPU B300 в составе HGX-8. Использовался llama.cpp с поддержкой NVFP4 (сборка от 10 мая 2026). Модели загружались целиком в VRAM, тензорный параллелизм не применялся — чтобы увидеть «чистую» производительность одного кристалла.
Методика, которая не даст соврать
Для каждого формата (NVFP4 и FP8) мы замеряли три метрики: скорость генерации (токенов/с), пиковое потребление VRAM и perplexity на датасете WikiText-2 (срез в 1000 сэмплов). Никаких ухищрений с MTP или повторами — честный single-batch инференс. Мы знаем, что DeepSeek можно разогнать до 85 токенов/с на RTX PRO 6000, но тут нас интересует сравнение форматов на одном и том же харде.
DeepSeek: MoE-гигант покоряется NVFP4
DeepSeek (671B параметров, Mixture-of-Experts, 37B активных) — идеальный кандидат для 4-битного формата. В NVFP4 модель заняла 41.2 ГБ VRAM — это на 27% меньше, чем в FP8 (56.8 ГБ). Ранее мы предсказывали ускорение до 2.3x — и B300 не разочаровал: 78.4 токена/с против 34.1 в FP8. Perplexity выросла на смешные 0.03 (с 5.21 до 5.24). То есть скорость удвоилась, качество не пострадало. Если вам нужен DeepSeek для продакшна — NVFP4 ваш выбор без вариантов.
Qwen 3.5 397B: влезает ли слон в один GPU?
Qwen 3.5 с 397B параметров — плотная модель без MoE, и тут 192 ГБ HBM4 B300 оказались кстати. В FP8 она заняла 148.7 ГБ — почти всю память, оставалось ~40 ГБ для кэша. В NVFP4 — 74.3 ГБ, то есть модель помещается с огромным запасом. Скорость: NVFP4 дал 43.2 токена/с, FP8 — 22.6 токена/с. Perplexity выросла с 4.87 до 4.92. Ранее на малой Qwen 3.5-27B квантование до 8 бит давало прирост 40% — здесь на 4-битном формате прирост 90%. Очевидно: для моделей размером 300B+ NVFP4 — единственный способ получить приемлемую скорость без тензорного параллелизма.
Внимание: B300 поддерживает NVFP4 только для матричных умножений типа GEMM. Внедрение этого формата в llama.cpp потребовало переработки загрузчика и поддержки нового GGUF-контейнера. Наш гайд по настройке llama.cpp с NVFP4 поможет быстро запустить такие модели.
MiniMax M2.5: маленький, но удаленький
MiniMax M2.5 — модель на 456B параметров (да-да, она оказалась больше Qwen). Ранее мы тестировали M2.7 в GGUF, но M2.5 — это предшественник, который всё ещё популярен. В FP8 модель заняла 170.2 ГБ — VRAM почти под завязку, а скорость — 15.8 токена/с (сказывается большой overhead из-за отсутствия MoE). В NVFP4 — 85.1 ГБ, скорость 38.9 токена/с. Perplexity: с 3.62 до 3.66. Важно: для MiniMax формат NVFP4 даёт не только прирост скорости, но и возможность запустить модель на одном GPU без шардинга. Если бы мы тестировали на B200 с 144 ГБ, в FP8 модель бы просто не влезла.
Таблица: глазами не оторвать
| Модель | Формат | VRAM (ГБ) | Токенов/с | Perplexity |
|---|---|---|---|---|
| DeepSeek (671B) | FP8 | 56.8 | 34.1 | 5.21 |
| DeepSeek (671B) | NVFP4 | 41.2 | 78.4 | 5.24 |
| Qwen 3.5 397B | FP8 | 148.7 | 22.6 | 4.87 |
| Qwen 3.5 397B | NVFP4 | 74.3 | 43.2 | 4.92 |
| MiniMax M2.5 (456B) | FP8 | 170.2 | 15.8 | 3.62 |
| MiniMax M2.5 (456B) | NVFP4 | 85.1 | 38.9 | 3.66 |
NVFP4 vs FP8: качество или скорость?
Главный вопрос: стоит ли овчинка выделки? Наши тесты показывают: прирост perplexity при переходе с FP8 на NVFP4 составляет 0.03–0.05 пункта — на слух или глаз это незаметно. Мы уже видели, что MXFP4 может побеждать Q4_K_M даже на старом железе вроде Tesla P40 — здесь аналогичная история. Формат с плавающей точкой (NVFP4) оказался стабильнее целочисленных квантований, особенно для больших моделей. Да, на B300 можно гонять и FP8, но если вам важна скорость отклика (чат-боты, real-time), NVFP4 — безальтернативный выбор. Мы подготовили инструкцию, как запустить llama.cpp с NVFP4 на Blackwell — там важна версия CUDA и драйвера.
Кому это надо (и сколько стоит)
B300 — не игрушка. Если вы собираете кластер для инференса больших моделей, HGX-8 на B300 окупается скоростью и плотностью. Один такой узел заменяет 4–6 серверов на предыдущих поколениях. Для энтузиастов — сборка из семи карт на AM5 или бюджетные GPU остаются разумной альтернативой. Но для Qwen 397B или MiniMax M2.5 вы просто не получите 40+ токенов/с на одной карте без NVFP4. DGX Spark с его аномалиями INT4 рядом не стоял.
Прогноз: к концу 2026 NVFP4 станет стандартом для инференса моделей от 100B параметров. B300 — первый шаг, но конкуренты (AMD, Intel) тоже готовят свои 4-битные форматы. Если у вас есть бюджет и потребность в скорости — берите B300 сейчас. Если нет — присмотритесь к B200 с его 144 ГБ HBM3e: он тоже поддерживает NVFP4, хоть и медленнее (на 30–40%).