vLLM для Qwen 3.5 27B: рекорд 1.1M токен/с на NVIDIA B200

1.1 миллиона токенов в секунду. Серьезно?

Да. Цифра не из фантастического романа, а результат холодной инженерной работы. На кластере из восьми NVIDIA B200, Qwen 3.5 27B выдает текст со скоростью, которая еще пару лет назад казалась невозможной для модели такого размера. Секрет? Не магия, а правильная настройка vLLM 0.4.9 и несколько трюков, о которых молчат в официальной документации.

Важно: все данные актуальны на март 2026 года. Если вы читаете это позже, проверьте, не вышла ли новая архитектура Blackwell Ultra или vLLM 0.5.0 с еще более агрессивной оптимизацией.

1Железо, которое не стыдно показать

Основа - восемь NVIDIA B200, связанных через NVLink 5.0. Не PCIe, не InfiniBand, а именно NVLink. Каждая карта - это 1.8 терафлопс в FP8 и 192 ГБ HBM3e памяти. Вместе это дает достаточно памяти, чтобы уместить модель и ее кэш, и достаточно пропускной способности, чтобы не бутылировать вычисления.

Если у вас нет такого монстра под столом, не отчаивайтесь. Принципы те же, что и для бюджетных кластеров на разном железе. Просто цифры будут скромнее.

Магия vLLM: не просто запустить, а разогнать

vLLM перестал быть просто быстрым сервером для моделей. С версии 0.4.9 это конструктор для сборки инференс-движка под конкретное железо. Ключевые параметры нашей конфигурации:

Tensor Parallelism (TP)=8: Модель разрезается на 8 частей по тензорам. Каждая часть живет на своем GPU. Для B200 с их пропускной способностью это оптимально.
Pipeline Parallelism (PP)=1: Мы не используем конвейерный параллелизм. Он добавляет задержку, а нам нужна максимальная пропускная способность, не latency.
Data Parallelism (DP)=8: Восемь независимых потоков запросов обрабатываются параллельно. Это та самая настройка, которая и выжимает 1.1M токен/с.

💡

Зачем DP=8, если TP=8? Потому что один запрос использует все 8 GPU для вычислений (TP). А DP позволяет обрабатывать 8 таких запросов одновременно, полностью загружая кластер. Это как восемь команд, работающих на одном конвейере.

Секретный соус: FP8 и MTP-1

Здесь начинается инженерная магия. Два фича, без которых рекорд невозможен.

Кэш ключей-значений в FP8. vLLM теперь умеет хранить кэш внимания в формате FP8, экономя до 50% памяти. Для Qwen 3.5 27B с контекстом в 128k токенов это гигантская экономия. Включается флагом --kv-cache-dtype fp8. Качество почти не страдает, а скорость растет за счет более эффективного использования памяти HBM.

Спекулятивный декодинг MTP-1 (Multi-Token Prediction). Это не та же технология, что в официальном MTP от OpenAI. В vLLM 0.4.9 реализована своя версия, которая предсказывает несколько токенов за один проход для определенных частей модели. Включается через --speculative-model mtp-1. На практике дает прирост до 40% на длинных последовательностях.

Внимание: MTP-1 в vLLM все еще экспериментальная фича. На коротких промптах (менее 100 токенов) она может даже замедлить работу из-за накладных расходов. Используйте для генерации длинных текстов или пакетной обработки документов.

А что если без оптимизаций? Сравниваем

Цифры говорят сами за себя. Запуск той же модели на том же железе, но с настройками по умолчанию (FP16 кэш, без MTP, DP=1) дает около 250к токен/с. В четыре раза медленнее.

Конфигурация	Скорость (токен/с)	Потребление памяти на GPU
Базовая (FP16, без MTP)	~250 000	~145 ГБ/нода
Оптимизированная (FP8, MTP-1)	~1 100 000	~85 ГБ/нода

Разница не только в скорости, но и в памяти. FP8 кэш позволяет обрабатывать более длинные контексты или запускать больше параллельных запросов. Для корпоративных сценариев, где каждый сэкономленный гигабайт памяти - это реальные деньги, это критично.

Где это взорвет мозг: примеры использования

Такая скорость открывает двери для сценариев, которые раньше были теоретическими.

Мгновенная генерация длинных документов. Технические спецификации на 50 страниц, контракты, отчеты - все это генерируется за секунды, а не минуты.
Потоковая обработка видео-транскриптов. Модель успевает не только расшифровать аудио в реальном времени, но и анализировать, суммировать, переводить - все сразу.
Массовая персонализация контента. Рекламные тексты, email-рассылки, рекомендации для миллионов пользователей. Пропускная способность позволяет обслуживать целые платформы.

Это уже не просто чат-бот. Это промышленный конвейер по производству текста.

Кому это нужно? (Подсказка: не всем)

Если вы экспериментируете с моделями дома, даже на мощной станции за $15k, эти настройки избыточны. Вы не сможете раскрыть потенциал DP=8 на одной или двух картах.

А вот если вы:

Провайдер AI-сервисов с высокой нагрузкой.
Исследовательская лаборатория, тестирующая модели в продакшн-условиях.
Крупная компания, развертывающая локальную LLM-инфраструктуру для тысяч сотрудников.

Тогда да, это ваш путь. Конфигурационные файлы для такого запуска уже выложены в открытый доступ на GitHub (ищите по тегам vLLM и B200). Просто скопировать и запустить не выйдет - придется подгонять под свою сеть и систему хранения. Но игра стоит свеч.

И последнее. Не гонитесь за рекордами ради рекордов. 1.1M токен/с - это круто, но если вашим пользователям нужен ответ за 100 мс, а не 100 000 токенов в секунду, возможно, стоит оптимизировать другую метрику. Скорость - это инструмент, а не цель.

Подписаться на канал

Конфигурация vLLM для Qwen 3.5 27B: как добиться 1.1M токен/с на кластере с B200