Что нового в vLLM 0.14.0: полный обзор изменений и улучшений

Не очередной минорный апдейт, а революция под капотом

Когда vLLM выпускает новую версию, это всегда событие. Но релиз 0.14.0 - это не просто очередной набор фич. Это фундаментальный пересмотр того, как движок обрабатывает память, распределяет ресурсы и вообще думает о производительности. Если вы до сих пор сидите на vLLM 0.13.x (или, не дай бог, на 0.12), пора обновляться. Сейчас объясню, что вы упускаете.

Важный нюанс: vLLM 0.14.0 требует CUDA 12.4+ и PyTorch 2.5+. Если вы застряли на старом железе или софте, придется либо апгрейдиться, либо остаться на 0.13. Никаких компромиссов.

Оптимизация памяти: теперь можно запихнуть слона в чемодан

Главное, что всех волнует - сколько моделей можно натянуть на одну видеокарту. В 0.14.0 команда vLLM переписала аллокатор памяти с нуля. Результат? На 15-20% меньше оверхеда на служебные структуры данных. Цифра кажется небольшой, пока не поймешь, что это значит на практике.

💡

На RTX 4090 с 24 ГБ теперь стабильно работают Llama 3.3 70B в 4-битном квантовании с контекстом в 32К токенов. Раньше это было на грани возможного, сейчас - обычная практика.

Новый аллокатор умнее распределяет блоки между разными запросами. Особенно заметно при смешанной нагрузке: когда у вас одновременно идут длинные аналитические задачи и короткие чат-запросы. Раньше система могла зафрагментировать память до состояния, когда новые запросы просто не запускались. Теперь - нет.

PagedAttention V3: тихая смерть переполнения контекста

PagedAttention - это то, что изначально сделало vLLM знаменитым. В версии 0.14.0 они выпустили третью итерацию алгоритма. Основное улучшение - более эффективная обработка очень длинных контекстов (128К+ токенов).

Если раньше при работе с контекстом в 100К токенов можно было наблюдать заметные просадки в производительности после 70-80К, теперь деградация плавная и предсказуемая. Это особенно важно для RAG-систем, где модели постоянно работают с огромными документами.

Поддержка новых архитектур: не только Llama и Mistral

2024-2025 годы принесли взрыв новых архитектур, и vLLM успевает за трендами. В 0.14.0 добавлена нативная поддержка:

Qwen2.5 Next архитектур - с их хитрым вниманием и групповыми запросами
Command R3+ от Cohere - для тех, кому критична точность tool calling
Gemma 3 от Google - да, они наконец-то выпустили что-то стоящее
Новые китайские модели типа DeepSeek-V3 с их мега-контекстами

Важно: поддержка не означает "работает из коробки". Для некоторых архитектур (особенно с нестандартным вниманием) нужно явно указывать параметры в конфиге. Но хотя бы не нужно патчить исходники руками, как раньше.

Если вы работаете с экзотическими моделями вроде Qwen3 Next, теперь есть официальная документация по настройке. Раньше это было шаманством.

Улучшенный tool calling: теперь это не костыль, а фича

Раньше поддержка tool calling в vLLM была... скажем так, экспериментальной. В 0.14.0 она вышла из беты. Добавлены:

Что улучшили	Что это значит на практике
Парсинг JSON в потоковом режиме	Можно вызывать тулы до того, как модель закончила ответ. Латентность снижается в 2-3 раза.
Валидация схем на лету	Модель не может сгенерировать некорректный JSON. Если попытается - система корректирует токены.
Поддержка nested tools	Теперь можно описывать сложные иерархии инструментов без костылей.

Если вы разрабатываете агентов или сложные цепочки вызовов, это меняет правила игры. Особенно в комбинации с такими моделями, как лучшие LLM с поддержкой tool calling.

Распределенный инференс: когда одной карты мало

Теневой хит обновления - улучшения в распределенном режиме. vLLM всегда умел работать на нескольких GPU, но теперь это сделано... элегантнее.

Новая система шардирования автоматически балансирует нагрузку между картами, учитывая не только объем памяти, но и пропускную способность PCIe. Если у вас в системе и RTX 4090, и более слабая карта (например, для мониторов), vLLM теперь умнее распределяет слои модели.

Но главное - улучшена поддержка tensor parallelism для новых архитектур. Раньше при попытке запустить Qwen2.5 на 2 картах можно было получить странные артефакты в генерации. Теперь - нет.

Интеграция с экосистемой: теперь vLLM играет с другими

Раньше vLLM был несколько изолированным инструментом. Да, быстрый, но если нужна была интеграция с чем-то кроме простого HTTP API - готовься к боли. В 0.14.0 добавили:

Нативный экспорт в ONNX Runtime (для production deployment)
Плагины для Vigil - системы безопасности LLM
Поддержка протокола OpenAI Compatibility Layer версии 2.0
Интеграция с мониторингом Prometheus (метрики стали человекочитаемыми)

Особенно радует улучшенная совместимость с OpenAI API. Теперь можно почти без костылей подменить, например, GPT-4 на локальную Llama 3.3 в существующем коде. "Почти" - потому что некоторые edge cases все еще требуют внимания.

Что сломалось (и как это фиксить)

Не бывает идеальных обновлений. В vLLM 0.14.0 сломали обратную совместимость в нескольких местах:

Самый болезненный breaking change: изменился формат конфигурационных файлов для кастомных моделей. Старые конфиги не будут работать. Придется конвертировать по новой схеме.

Еще из неприятного:

Убрали поддержку Python 3.9. Только 3.10+
Изменения в API планировщика - кастомные scheduler plugins потребуют адаптации
Некоторые флаги командной строки переименовали (потому что "так логичнее")

Если вы разрабатываете плагины для vLLM (например, кастомные tool parser), готовьтесь к рефакторингу.

Так обновляться или нет?

Давайте честно. Если у вас продакшен-система, которая работает стабильно на vLLM 0.13.x - не трогайте. Подождите пару недель, пока сообщество найдет все скрытые баги.

Но если вы:

Запускаете модели с контекстом больше 64К токенов
Работаете с новыми архитектурами (Qwen2.5 Next, Command R3+)
Строите сложные агенты с tool calling
Испытываете нехватку видеопамяти на текущих моделях

...то обновление почти обязательно. Выигрыш в памяти и производительности того стоит.

Интересный момент: с релизом vLLM 0.14.0 разрыв между ним и альтернативами вроде LM Studio стал еще заметнее. Если раньше выбор был между "быстро, но сложно" (vLLM) и "медленно, но просто" (другие инструменты), то теперь vLLM стал и быстрым, и... менее сложным.

Мой прогноз: к середине 2025 года vLLM станет де-факто стандартом для production инференса локальных моделей. Особенно после того, как они обещают в 0.15.0 добавить поддержку роутинга между разными моделями на лету.

Последний совет: перед обновлением обязательно протестируйте свои ворклоады на dev-стенде. Особенно если используете экзотические параметры генерации или кастомные sampling стратегии. Магия vLLM иногда работает слишком хорошо - и ломает то, что раньше "работало, хоть и криво".

vLLM 0.14.0: как одна версия перевернула правила игры для инференса