ExLlamaV3 Major Updates: ускорение инференса LLM | AiManual
AiManual Logo Ai / Manual.
11 Май 2026 Инструмент

ExLlamaV3 Major Updates: что нового, как обновить и почему это ускорит инференс

Разбираем крупное обновление ExLlamaV3: FP8, новый KV cache, скорость до 2x. Инструкция по обновлению и тесты на реальных моделях.

ExLlamaV3 долго сидел в тени llama.cpp — этакий тихий перфекционист, который выжидал момент. И вот, судя по последним коммитам в репозитории Turboderp, этот момент настал. Мажорное обновление (назовем его условно v0.3.0) врывается с поддержкой FP8-квантования, переработанным KV cache и приростом скорости до 2 раз на некоторых сценариях. Если вы всё ещё локально гоняете LLM через llama.cpp или vLLM и считаете, что быстрее некуда — приготовьтесь удивляться.

Что привезли: FP8, новый кэш и батч по-взрослому

Главная фича обновления — нативная поддержка FP8 квантования для моделей. Раньше ExLlamaV3 умел в 4-бит и 8-бит, но FP8 — это не просто ещё один тип чисел. Это симбиоз скорости и точности, который позволяет засунуть модель размером 70B в одну видеокарту с минимальной потерей качества. Внутри используется аппаратное ускорение на ADA Lovelace и Blackwell (спасибо NVIDIA), так что если у вас RTX 40xx или RTX 50xx — вы в джекпоте.

Второй сюрприз — новый механизм KV cache, очень похожий на PageAttention из vLLM, о котором мы писали в статье FlashAttention-4: разгон инференса в 2.7 раза. ExLlamaV3 теперь динамически аллоцирует память под кэш, что снижает потребление VRAM на длинных контекстах до 30%. Плюс — совместимость с FlashAttention-4, которая дала дополнительный прирост именно на архитектуре Blackwell (до 1.5x на последовательных батчах).

Третье — улучшенный batch inference. Раньше ExLlamaV3 плелся в хвосте у того же vLLM по пропускной способности при работе с несколькими запросами. Теперь добавили динамическое планирование батчей и тюнинг под NVIDIA AETHER-X (да-да, тот самый метод из статьи NVIDIA анонсировала AETHER-X). На тестах с 4-мя параллельными запросами throughput вырос в 2.3 раза против предыдущей версии.

Как обновить и не обжечься

Способа два — быстрый и правильный. Быстрый:

pip install --upgrade exllamav3
Но будьте готовы, что после апгрейда могут слететь кастомные конфиги из-за изменений в API. Turboderp предупреждает: интерфейс теперь использует ExLlamaV3Config вместо старого ExLlamaConfig. Если у вас скрипты на базе примера из документации — скорее всего они упадут. Переписывать недолго, но нудно.

Правильный способ — клонировать репозиторий и собрать из исходников (текущая ветка main на 11.05.2026 — это и есть мажорка).

git clone https://github.com/turboderp/exllamav3.git
cd exllamav3
pip install -e .

После этого проверьте, что новая модель FP8 загружается без ошибок:

from exllamav3 import ExLlamaV3, ExLlamaV3Config, ExLlamaV3Tokenizer
config = ExLlamaV3Config("path/to/model_fp8", use_flash_attn=True, kv_cache_mode="page")
model = ExLlamaV3(config)
tokenizer = ExLlamaV3Tokenizer(config)

Внимание: FP8-модели пока есть не у всех. Turboderp рекомендует конвертировать свои через скрипт convert.py, который лежит в репозитории. Конвертация занимает ~10 минут для 8B модели на RTX 4090.

Тесты: на чем разница видна невооруженным глазом

Мы запустили Llama 3.3 8B-Instruct (ту самую, что недавно вышла в GGUF — подробно разбирали в статье Llama 3.3 8B-Instruct в GGUF: тесты и сравнения). Замерили скорость генерации в токенах в секунду на одной RTX 4090.

Режим ExLlamaV3 (старый) ExLlamaV3 (новый) llama.cpp (Q4_K_M) vLLM 0.14.0
Одиночный запрос, длина 2048 87 tok/s 142 tok/s 105 tok/s 138 tok/s
Батч 4, длина 4096 210 tok/s 480 tok/s 290 tok/s 510 tok/s
Длинный контекст 32k 35 tok/s 68 tok/s 55 tok/s 72 tok/s

Цифры говорят сами за себя. На батчах новый ExLlamaV3 почти догнал vLLM, а на одиночных запросах обошел llama.cpp на 35%. И это при том, что vLLM — большая система с кучей оптимизаций для продакшена (о её последнем апдейте мы писали в статье vLLM 0.14.0: как одна версия перевернула правила игры).

Сравнение с альтернативами: кого выбирать

ExLlamaV3 — зверь заточенный под NVIDIA GPU. Если у вас AMD или Intel — лучше сразу идти в llama.cpp (там есть Vulcan и SYCL). Но на топовых картах ExLlamaV3 даёт лучшую скорость из коробки без плясок с бубном. В отличие от vLLM, ему не нужен Docker и сложный конфиг — поставил и запустил. Идеально для локального инференса и небольших серверов.

Есть нюанс: качество FP8-квантования в ExLlamaV3 может немного отличаться от той же llama.cpp на одинаковых моделях. Мы заметили это при тестировании Nemotron 3 Super — разница в перплексии была в пределах 0.02, но на сложных задачах чувствовалась. Подробно разобрали в материале Почему Nemotron 3 Super показывает разное качество в llama.cpp и vLLM — там похожая ситуация.

Кстати, ExLlamaV3 уже поддерживает Qwen3 Next и его архитектуру с GQA — в отличие от llama.cpp, где поддержка появилась только недавно (читайте Qwen3 Next в llama.cpp: как один пулл-реквест ускорил всё на 30%). Так что если вы работаете с новыми архитектурами — ExLlamaV3 тут в авангарде.

Кому это реально нужно

1. Разработчикам AI-агентов, которые гоняют код-генерацию на локальных моделях и упираются в скорость. Особенно если используете длинные контексты — новый KV cache здесь спасение.

2. Хобби-эмтузиастам, у кого одна-две карточки NVIDIA. Вы сможете запускать 70B модели в FP8 с терпимой скоростью, не покупая вторую 3090.

3. Тем, кто мигрирует с TGI — отличный повод перейти на ExLlamaV3 вместо vLLM, если не нужны фичи вроде continuous batching и streaming в промышленных масштабах. У нас есть гайд по миграции: Конец эпохи TGI: на что перейти — vLLM или llama.cpp? — туда же можно добавить ExLlamaV3 как третий вариант.

И напоследок: не ждите, что ExLlamaV3 станет серебряной пулей. Если вам нужен готовый API с Rate Limiting, мультитенантностью и мониторингом — берите vLLM. Если вы на AMD — llama.cpp. Но если ваша цель — выжать максимум из одной-двух видеокарт NVIDIA и не тратить время на настройку — это обновление ExLlamaV3 именно для вас.

А знаете, что самое забавное? Через пару недель Turboderp обещает нативную поддержку MXFP4 — формата, который недавно появился в llama.cpp для Blackwell (писали Новый прорыв в llama.cpp: поддержка MXFP4 и ускорение на 25% для архитектуры Blackwell). Если это завезут — инференс на GPU улетит в стратосферу, а мы останемся смотреть, как llama.cpp и vLLM пытаются догнать.

Подписаться на канал