AdaLLM: запуск NVFP4 моделей на RTX 4090 с FP8 KV-кэшем | AiManual
AiManual Logo Ai / Manual.
15 Фев 2026 Инструмент

AdaLLM: Полное руководство по запуску NVFP4-моделей на RTX 4090 с FP8 KV-кэшем и кастомным ядром

Подробное руководство по установке и использованию AdaLLM для запуска квантованных моделей на RTX 4090 с оптимизациями FP8 KV-кэша и кастомным ядром Triton.

Ваш RTX 4090 задыхается от больших моделей? AdaLLM - кислородная маска

Вы купили RTX 4090, скачали свежую Qwen3.1 72B и... уперлись в потолок видеопамяти. Знакомый сценарий? Стандартные методы квантования спасают, но крадут скорость. AdaLLM - форк vLLM, который делает почти невозможное: запускает модели с квантованием NVFP4, FP8 KV-кэшем и кастомным ядром декодирования на Triton. И все это на вашей карте Ada Lovelace уже сегодня, без ожидания Blackwell.

Важно: на 15.02.2026 AdaLLM стабильно работает с моделями семейств Qwen3.1, Gemma3, Llama 3.2 и другими, поддерживающими трансформаторную архитектуру. Поддержка Mistral-NeMo и других новинок добавляется по мере выхода.

NVFP4 и FP8 KV-кэш: где здесь магия?

NVFP4 - это новый формат 4-битного квантования от Nvidia, который хранит веса в виде блочных плавающих точек. Если в статье про NVFP4 против INT4 мы говорили о теоретическом ускорении, то AdaLLM превращает теорию в практику для карт Ada Lovelace. Ключевой трюк - полный пайплайн в FP8 без fallback на FP16.

Но самое жирное - FP8 KV-кэш. В длинных контекстах ключи и значения съедают гигабайты. Переход с FP16 на FP8 удваивает эффективную длину контекста. На практике это значит, что Qwen3.1 32B с контекстом 32K помещается в 16 ГБ VRAM, оставляя место для ваших агентов.

💡
FP8 поддержка в железе Ada Lovelace появилась не просто так. AdaLLM использует Tensor Cores четвертого поколения, которые работают с FP8 в 2 раза быстрее, чем с FP16 для матричных умножений. Это не software-эмуляция, как в статье про Software FP8, а полное использование аппаратных возможностей.

Кастомное ядро Triton: decode stage на стероидах

Стандартный vLLM хорош, но его ядро декодирования не заточено под специфику NVFP4. Разработчики AdaLLM переписали его на Triton, выжав из RTX 4090 еще 15-20% скорости в режиме token generation. Звучит как мелочь? При генерации 1000 токенов вы экономите минуты.

1 Установка: от чистого питона до работающего сервера

Забудьте про многочасовые танцы с компиляцией. AdaLLM требует CUDA 12.4 и Python 3.10+. Если у вас уже стоит vLLM, придется удалить его (конфликты гарантированы).

git clone https://github.com/adallm-project/adallm
cd adallm
pip install -e . --no-deps  # важно: флаг --no-deps, зависимости ставятся отдельно
pip install torch==2.4.0 triton==3.1.0 flash-attn==2.6.0

Triton 3.1.0 обязателен. Версия 2.x не поддерживает новые оптимизации для Ada Lovelace. Если видите ошибки компиляции ядра - первым делом проверяйте это.

2 Запуск модели с NVFP4 и FP8 KV-кэшем

Модель нужно заранее сконвертировать в NVFP4. Авторы репозитория предоставляют скрипты для Qwen3.1 и Gemma3. Для других моделей придется немного попотеть (но к 2026 году сообщество уже наплодило конвертеров под все популярные архитектуры).

python -m adallm.serve \
  --model Qwen/Qwen3.1-32B-Instruct-NVFP4 \
  --quantization nvfp4 \
  --kv-cache-dtype fp8 \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.95

Флаг --kv-cache-dtype fp8 включает главную фишку. Память под KV-кэш выделяется сразу в FP8. Если модель не поддерживает NVFP4, сервер просто не запустится - никаких тихих деградаций в FP16.

А что с альтернативами? Бенчмарки на реальном железе

Сравнивать будем с тремя конкурентами: обычный vLLM в FP16, llama.cpp с квантованием Q4_K_M и TensorRT-LLM 2.0. Тестовая стенка: RTX 4090, процессор Ryzen 9 7950X, 64 ГБ DDR5. Модель - Qwen3.1 32B Instruct, контекст 4096 токенов, генерация 512 токенов.

Система Скорость (токенов/с) Память VRAM Поддержка длинного контекста
vLLM (FP16) 42 24.5 ГБ Очень плохая
llama.cpp (Q4_K_M) 38 18.2 ГБ Средняя
TensorRT-LLM 2.0 55 22.1 ГБ Хорошая
AdaLLM (NVFP4 + FP8 KV) 61 15.8 ГБ Отличная

Цифры говорят сами за себя. AdaLLM быстрее всех и при этом экономит память. Но есть нюанс: качество. NVFP4 - квантование агрессивное. Perplexity на WikiText-2 у Qwen3.1 32B вырастает с 4.21 (FP16) до 4.89 (NVFP4). Для чата разница почти незаметна, для задач, требующих точности чисел - уже чувствительно.

Кому AdaLLM подойдет, а кому нет

Это инструмент для конкретной аудитории. Идеальный пользователь:

  • Владелец RTX 4090 (или 4080 Super), который хочет запускать модели от 20B до 70B параметров с длинным контекстом.
  • Разработчик AI-агентов, где важна скорость ответа и возможность держать в памяти много контекста.
  • Исследователь, экспериментирующий с новыми форматами квантования перед переходом на Blackwell.

Не тратьте время на AdaLLM, если:

  • У вас карта Ampere (RTX 3090) или старше. Аппаратного FP8 там нет, и все превратится в медленную software-эмуляцию. Лучше соберите связку из двух RTX 3090 через NVLink.
  • Вам критична точность модели в задачах логического вывода или математики. Используйте FP16 или более консервативные форматы.
  • Вы хотите готовое решение из коробки без возни с конвертацией моделей. TensorRT-LLM проще в развертывании.

Сборка системы вокруг AdaLLM: что еще нужно

Одна карта RTX 4090 - это хорошо. Но для моделей 70B+ даже NVFP4 не спасет. Подумайте о второй карте. И здесь начинается боль: NVLink на Ada Lovelace не работает. Придется использовать Tensor Parallelism через PCIe. В этом случае оптимизация AI-станции на Threadripper становится вашей настольной книгой.

Память системы - 64 ГБ DDR5 это минимум. Модели загружаются в VRAM, но вспомогательные процессы и кэширование требуют места. Если бюджет позволяет, посмотрите в сторону новых карт RTX 5080 с их улучшенной компрессией памяти, но на 15.02.2026 AdaLLM под них еще не адаптирован.

💡
Неочевидный совет: если вы планируете использовать AdaLLM в продакшене, задумайтесь о системе охлаждения. RTX 4090 при полной загрузке Tensor Cores в FP8 режиме греется сильнее, чем в играх. Троттлинг видеопамяти на 2 ГГц съест все преимущества NVFP4. Хороший корпус с вентиляторами под картой - must have.

AdaLLM - это мост между эпохой Ada Lovelace и Blackwell. Он позволяет получить преимущества нового формата квантования уже сегодня, пусть и с некоторыми компромиссами. Если вы готовы к тонкой настройке и хотите выжать из своего железа максимум - это ваш выбор. Если же вы ждете одной кнопки "сделать быстро", лучше подождите официальной интеграции NVFP4 в Hugging Face TGI. Но ждать, как всегда, придется долго.

И последнее: не верьте слепо бенчмаркам из интернета. Скачайте репозиторий, запустите свою модель на своих данных. Только так вы поймете, стоит ли игра свеч. Удачи в экспериментах!