Ваш RTX 4090 задыхается от больших моделей? AdaLLM - кислородная маска
Вы купили RTX 4090, скачали свежую Qwen3.1 72B и... уперлись в потолок видеопамяти. Знакомый сценарий? Стандартные методы квантования спасают, но крадут скорость. AdaLLM - форк vLLM, который делает почти невозможное: запускает модели с квантованием NVFP4, FP8 KV-кэшем и кастомным ядром декодирования на Triton. И все это на вашей карте Ada Lovelace уже сегодня, без ожидания Blackwell.
Важно: на 15.02.2026 AdaLLM стабильно работает с моделями семейств Qwen3.1, Gemma3, Llama 3.2 и другими, поддерживающими трансформаторную архитектуру. Поддержка Mistral-NeMo и других новинок добавляется по мере выхода.
NVFP4 и FP8 KV-кэш: где здесь магия?
NVFP4 - это новый формат 4-битного квантования от Nvidia, который хранит веса в виде блочных плавающих точек. Если в статье про NVFP4 против INT4 мы говорили о теоретическом ускорении, то AdaLLM превращает теорию в практику для карт Ada Lovelace. Ключевой трюк - полный пайплайн в FP8 без fallback на FP16.
Но самое жирное - FP8 KV-кэш. В длинных контекстах ключи и значения съедают гигабайты. Переход с FP16 на FP8 удваивает эффективную длину контекста. На практике это значит, что Qwen3.1 32B с контекстом 32K помещается в 16 ГБ VRAM, оставляя место для ваших агентов.
Кастомное ядро Triton: decode stage на стероидах
Стандартный vLLM хорош, но его ядро декодирования не заточено под специфику NVFP4. Разработчики AdaLLM переписали его на Triton, выжав из RTX 4090 еще 15-20% скорости в режиме token generation. Звучит как мелочь? При генерации 1000 токенов вы экономите минуты.
1 Установка: от чистого питона до работающего сервера
Забудьте про многочасовые танцы с компиляцией. AdaLLM требует CUDA 12.4 и Python 3.10+. Если у вас уже стоит vLLM, придется удалить его (конфликты гарантированы).
git clone https://github.com/adallm-project/adallm
cd adallm
pip install -e . --no-deps # важно: флаг --no-deps, зависимости ставятся отдельно
pip install torch==2.4.0 triton==3.1.0 flash-attn==2.6.0
Triton 3.1.0 обязателен. Версия 2.x не поддерживает новые оптимизации для Ada Lovelace. Если видите ошибки компиляции ядра - первым делом проверяйте это.
2 Запуск модели с NVFP4 и FP8 KV-кэшем
Модель нужно заранее сконвертировать в NVFP4. Авторы репозитория предоставляют скрипты для Qwen3.1 и Gemma3. Для других моделей придется немного попотеть (но к 2026 году сообщество уже наплодило конвертеров под все популярные архитектуры).
python -m adallm.serve \
--model Qwen/Qwen3.1-32B-Instruct-NVFP4 \
--quantization nvfp4 \
--kv-cache-dtype fp8 \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.95
Флаг --kv-cache-dtype fp8 включает главную фишку. Память под KV-кэш выделяется сразу в FP8. Если модель не поддерживает NVFP4, сервер просто не запустится - никаких тихих деградаций в FP16.
А что с альтернативами? Бенчмарки на реальном железе
Сравнивать будем с тремя конкурентами: обычный vLLM в FP16, llama.cpp с квантованием Q4_K_M и TensorRT-LLM 2.0. Тестовая стенка: RTX 4090, процессор Ryzen 9 7950X, 64 ГБ DDR5. Модель - Qwen3.1 32B Instruct, контекст 4096 токенов, генерация 512 токенов.
| Система | Скорость (токенов/с) | Память VRAM | Поддержка длинного контекста |
|---|---|---|---|
| vLLM (FP16) | 42 | 24.5 ГБ | Очень плохая |
| llama.cpp (Q4_K_M) | 38 | 18.2 ГБ | Средняя |
| TensorRT-LLM 2.0 | 55 | 22.1 ГБ | Хорошая |
| AdaLLM (NVFP4 + FP8 KV) | 61 | 15.8 ГБ | Отличная |
Цифры говорят сами за себя. AdaLLM быстрее всех и при этом экономит память. Но есть нюанс: качество. NVFP4 - квантование агрессивное. Perplexity на WikiText-2 у Qwen3.1 32B вырастает с 4.21 (FP16) до 4.89 (NVFP4). Для чата разница почти незаметна, для задач, требующих точности чисел - уже чувствительно.
Кому AdaLLM подойдет, а кому нет
Это инструмент для конкретной аудитории. Идеальный пользователь:
- Владелец RTX 4090 (или 4080 Super), который хочет запускать модели от 20B до 70B параметров с длинным контекстом.
- Разработчик AI-агентов, где важна скорость ответа и возможность держать в памяти много контекста.
- Исследователь, экспериментирующий с новыми форматами квантования перед переходом на Blackwell.
Не тратьте время на AdaLLM, если:
- У вас карта Ampere (RTX 3090) или старше. Аппаратного FP8 там нет, и все превратится в медленную software-эмуляцию. Лучше соберите связку из двух RTX 3090 через NVLink.
- Вам критична точность модели в задачах логического вывода или математики. Используйте FP16 или более консервативные форматы.
- Вы хотите готовое решение из коробки без возни с конвертацией моделей. TensorRT-LLM проще в развертывании.
Сборка системы вокруг AdaLLM: что еще нужно
Одна карта RTX 4090 - это хорошо. Но для моделей 70B+ даже NVFP4 не спасет. Подумайте о второй карте. И здесь начинается боль: NVLink на Ada Lovelace не работает. Придется использовать Tensor Parallelism через PCIe. В этом случае оптимизация AI-станции на Threadripper становится вашей настольной книгой.
Память системы - 64 ГБ DDR5 это минимум. Модели загружаются в VRAM, но вспомогательные процессы и кэширование требуют места. Если бюджет позволяет, посмотрите в сторону новых карт RTX 5080 с их улучшенной компрессией памяти, но на 15.02.2026 AdaLLM под них еще не адаптирован.
AdaLLM - это мост между эпохой Ada Lovelace и Blackwell. Он позволяет получить преимущества нового формата квантования уже сегодня, пусть и с некоторыми компромиссами. Если вы готовы к тонкой настройке и хотите выжать из своего железа максимум - это ваш выбор. Если же вы ждете одной кнопки "сделать быстро", лучше подождите официальной интеграции NVFP4 в Hugging Face TGI. Но ждать, как всегда, придется долго.
И последнее: не верьте слепо бенчмаркам из интернета. Скачайте репозиторий, запустите свою модель на своих данных. Только так вы поймете, стоит ли игра свеч. Удачи в экспериментах!