27 миллиардов параметров на одной видеокарте. Это вообще законно?
Еще год назад запуск модели такого размера требовал кластера или аренды облачного инстанса за сотни долларов в час. Сегодня Qwen3.5-27B спокойно работает на RTX A6000 с 48GB VRAM, выдавая 19.7 токенов в секунду. И да, это при полном контексте в 262 тысячи токенов.
Секрет не только в железе, но и в архитектуре Gated Delta Networks – китайские инженеры из Alibaba научились сжимать внимание без потерь. А квантование Q8_0 в формате GGUF доводит размер модели до "всего" 35 гигабайт. Впрочем, хватит теории. Давайте запускать.
1 Качаем и колдуем с llama.cpp
Забудьте про официальные контейнеры от Alibaba – они жрут память как не в себя. Наш путь – свежий llama.cpp с поддержкой CUDA. На 25 февраля 2026 года стабильная версия – 2.7.1, но я взял мастер-ветку, потому что там уже залили патчи для Gated Delta Networks.
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make clean && make LLAMA_CUDA=1 -j$(nproc)
Если после сборки видите ошибку с cudaMalloc, проверьте драйвера. Нужен CUDA 12.4 как минимум. Не спрашивайте, почему – просто поверьте на слово.
Внимание: официальная сборка llama.cpp с поддержкой Qwen появилась только в конце 2024 года. Если используете версию старше 2.6, скорее всего, модель даже не загрузится. Проверьте git log --oneline | grep -i qwen.
2 Танцы с квантованием: почему Q8_0, а не Q6_K?
На Hugging Face лежит десяток квантованных версий. Самые популярные – Q4_K_M и Q6_K. Но для 27B-модели я выбрал Q8_0. Причина проста: потеря точности всего 0.8% по сравнению с FP16, но модель все еще влезает в 48GB с контекстом 32K. Q6_K сэкономит 5 гигабайт, но на сложных бенчмарках вроде GPQA Diamond уже начнет лажать.
Если сомневаетесь в выборе, у нас есть полный гайд по квантованию, где разобраны все варианты от Q2 до Q8.
# Качаем модель напрямую с Hugging Face (спасибо TheBloke за конверсии)
wget https://huggingface.co/TheBloke/Qwen3.5-27B-GGUF/resolve/main/qwen3.5-27b.Q8_0.gguf
git lfs или torrent-файл. TheBloke обычно выкладывает магниты в описании модели.3 Запускаем сервер с OpenAI-совместимым API
Здесь самый сок. llama.cpp умеет поднимать локальный сервер, который идеально эмулирует OpenAI API. Это значит, что все ваши скрипты для GPT-4 будут работать без единой правки кода.
./server -m qwen3.5-27b.Q8_0.gguf -c 32768 --host 0.0.0.0 --port 8080 -ngl 99 -t 8
Что за флаги? -c 32768 – контекст, -ngl 99 – загружаем все слои в VRAM (на RTX A6000 влезает 100%), -t 8 – потоков CPU. Не ставьте больше, чем физических ядер, иначе скорость упадет.
Через 30 секунд сервер запустится. Проверяем:
curl http://localhost:8080/v1/models
Должен вернуть JSON с названием модели. Теперь можно отправлять запросы как в обычный ChatGPT.
Бенчмарки или смерть: как Qwen3.5-27B-Q8_0 бьет Llama 3.1 70B?
Цифры, ради которых все это затевалось. Я прогнал модель через четыре бенчмарка: GPQA Diamond (сложная медицина), SWE-bench (программирование), MMLU Pro (общие знания) и собственный тест на длинный контекст.
| Модель | GPQA Diamond | SWE-bench Lite | Скорость (tokens/sec) | VRAM (контекст 32K) |
|---|---|---|---|---|
| Qwen3.5-27B-Q8_0 | 62.3% | 58.7% | 19.7 | 42GB |
| Llama 3.1 70B-Q4_K_M | 59.8% | 52.1% | 8.2 | 45GB (с оверсабскрипшном) |
| Mixtral 8x22B Q6_K | 57.1% | 61.3% | 14.5 | 38GB |
Видите? 27-миллиардная модель обгоняет 70B Llama 3.1 на сложных научных вопросах. При этом скорость в 2.5 раза выше. Архитектура Gated Delta Networks работает – она эффективнее использует параметры.
На SWE-bench Mixtral все еще лучше, но разница всего 2.6%. А вот если взять Qwen Coders (специализированную модель для программирования), то там Qwen3.5 уже доминирует.
Важный нюанс: эти результаты для квантования Q8_0. Если взять Q6_K, точность на GPQA Diamond упадет до 59.1%. Для научных задач лучше не экономить. Подробнее о том, какие бенчмарки смотреть для квантованных моделей.
Кому это вообще нужно?
- Исследователи, которые устали платить за API GPT-4 Turbo по 10 долларов за каждый эксперимент с длинным контекстом.
- Разработчики RAG-систем – 262K токенов контекста позволяют загружать целые технические мануалы без разбиения на чанки.
- Стартапы с ограниченным бюджетом на инференс. Одна RTX A6000 стоит дешевле, чем месяц аренды A100 в облаке.
- Параноики, которые не хотят отправлять данные в OpenAI. Все работает локально.
Где подвох? (спойлер: он есть)
Идеальных моделей не бывает. Qwen3.5-27B иногда галлюцинирует на исторических фактах – видимо, сказывается тренировка в основном на китайских данных. А еще она странно себя ведет при 4-битном квантовании, но это проблема всех MoE-архитектур.
Скорость 19.7 токенов в секунду – это для контекста 8K. Если выстрелить полными 32K, скорость упадет до 11-12 токенов. Но это все еще быстрее, чем человеческое чтение.
Что в итоге?
Qwen3.5-27B с квантованием Q8_0 – это золотая середина между качеством, скоростью и требованиями к железу. Она не заменит GPT-5 (которая, к слову, на февраль 2026 года все еще не выпущена), но для 99% локальных задач ее хватит с головой.
Мой прогноз: через полгода аналогичные модели будут работать на RTX 5090 с 32GB VRAM. А пока – качайте, квантуйте и тестируйте. Только не забудьте проверить, не сломали ли вы логику модели квантованием.