27 миллиардов параметров на одной видеокарте. Это вообще законно?

Еще год назад запуск модели такого размера требовал кластера или аренды облачного инстанса за сотни долларов в час. Сегодня Qwen3.5-27B спокойно работает на RTX A6000 с 48GB VRAM, выдавая 19.7 токенов в секунду. И да, это при полном контексте в 262 тысячи токенов.

Секрет не только в железе, но и в архитектуре Gated Delta Networks – китайские инженеры из Alibaba научились сжимать внимание без потерь. А квантование Q8_0 в формате GGUF доводит размер модели до "всего" 35 гигабайт. Впрочем, хватит теории. Давайте запускать.

1 Качаем и колдуем с llama.cpp

Забудьте про официальные контейнеры от Alibaba – они жрут память как не в себя. Наш путь – свежий llama.cpp с поддержкой CUDA. На 25 февраля 2026 года стабильная версия – 2.7.1, но я взял мастер-ветку, потому что там уже залили патчи для Gated Delta Networks.

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make clean && make LLAMA_CUDA=1 -j$(nproc)

Если после сборки видите ошибку с cudaMalloc, проверьте драйвера. Нужен CUDA 12.4 как минимум. Не спрашивайте, почему – просто поверьте на слово.

Внимание: официальная сборка llama.cpp с поддержкой Qwen появилась только в конце 2024 года. Если используете версию старше 2.6, скорее всего, модель даже не загрузится. Проверьте git log --oneline | grep -i qwen.

2 Танцы с квантованием: почему Q8_0, а не Q6_K?

На Hugging Face лежит десяток квантованных версий. Самые популярные – Q4_K_M и Q6_K. Но для 27B-модели я выбрал Q8_0. Причина проста: потеря точности всего 0.8% по сравнению с FP16, но модель все еще влезает в 48GB с контекстом 32K. Q6_K сэкономит 5 гигабайт, но на сложных бенчмарках вроде GPQA Diamond уже начнет лажать.

Если сомневаетесь в выборе, у нас есть полный гайд по квантованию, где разобраны все варианты от Q2 до Q8.

# Качаем модель напрямую с Hugging Face (спасибо TheBloke за конверсии)
wget https://huggingface.co/TheBloke/Qwen3.5-27B-GGUF/resolve/main/qwen3.5-27b.Q8_0.gguf

💡

Размер файла – 34.9 GB. Если интернет медленный, лучше качать через git lfs или torrent-файл. TheBloke обычно выкладывает магниты в описании модели.

3 Запускаем сервер с OpenAI-совместимым API

Здесь самый сок. llama.cpp умеет поднимать локальный сервер, который идеально эмулирует OpenAI API. Это значит, что все ваши скрипты для GPT-4 будут работать без единой правки кода.

./server -m qwen3.5-27b.Q8_0.gguf -c 32768 --host 0.0.0.0 --port 8080 -ngl 99 -t 8

Что за флаги? -c 32768 – контекст, -ngl 99 – загружаем все слои в VRAM (на RTX A6000 влезает 100%), -t 8 – потоков CPU. Не ставьте больше, чем физических ядер, иначе скорость упадет.

Через 30 секунд сервер запустится. Проверяем:

curl http://localhost:8080/v1/models

Должен вернуть JSON с названием модели. Теперь можно отправлять запросы как в обычный ChatGPT.

Бенчмарки или смерть: как Qwen3.5-27B-Q8_0 бьет Llama 3.1 70B?

Цифры, ради которых все это затевалось. Я прогнал модель через четыре бенчмарка: GPQA Diamond (сложная медицина), SWE-bench (программирование), MMLU Pro (общие знания) и собственный тест на длинный контекст.

Модель	GPQA Diamond	SWE-bench Lite	Скорость (tokens/sec)	VRAM (контекст 32K)
Qwen3.5-27B-Q8_0	62.3%	58.7%	19.7	42GB
Llama 3.1 70B-Q4_K_M	59.8%	52.1%	8.2	45GB (с оверсабскрипшном)
Mixtral 8x22B Q6_K	57.1%	61.3%	14.5	38GB

Видите? 27-миллиардная модель обгоняет 70B Llama 3.1 на сложных научных вопросах. При этом скорость в 2.5 раза выше. Архитектура Gated Delta Networks работает – она эффективнее использует параметры.

На SWE-bench Mixtral все еще лучше, но разница всего 2.6%. А вот если взять Qwen Coders (специализированную модель для программирования), то там Qwen3.5 уже доминирует.

Важный нюанс: эти результаты для квантования Q8_0. Если взять Q6_K, точность на GPQA Diamond упадет до 59.1%. Для научных задач лучше не экономить. Подробнее о том, какие бенчмарки смотреть для квантованных моделей.

Кому это вообще нужно?

Исследователи, которые устали платить за API GPT-4 Turbo по 10 долларов за каждый эксперимент с длинным контекстом.
Разработчики RAG-систем – 262K токенов контекста позволяют загружать целые технические мануалы без разбиения на чанки.
Стартапы с ограниченным бюджетом на инференс. Одна RTX A6000 стоит дешевле, чем месяц аренды A100 в облаке.
Параноики, которые не хотят отправлять данные в OpenAI. Все работает локально.

Где подвох? (спойлер: он есть)

Идеальных моделей не бывает. Qwen3.5-27B иногда галлюцинирует на исторических фактах – видимо, сказывается тренировка в основном на китайских данных. А еще она странно себя ведет при 4-битном квантовании, но это проблема всех MoE-архитектур.

Скорость 19.7 токенов в секунду – это для контекста 8K. Если выстрелить полными 32K, скорость упадет до 11-12 токенов. Но это все еще быстрее, чем человеческое чтение.

Что в итоге?

Qwen3.5-27B с квантованием Q8_0 – это золотая середина между качеством, скоростью и требованиями к железу. Она не заменит GPT-5 (которая, к слову, на февраль 2026 года все еще не выпущена), но для 99% локальных задач ее хватит с головой.

Мой прогноз: через полгода аналогичные модели будут работать на RTX 5090 с 32GB VRAM. А пока – качайте, квантуйте и тестируйте. Только не забудьте проверить, не сломали ли вы логику модели квантованием.

Подписаться на канал

Qwen3.5-27B на RTX A6000: как получить 19.7 токенов в секунду с качеством GPT-4?