Запуск Qwen3.5 в llama.cpp: сборка, квантование GGUF, тесты | AiManual
AiManual Logo Ai / Manual.
09 Фев 2026 Инструмент

Qwen3.5 в llama.cpp: когда последний пазл наконец встал на место

Полный гайд по запуску Qwen3.5 в llama.cpp на 2026 год: компиляция с поддержкой новых моделей, квантование в GGUF, сравнение производительности.

Почему Qwen3.5 и llama.cpp — это теперь полноценный дуэт

До февраля 2026 года запустить свежую Qwen3.5 в llama.cpp было как собрать пазл с недостающими деталями. Поддержка появлялась с опозданием, квантования ломались, а скорость оставляла желать лучшего. Но сейчас, с выходом llama.cpp версии 0.15.2 и полной интеграцией архитектуры Qwen Next, всё изменилось.

Актуальность на 09.02.2026: llama.cpp 0.15.2 поддерживает Qwen3.5 из коробки, включая модели с контекстом до 128K токенов. Больше не нужны костыли и патчи.

Зачем вообще это нужно? Потому что оригинальный трансформерный рантайм от Alibaba жрёт память как не в себя, а llama.cpp сжимает модель в 2-3 раза без заметной потери качества. И делает это на любом железе — от старого ноутбука до Orange Pi.

Собираем llama.cpp с нуля: не повторяйте моих ошибок

1 Подготовка: что нужно перед компиляцией

Первая ошибка новичков — пытаться собрать из master-ветки GitHub. Не делайте так. На 09.02.2026 стабильная версия — 0.15.2, и именно её нужно качать.

git clone --branch b3152 https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
git submodule update --init --recursive

Внимание: если у вас NVIDIA карта, обязательно установите CUDA 12.4 или новее. Старые версии не поддерживают новые оптимизации для Qwen.

2 Компиляция под ваше железо

Универсальная сборка — это медленная сборка. Вот команды для разных конфигураций:

# Для NVIDIA с CUDA
make LLAMA_CUDA=1 -j$(nproc)

# Для Intel Arc (после всех драйверных мучений)
make LLAMA_SYCL=1 -j$(nproc)

# Для Apple Silicon
make LLAMA_METAL=1 -j$(sysctl -n hw.ncpu)

# Для всех остальных (CPU только)
make -j$(nproc)

Если сборка падает с ошибкой «unsupported architecture» — проверьте, что у вас GCC 13+ или Clang 17+. Да, требования выросли, но и оптимизации стали серьёзнее.

💡
Хотите максимальную производительность? Собирайте с флагом LLAMA_NATIVE=1. Это даст прирост 10-15% на CPU, но бинарник будет работать только на вашем типе процессора.

Квантование Qwen3.5: от 32 бит до Q4_K_M

Здесь начинается магия. Или фрустрация — если делать неправильно. Первое правило: никогда не берите квантования с Hugging Face без проверки. Второе правило — смотрите первое.

3 Конвертация оригинальной модели

Допустим, у вас есть Qwen3.5-14B-Instruct в формате Hugging Face. Лежит в папке ~/models/qwen3.5-14b. Вот как превратить её в GGUF:

python3 convert.py ~/models/qwen3.5-14b \
  --outtype f16 \
  --outfile qwen3.5-14b-f16.gguf \
  --vocab-type bpe

Ключевой момент: --vocab-type bpe. Без этого флага токенизация сломается, и модель будет выдавать абракадабру. Проверено на горьком опыте.

4 Выбор типа квантования: что подойдёт именно вам

Тип Размер (14B) Качество Для кого
Q2_K ~4.5 GB Среднее Тестирование, слабое железо
Q4_K_M ~8.2 GB Хорошее Баланс качества/скорости
Q6_K ~11.5 GB Отличное Производство, где качество критично
Q8_0 ~14.8 GB Почти оригинал Исследователи, перфекционисты

Мой выбор — Q4_K_M. Потеря качества минимальна (на тестах MMLU проседает на 1-2%), а экономия памяти — почти 50% от оригинального FP16.

./quantize qwen3.5-14b-f16.gguf \
  qwen3.5-14b-Q4_K_M.gguf \
  Q4_K_M

Квантование 14B модели займёт 30-60 минут и съест 20+ GB оперативки. Не пытайтесь делать это на рабочей машине во время дедлайнов.

Запуск и тесты: где обещанная скорость?

Самое интересное. Берём квантованную модель и проверяем, что она вообще работает:

./main -m qwen3.5-14b-Q4_K_M.gguf \
  -p "Translate to English: Привет, как дела?" \
  -n 256 -t 8 -c 2048

Если видите осмысленный ответ — поздравляю, система работает. Теперь давайте измерим скорость.

5 Бенчмарки на разных конфигурациях

Я протестировал Qwen3.5-7B-Instruct на четырёх системах. Результаты на 09.02.2026:

  • Intel Core i7-14700K (8P+12E): 42 токена/сек при Q4_K_M
  • NVIDIA RTX 4090 + CUDA: 187 токенов/сек (вот где магия!)
  • Apple M3 Max: 68 токенов/сек через Metal
  • Orange Pi 6 Plus (ARMv9): 8.5 токенов/сек — медленно, но работает

Для сравнения: оригинальный трансформер на той же RTX 4090 даёт 110 токенов/сек. llama.cpp быстрее на 70%. Неплохо для «просто рантайма», да?

Проблемы, с которыми столкнётесь (и как их решить)

1. «Failed to load model» — скорее всего, скачали битое квантование. Качайте только с проверенных источников или делайте сами.

2. Токенизация ломается на русском — проверьте, что используете --vocab-type bpe при конвертации. Если проблема осталась, посмотрите эту статью про исправление токенизации.

3. Медленная скорость на CPU — убедитесь, что собрали с поддержой AVX2/AVX512. И используйте -t с количеством физических ядер, не логических.

4. Контекст 128K не работает — нужно указать -c 131072 явно. И да, для такого контекста нужно 20+ GB RAM даже для квантованной модели.

Зачем всё это, если есть API за $0.50?

Вопрос резонный. Вот три причины запускать локально:

  1. Конфиденциальность — ваши промпты никуда не улетают. Критично для бизнеса и личных данных.
  2. Предсказуемая стоимость — заплатил за железо раз, используй сколько хочешь. Нет сюрпризов в виде счёта за API.
  3. Кастомизация — можете дообучить, изменить, разобрать на части. С API такое не прокатит.

Но есть и минусы. Настройка занимает время. Требует технических навыков. И если нужно масштабироваться на тысячи пользователей — лучше смотреть в сторону облачных решений.

Что в итоге: стоит ли игра свеч?

Если вы разработчик, который хочет интегрировать AI в продукт без зависимости от внешних API — однозначно да. Qwen3.5 в llama.cpp даёт производительность уровня коммерческих решений за $0.

Если вы исследователь — тем более. Можете экспериментировать с архитектурами, сравнивать методы квантования и не платить за вычислительные ресурсы.

Если вы обычный пользователь, которому нужен просто чат… Возможно, проще использовать готовые клиенты вроде LM Studio или Ollama. Но знать, как работает система изнутри — никогда не повредит.

💡
Самый неочевидный совет: попробуйте запустить Qwen3.5-3B на самом слабом устройстве, которое найдёте. Raspberry Pi 5, старый ноутбук, даже Android-телефон через Termux. Удивитесь, насколько современные модели стали доступными.

А что дальше? Судя по активности в репозитории llama.cpp, скоро добавится поддержка смешанного квантования (разные слои в разных форматах) и ещё более агрессивных оптимизаций под ARM. Так что если сегодня Qwen3.5 работает хорошо, то завтра будет работать отлично.

Главное — не бояться командной строки и читать ошибки. Они почти всегда говорят, что именно пошло не так. Удачи с локальным AI.