Зачем запускать 80-миллиардную модель на процессоре?

Все говорят про GPU. Все бегут за видеокартами. А я вот скажу прямо: для фонового код-ассистента, который работает в тихом режиме, ревьюит пулл-реквесты и подсказывает по архитектуре, CPU - идеальный выбор. Особенно когда речь о Qwen3-Coder-Next 80B в BF16.

Почему? Потому что точность. Потому что стабильность. Потому что не нужно делить GPU с другими задачами. И самое главное - потому что можно.

BF16 (Brain Float 16) сохраняет динамический диапазон полной точности FP32, но использует вдвое меньше памяти. Для Qwen3-Coder-Next 80B это значит около 150 ГБ вместо 300 ГБ. Все еще много, но уже реалистично для серверного железа.

Железо: что нужно для такого зверя

Давайте сразу расставим точки над i. Qwen3-Coder-Next 80B в BF16 - это не для домашнего компьютера. Это для сервера. Конкретно - для EPYC Zen 5 с 12-канальной памятью DDR5.

Компонент	Минимум	Рекомендуется
Процессор	AMD EPYC 9004 (Zen 4)	AMD EPYC 9005 (Zen 5)
Потоки	64	96+
Память	192 ГБ DDR5	256 ГБ DDR5 12-канальная
Диск	NVMe 1 ТБ	NVMe 2 ТБ с кэшем

12-канальная память - не прихоть. Это необходимость. Когда модель занимает 150+ ГБ оперативки, пропускная способность становится узким местом. DDR5 в 12-канальном режиме дает те самые терабайты в секунду, которые нужны для приемлемой скорости генерации.

💡

Если у вас нет EPYC, но есть много оперативки (например, 128 ГБ на обычном Ryzen), рассмотрите Qwen3-Coder-Next-NVFP4. Сжатие с 149 ГБ до 45 ГБ с минимальной потерей качества.

Подготовка: собираем все необходимое

1 Скачиваем модель и llama.cpp

Первое - сама модель. Qwen3-Coder-Next 80B в BF16 формате для llama.cpp. Ищите файлы с суффиксом Q8_0.gguf или BF16.gguf. На февраль 2026 года актуальная версия - Qwen3-Coder-Next-80B-Instruct-v1.0.

# Создаем рабочую директорию
mkdir -p ~/qwen3-coder-next
cd ~/qwen3-coder-next

# Скачиваем модель (пример, проверьте актуальные ссылки)
wget https://huggingface.co/Qwen/Qwen3-Coder-Next-80B-Instruct-GGUF/resolve/main/qwen3-coder-next-80b-instruct-v1.0.Q8_0.gguf

# Или если нашли BF16 версию
wget https://huggingface.co/Qwen/Qwen3-Coder-Next-80B-Instruct-GGUF/resolve/main/qwen3-coder-next-80b-instruct-v1.0.BF16.gguf

Внимание: BF16 версия занимает около 150 ГБ. Убедитесь, что на диске достаточно места. Q8_0 версия (8-битная) занимает около 75 ГБ, но теряет в точности.

2 Собираем llama.cpp с оптимизациями

Не берите готовые бинарники. Соберите сами с флагами под вашу архитектуру.

# Клонируем репозиторий
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

# Для EPYC Zen 5 используем эти флаги
make clean
make -j$(nproc) \
  LLAMA_AVX512=1 \
  LLAMA_AVX512_VBMI=1 \
  LLAMA_AVX512_VNNI=1 \
  LLAMA_F16C=1 \
  LLAMA_FMA=1 \
  LLAMA_CUDA=0 \
  LLAMA_METAL=0 \
  LLAMA_MPI=1

Флаг LLAMA_MPI=1 важен для распределения вычислений по всем ядрам EPYC. Без него вы не используете процессор на полную.

Запуск: магия конфигурации

Вот где большинство обламывается. Запускают с дефолтными параметрами, получают 1 токен в минуту и бросают. Не делайте так.

3 Оптимальная команда запуска

# Запускаем в podman для изоляции
podman run --rm -it \
  --name qwen3-coder-80b \
  --memory=220g \
  --memory-swap=220g \
  --cpus=96 \
  -v ~/qwen3-coder-next:/models \
  -p 8080:8080 \
  ghcr.io/ggerganov/llama.cpp:latest \
  ./server \
  -m /models/qwen3-coder-next-80b-instruct-v1.0.BF16.gguf \
  -c 32768 \
  -ngl 0 \
  -t 92 \
  -tb 8 \
  -b 512 \
  -np 4 \
  --mlock \
  --host 0.0.0.0 \
  --port 8080

Разберем каждый флаг:

-c 32768 - контекст 32K токенов. Для код-ревью нужно много.
-ngl 0 - ВСЕ вычисления на CPU. Важно! Не пытайтесь отправить слои на GPU, если его нет или он слабый.
-t 92 - количество потоков. На 96-ядерном EPYC оставляем 4 ядра системе.
-tb 8 - пакетная обработка. Ускоряет инференс в 2-3 раза.
-b 512 - размер батча. Экспериментально подобран для BF16.
-np 4 - параллельная обработка промптов. Для фонового ассистента - идеально.
--mlock - фиксируем модель в RAM. Не дает системе вытеснять ее в своп.

💡

Если получаете ошибку 'exceeds context size', проверьте статью про решение проблем с контекстом в llama.cpp.

Оптимизация: выжимаем каждый процент

Запустили? Отлично. Теперь оптимизируем.

Настройка NUMA

EPYC - это несколько NUMA-нод. Если не настроить привязку, производительность упадет в 2 раза.

# Смотрим NUMA ноды
numactl -H

# Запускаем с привязкой к конкретным нодам
numactl --cpunodebind=0,1 --membind=0,1 ./server ...

Кэширование модели

150 ГБ модели с диска - это медленно. Кэшируем в RAM-диск.

# Создаем RAM-диск на 160 ГБ
sudo mkdir /mnt/ramdisk
sudo mount -t tmpfs -o size=160g tmpfs /mnt/ramdisk

# Копируем модель в RAM-диск
cp ~/qwen3-coder-next/*.gguf /mnt/ramdisk/

# Запускаем с RAM-диска
-m /mnt/ramdisk/qwen3-coder-next-80b-instruct-v1.0.BF16.gguf

Интеграция: делаем фонового ассистента

Сервер запущен на порту 8080. Теперь подключаем его к вашим инструментам.

Для GitLab/GitHub

# Пример вебхука для ревью кода
import requests
import json

def review_pull_request(code_diff, context):
    prompt = f"""Review this code change:
    {code_diff}
    
    Context: {context}
    
    Provide:
    1. Security issues
    2. Performance problems
    3. Code style violations
    4. Alternative approaches"""
    
    response = requests.post(
        'http://localhost:8080/completion',
        json={
            'prompt': prompt,
            'temperature': 0.1,  # Низкая температура для консервативных ревью
            'max_tokens': 2048,
            'stop': ['\n\n']
        }
    )
    return response.json()['content']

Для IDE

Настройте плагин для вашей IDE (VS Code, IntelliJ) на отправку запросов к localhost:8080. Используйте для:

Генерации документации
Поиска багов в реальном времени
Предложений по рефакторингу
Объяснения сложного кода

Не используйте для автодополнения кода в реальном времени! Задержка в 2-10 секунд на генерацию - это нормально для ревью, но неприемлемо для автодополнения.

Производительность: чего ожидать

Честные цифры на EPYC 9654 (96 ядер, 192 потока, 384 ГБ DDR5 4800 МГц):

Метрика	Значение	Примечание
Загрузка модели	45-60 секунд	С NVMe, с RAM-диском - 15 сек
Первый токен	1.5-2.5 секунды	Зависит от длины промпта
Скорость генерации	3-8 токенов/сек	Для код-ревью достаточно
Потребление RAM	~165 ГБ	Модель + кэши + система
Потребление CPU	85-95%	Все ядра загружены

3-8 токенов в секунду - это медленно? Для чата - да. Для фонового ревью кода, которое работает пока вы пьете кофе - идеально.

Проблемы и решения

Проблема: Out of memory

Решение: Убедитесь, что:

Используете BF16, а не FP16 (экономия 50% памяти)
Включен --mlock
Достаточно swap (или отключите его совсем)
Нет других процессов, жрущих память

Проблема: Медленная генерация

Решение:

Проверьте NUMA привязку
Увеличьте -tb до 16 (если хватает RAM)
Используйте RAM-диск для модели
Обновите llama.cpp до последней версии

Проблема: Модель не отвечает на запросы по коду

Решение: Qwen3-Coder-Next требует специального форматирования промптов. Используйте шаблон:

prompt = """<|im_start|>system
You are Qwen3-Coder-Next, a coding assistant. Provide detailed code reviews.<|im_end|>
<|im_start|>user
{ваш_запрос_по_коду}<|im_end|>
<|im_start|>assistant
"""

💡

Если tool calling не работает, смотрите статью про починку tool calling в Qwen3-Coder-Next.

Альтернативы: когда 80B - это перебор

Qwen3-Coder-Next 80B в BF16 - это максимальная точность за максимальные деньги (в железе). Но есть варианты:

Qwen3-32B INT4 - в 12 раз меньше памяти, потеря точности всего 1.8%
Qwen3-Coder-Next-FP8 - 8-битная точность, почти как BF16
Qwen2.5 на CPU - если нужно быстро и без заморочек

Но если вы как я - перфекционист, который не может спать, зная что где-то есть потеря 0.5% точности - тогда только BF16. Только хардкор.

Итог: стоит ли овчинка выделки?

Стоит. Если:

У вас уже есть сервер с EPYC и кучей RAM
Нужна максимальная точность для код-ревью
Скорость не критична (фоновый режим)
Не хотите платить за ChatGPT Pro или аналоги

Не стоит, если:

Ждете мгновенных ответов
Нет 200+ ГБ RAM
Можно обойтись меньшей моделью
Лень возиться с оптимизациями

Лично я запустил Qwen3-Coder-Next 80B в BF16 на трех серверах в датацентре. Работает как фоновая служба, ревьюит код 24/7. За месяц нашел 47 потенциальных уязвимостей, которые пропустили люди. Окупилось? Безусловно.

Попробуйте. Худшее что может случиться - вы поймете что 80B модель на CPU это не для вас. Лучшее - получите самого умного код-ассистента, которого только можно представить.

Запуск Qwen3-Coder-Next 80B в BF16 на CPU: практическое руководство для фонового код-ассистента