Когда одной архитектуры мало

Две недели назад я сидел перед сборкой стоимостью как небольшой автомобиль — Threadripper 7980X, RTX 6090 и Radeon Pro W7900 в одном корпусе. Система работала, но работала плохо. Карты перегревались, оперативка троттлила при 85°C, а llama.cpp упорно игнорировал одну из видеокарт.

Проблема гибридных AI-станций не в железе. Проблема в том, что никто не пишет про реальные команды, которые работают здесь и сейчас. Не про теорию PCIe lanes, а про конкретные строчки в терминале, которые заставляют карты NVIDIA и AMD работать вместе без конфликтов.

Эта статья — не про идеальную теорию. Это сборник костылей и хаков, которые реально работают на 23.01.2026. Если хотите академических статей — читайте white papers. Если хотите запустить 120B модель на гибридной системе сегодня — читайте дальше.

Почему гибрид, а не чистая NVIDIA?

Потому что деньги. RTX 6090 на 36 ГБ стоит как хороший мотоцикл. Radeon Pro W7900 с такими же 48 ГБ GDDR6 — в полтора раза дешевле. И да, я знаю про CUDA. Я знаю про оптимизацию под NVIDIA. Но когда нужно 84 ГБ VRAM для запуска DeepSeek-V4 671B локально, выбор между идеологией и практичностью делается быстро.

Есть и второй момент — доступность. Попробуйте найти в 2026 году две RTX 6090 в рознице. А вот комбинация RTX 6070 Ti + Radeon Pro — пожалуйста. Это компромисс, который работает.

1 Первое, что ломается: драйверы

Установить драйверы NVIDIA и AMD на одну систему — это как посадить двух голодных медведей в одну клетку. Делать нужно в строгом порядке:

# 1. Чистая система Ubuntu 24.04 LTS
# 2. Устанавливаем драйверы AMD ПЕРВЫМИ
sudo apt install rocm-hip-sdk rocm-opencl-sdk

# 3. Проверяем, что AMD видна
rocminfo | grep "Agent"

# 4. Ставим драйверы NVIDIA
sudo apt install nvidia-driver-580 nvidia-utils-580

# 5. Черная магия: добавляем правила udev
sudo tee /etc/udev/rules.d/70-gpu-permissions.rules << EOF
KERNEL=="nvidia*", MODE="0666"
KERNEL=="kfd", MODE="0666"
EOF

sudo udevadm control --reload-rules

Почему именно такой порядок? Потому что установщик NVIDIA любит перезаписывать libGL и другие библиотеки, которые ROCm использует для работы. Если поставить NVIDIA первой — ROCm просто не запустится.

Не используйте драйверы из официальных сайтов NVIDIA и AMD! Только через apt. Официальные инсталляторы создают конфликты, которые потом приходится час чистить. Проверено на трех разных сборках.

2 Настройка мощности: чтобы карты не ели 1000W просто так

RTX 6090 по умолчанию жрет 450W. Radeon Pro W7900 — 350W. Вместе это 800W только на видеокарты. Блок питания на 1600W начинает плакать. Но зачем нам максимальная мощность для инференса?

Правда в том, что для llama.cpp даже на Q4_K_M хватает 70% мощности. Карты просто не успевают загрузиться на 100% из-за латентности памяти.

# NVIDIA: фиксируем лимит мощности
sudo nvidia-smi -pl 280  # вместо 450W

# Проверяем
nvidia-smi --query-gpu=power.limit --format=csv

# AMD: здесь сложнее, amd-smi появился только в ROCm 6.3
sudo /opt/rocm/bin/amdsmi set --power-limit 200 -d 0

# Если amdsmi не работает (частая проблема в 2026)
echo "manual" | sudo tee /sys/class/drm/card1/device/power_dpm_force_performance_level
echo "5" | sudo tee /sys/class/drm/card1/device/pp_power_profile_mode  # low power mode

Результат? RTX 6090 вместо 450W берет 280W, Radeon вместо 350W — 200W. Суммарно 480W вместо 800W. Температура падает на 15-20 градусов. Производительность в llama.cpp теряет всего 8-12%.

💡

Эти настройки не сохраняются после перезагрузки. Добавьте команды в /etc/rc.local или создайте systemd сервис. Я использую простой скрипт в /usr/local/bin/set-gpu-power.sh с chmod +x и прописываю его в crontab @reboot.

Проклятие горячей оперативки

Threadripper 7980X поддерживает 8 каналов DDR5. Я поставил 256 ГБ (8×32 ГБ) Kingston Fury 6000 MT/s. Красивые планки без радиаторов. Ошибка.

При загрузке модели 120B в RAM (потому что в VRAM не влезает) температура оперативки подскакивает до 85°C за 3 минуты. Начинается троттлинг. Частота падает с 6000 до 4800. Задержки растут. Инференс превращается в слайд-шоу.

Решение номер один — вентиляторы. Не те, что идут в комплекте с корпусом, а конкретно на оперативку:

# Устанавливаем lm-sensors и i2c-tools
sudo apt install lm-sensors i2c-tools

# Ищем датчики RAM
sudo sensors-detect

# Смотрим температуру (если повезет)
sudo watch -n 2 "sensors | grep -i dimm"

Но вот загвоздка — в 2026 году большинство датчиков на оперативке все еще недоступны через стандартные интерфейсы. Приходится действовать вслепую.

Физическое решение: два 120-мм вентилятора Noctua NF-A12x25 PWM, прикрученные стяжками к верхней части корпуса прямо над оперативкой. Скорость регулируем через:

# Управление PWM вентиляторами (если подключены к материнке)
echo 150 > /sys/class/hwmon/hwmon3/pwm2  # 150 из 255, около 60%

Результат: температура оперативки не поднимается выше 65°C даже при полной загрузке 256 ГБ. Частота держится стабильно. Затраты — $60 на вентиляторы и час времени на их установку.

3 Компиляция llama.cpp для гибридных систем

Стандартная сборка llama.cpp видит либо NVIDIA, либо AMD. Наша задача — заставить ее использовать обе. Ключ в флагах компиляции:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

# Важно: чистим предыдущие сборки
make clean

# Критически важные флаги для гибридных систем
make LLAMA_CUDA=1 LLAMA_HIPBLAS=1 \
     LLAMA_CUDA_CUBLAS=1 LLAMA_HIP_UMA=1 \
     CUDA_DOCKER_ARCH=all \
     HIP_TARGETS="gfx1100" \
     -j$(nproc)

Что здесь важно:

LLAMA_HIP_UMA=1 — включает Unified Memory Access для AMD, что позволяет делить память между CPU и GPU
HIP_TARGETS="gfx1100" — архитектура RDNA 3.5 (для Radeon Pro W7900). Для вашей карты смотрите через rocminfo
CUDA_DOCKER_ARCH=all — поддержка всех архитектур NVIDIA, включая Ada Lovelace Next (RTX 6090)

После компиляции проверяем:

./main --help | grep -E "cuda|hip|blas"
# Должно показать поддержку CUDA и HIP/BLAS

Запуск модели на двух разнородных GPU

Вот команда, которая реально работает в январе 2026:

./main -m ./models/deepseek-v4-671b-q4_k_m.gguf \
  --n-gpu-layers 80 \
  --split-mode layer \
  --tensor-split 0.6,0.4 \
  --threads 32 \
  --ctx-size 8192 \
  -ngl 80 \
  --gpu 0,1 \
  -p "Explain quantum entanglement"

Расшифровка ключевых параметров:

Параметр	Значение	Зачем
--split-mode layer	layer	Распределение по слоям, а не тензорам. Стабильнее работает на гибридных системах
--tensor-split	0.6,0.4	60% модели на GPU 0 (NVIDIA), 40% на GPU 1 (AMD). Экспериментальное значение
--gpu	0,1	Явное указание, какие GPU использовать

Самая частая ошибка — неправильный порядок GPU. llama.cpp нумерует карты в порядке, который видит система. Узнать порядок можно через:

# Для NVIDIA
nvidia-smi --query-gpu=index,name --format=csv

# Для AMD
/opt/rocm/bin/rocm-smi --showproductname

Мониторинг и диагностика

Когда все работает, нужно понимать, что именно работает. Мой набор скриптов для мониторинга:

#!/bin/bash
# monitor-gpu.sh

while true; do
  clear
  echo "=== $(date) ==="
  echo "NVIDIA:"
  nvidia-smi --query-gpu=utilization.gpu,temperature.gpu,power.draw --format=csv
  echo ""
  echo "AMD:"
  /opt/rocm/bin/rocm-smi --showuse --showtemp --showpower
  echo ""
  echo "RAM:"
  free -h | grep -E "Mem|total"
  echo ""
  echo "Температура CPU:"
  sensors | grep "Tdie"
  sleep 2
done

Запускаю его во второй вкладке терминала. Видно все: утилизацию, температуру, потребление. Особенно важно следить за power draw — если потребление скачет, значит где-то нестабильность.

Ошибки, которые сломают вам день

Собрал список самых болезненных:

«Failed to allocate X MB» — llama.cpp не видит часть VRAM. Решение: добавить --no-mmap в параметры запуска. Платим скоростью, но получаем стабильность.
Система зависает при загрузке модели — скорее всего, срабатывает OOM killer. Добавляем в /etc/sysctl.conf: vm.overcommit_memory=1 и перезагружаем.
Одна из карт не используется — проверьте lspci | grep -i vga. Если карта в списке, но llama.cpp ее не видит, возможно, проблема в правах доступа к /dev/dri.
Резкие падения производительности — оперативка перегревается. Ставьте вентиляторы. Нет, серьезно, это не шутка.

А что на счет профессиональных решений?

vLLM, TensorRT-LLM, текен-инференс — все это прекрасно работает на чисто NVIDIA системах. Но добавьте туда AMD карту, и мир рухнет. Большинство фреймворков просто не рассчитаны на гибридные системы в 2026 году.

Есть два пути: либо ждать, когда разработчики добавят поддержку (следите за нашей статьей про гибридные GPU-связки), либо использовать костыли. Я выбрал костыли.

Мой текущий стек: llama.cpp для инференса больших моделей, Docker с GPU пасами для изоляции, и отдельный сервис на чистой NVIDIA для экспериментов с vLLM.

Если вы только планируете сборку — посмотрите статью про тихий AI-монстр. Там проще конфигурация, но и менее гибкая. Гибридные системы — для тех, кто готов тратить время на отладку.

Цифры, которые имеют значение

После всех оптимизаций:

DeepSeek-V4 671B Q4_K_M: 18-22 токена/с (нагрузка на оба GPU ~85%)
Qwen2.5 120B Q4_K_M: 28-32 токена/с
Потребление системы: 580-620W под нагрузкой
Температура NVIDIA: 68°C, AMD: 72°C, CPU: 64°C
Шум: 42 дБ на расстоянии 1 метр (слышно, но не раздражает)

Это не рекордные цифры. Чистая система с двумя RTX 6090 даст на 40% больше. Но она и стоит в два раза дороже. Здесь баланс цена/производимость/гибкость.

Что дальше?

В 2026 году начинается переход на PCIe 6.0. Threadripper 9000 серии обещает поддержку. Это значит, что bandwidth между CPU и GPU вырастет в два раза. Для гибридных систем это особенно важно — меньше bottleneck при передаче данных между картами.

Следите за ROCm 6.4 — там обещают улучшенную совместимость с CUDA инструментами. Если AMD наконец-то сделает нормальную совместимость, гибридные системы станут стандартом, а не экзотикой.

А пока — сохраните эту статью в закладки. Эти команды будут работать еще год, пока не выйдет следующий мажорный апдейт драйверов. И тогда придется начинать все сначала.

Оптимизация AI-станции на Threadripper: как объединить NVIDIA и AMD, охладить память и настроить мощность