Почему именно 6700XT? Идеальный баланс для локального ИИ

Если вы читали нашу предыдущую статью «Оптимизация llama.cpp под AMD видеокарты: Vulkan vs ROCm», то уже понимаете фундаментальный выбор между двумя технологиями. Сегодня мы сосредоточимся на конкретной карте — AMD Radeon 6700XT — и покажем, как выжать из неё максимум для работы с локальными языковыми моделями.

6700XT — это золотая середина для энтузиастов: 12 ГБ VRAM (достаточно для 7B-13B моделей с контекстом), отличное соотношение цена/производительность и хороший потенциал для разгона. Но главная проблема — неочевидная совместимость с ROCm стеком. В этом гайде мы пройдём путь от прошивки BIOS до полноценной мультимодальной системы с Whisper и OpenWeb UI.

Важно: Разгон 6700XT под ROCm — это не просто увеличение частот. Это комплексная оптимизация всей системы: от подачи питания до настройки ROCm runtime. Мы будем менять не только GPU, но и окружение, в котором он работает.

Проблема: ограничения стоковой 6700XT для LLM-работload

Из коробки 6700XT имеет несколько ограничений для задач машинного обучения:

Потребление питания: Ограничение в 230W не позволяет раскрыть полный потенциал чипа
Троттлинг памяти: GDDR6 на 6700XT часто перегревается при длительных вычислениях
Неоптимальные тайминги: Заводские настройки памяти консервативны
ROCm совместимость: Не все версии ROCm официально поддерживают Navi 22

💡

Если вы собираете бюджетную ферму для LLM, 6700XT может стать отличным выбором. Но потребуется тонкая настройка каждой карты.

Решение: трёхуровневая оптимизация системы

Мы будем действовать на трёх уровнях:

Аппаратный уровень: Модификация BIOS, разгон ядра и памяти
Системный уровень: Настройка ROCm, драйверов и окружения
Прикладной уровень: Оптимизация llama.cpp, OpenWeb UI и связанных компонентов

1 Подготовка: сбор информации о вашей карте

Прежде чем что-либо менять, нужно понять, с чем мы работаем:

# Устанавливаем инструменты для диагностики AMD GPU
sudo apt install radeontop mesa-utils

# Смотрим информацию о GPU
sudo lspci -v | grep -A 10 "VGA"
radeontop

# Проверяем текущие частоты и температуру
cat /sys/class/drm/card0/device/hwmon/hwmon*/temp1_input
cat /sys/class/drm/card0/device/pp_dpm_sclk
cat /sys/class/drm/card0/device/pp_dpm_mclk

Внимание: Модификация BIOS видеокарты может привести к потере гарантии и выходу карты из строя. Все действия вы выполняете на свой страх и риск. Обязательно сделайте резервную копию оригинального BIOS!

2 Шаг 1: Модификация BIOS для увеличения лимита питания

Повышаем лимит питания с 230W до 280W — это даст запас для разгона:

# Устанавливаем необходимые инструменты
sudo apt install python3-pip
pip3 install amdvbflash-py

# Делаем резервную копию оригинального BIOS
sudo amdvbflash -s 0 backup.rom

# Используем Red BIOS Editor для модификации
# 1. Открываем backup.rom в Red BIOS Editor
# 2. В разделе "Power Limits" меняем:
#    - TDP Limit: 230 → 280
#    - Max Power Limit: 230 → 280
# 3. Сохраняем как modified.rom

# Прошиваем модифицированный BIOS
sudo amdvbflash -p 0 modified.rom -f

3 Шаг 2: Установка и настройка ROCm 6.1+

ROCm 6.1+ имеет улучшенную поддержку RDNA2 архитектуры. Устанавливаем последнюю версию:

# Добавляем репозиторий ROCm
wget https://repo.radeon.com/rocm/rocm.gpg.key -O - | \
  sudo gpg --dearmor | sudo tee /usr/share/keyrings/rocm.gpg > /dev/null

echo "deb [arch=amd64 signed-by=/usr/share/keyrings/rocm.gpg] https://repo.radeon.com/rocm/apt/6.1/ ubuntu main" | \
  sudo tee /etc/apt/sources.list.d/rocm.list

# Устанавливаем ROCm
sudo apt update
sudo apt install rocm-hip-sdk rocm-opencl-sdk

# Добавляем пользователя в группу video
sudo usermod -a -G video $USER
sudo usermod -a -G render $USER

# Настраиваем переменные окружения
echo "export HSA_OVERRIDE_GFX_VERSION=10.3.0" >> ~/.bashrc
echo "export HIP_VISIBLE_DEVICES=0" >> ~/.bashrc
echo "export ROCR_VISIBLE_DEVICES=0" >> ~/.bashrc
source ~/.bashrc

# Проверяем установку
rocminfo
clinfo

💡

Если вы планируете использовать LXC-контейнеры на Proxmox, настройку ROCm нужно выполнять внутри контейнера, а не на хосте.

4 Шаг 3: Разгон ядра и памяти через sysfs

Используем sysfs для тонкого контроля частот и напряжений:

# Создаём скрипт для применения настроек разгона
cat > ~/gpu_oc.sh << 'EOF'
#!/bin/bash
# Разблокируем sysfs для OC
echo "1" | sudo tee /sys/class/drm/card0/device/pp_od_clk_voltage

# Устанавливаем частоту ядра: P0=2600MHz, P1=2400MHz, P2=2200MHz
echo "s 0 2600 1000" | sudo tee /sys/class/drm/card0/device/pp_od_clk_voltage
echo "s 1 2400 950" | sudo tee /sys/class/drm/card0/device/pp_od_clk_voltage
echo "s 2 2200 900" | sudo tee /sys/class/drm/card0/device/pp_od_clk_voltage

# Разгон памяти: 2000MHz → 2150MHz (+ эффективная частота 17.2 Gbps)
echo "m 0 2150 950" | sudo tee /sys/class/drm/card0/device/pp_od_clk_voltage
echo "m 1 1000 800" | sudo tee /sys/class/drm/card0/device/pp_od_clk_voltage

# Увеличиваем лимит мощности до 280W (после модификации BIOS)
echo "280000000" | sudo tee /sys/class/drm/card0/device/hwmon/hwmon*/power1_cap

# Применяем настройки
echo "c" | sudo tee /sys/class/drm/card0/device/pp_od_clk_voltage
EOF

chmod +x ~/gpu_oc.sh
sudo ~/gpu_oc.sh

5 Шаг 4: Сборка и оптимизация llama.cpp с ROCm

Собираем llama.cpp с поддержкой ROCm и оптимизациями под 6700XT:

# Клонируем репозиторий с поддержкой ROCm HIP
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

# Собираем с оптимизациями для RDNA2
make LLAMA_HIPBLAS=1 LLAMA_HIP_UMA=1 HIP_DOCKER=0 \
  CC=/opt/rocm/llvm/bin/clang CXX=/opt/rocm/llvm/bin/clang++ \
  -j$(nproc)

# Тестируем производительность с разными настройками
./bin/main -m ./models/llama-2-7b.Q4_K_M.gguf \
  -ngl 99 -c 4096 -b 512 --temp 0.7 \
  -t 8 -n 256 --gpu-layers 99

Настройка	Сток	После разгона	Прирост
Tokens/sec (llama-2-7b)	~18.5	~22.3	+20.5%
VRAM usage (13b @ 4K ctx)	10.2 GB	10.2 GB	0%
Power consumption	~210W	~260W	+23.8%
Temperature (max)	78°C	85°C	+7°C

6 Шаг 5: Установка OpenWeb UI с мультимодальностью

OpenWeb UI превращает вашу LLM в полноценного ассистента с поддержкой изображений и аудио:

# Устанавливаем Docker (если ещё не установлен)
sudo apt install docker.io docker-compose
sudo usermod -aG docker $USER
newgrp docker

# Запускаем OpenWeb UI с поддержкой ROCm
docker run -d \
  --name open-webui \
  -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --device /dev/kfd \
  --device /dev/dri \
  --group-add video \
  --cap-add=SYS_PTRACE \
  --security-opt seccomp=unconfined \
  -e "OLLAMA_BASE_URL=http://host.docker.internal:11434" \
  ghcr.io/open-webui/open-webui:main

# Устанавливаем Ollama с поддержкой ROCm
curl -fsSL https://ollama.com/install.sh | sh

# Настраиваем Ollama для использования ROCm
echo "
HIP_VISIBLE_DEVICES=0 \
OLLAMA_GPU_DEVICE=0 \
ollama serve
" > ~/ollama_rocm.sh

# Запускаем Ollama сервер
bash ~/ollama_rocm.sh &

# Скачиваем и запускаем модель с поддержкой мультимодальности
ollama pull llava:7b
ollama run llava:7b

7 Шаг 6: Интеграция Whisper для распознавания речи

Добавляем голосовой ввод через Whisper.cpp с ROCm ускорением:

# Клонируем и собираем whisper.cpp с ROCm поддержкой
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp

# Собираем с HIP поддержкой
make WHISPER_HIPBLAS=1 -j$(nproc)

# Скачиваем модель Whisper large-v3
./models/download-ggml-model.sh large-v3

# Конвертируем в ggml формат
./quantize models/ggml-large-v3.bin models/ggml-large-v3-q4_0.bin q4_0

# Тестируем распознавание речи с GPU ускорением
./main -m models/ggml-large-v3-q4_0.bin -f audio.wav -l ru -ng 99

Тонкая настройка и оптимизация производительности

После базовой установки переходим к тонкой настройке:

Оптимизация ROCm runtime

# Создаём конфигурационный файл для ROCm
sudo tee /etc/rocprof/env.xml << 'EOF'


  
  
  
  
  
  
  
  
  

EOF

Настройка охлаждения и мониторинга

При разгоне критически важно контролировать температуру:

# Устанавливаем corectrl для управления вентиляторами
sudo apt install corectrl

# Создаём профиль для LLM-работloads
cat > ~/.config/corectrl/profiles/llm.json << 'EOF'
{
  "name": "LLM Mode",
  "gpu": {
    "power_profile": "manual",
    "fan_profile": "aggressive",
    "temp_target": 75,
    "fan_min_speed": 40,
    "fan_max_speed": 100
  },
  "apply_on_startup": true
}
EOF

Возможные проблемы и их решения

Проблема 1: ROCm не видит карту после перезагрузки
Решение: Проверьте, что в ядре загружен модуль amdgpu. Добавьте в /etc/modules-load.d/amdgpu.conf строку "amdgpu".

Проблема 2: Нестабильность при разгоне памяти
Решение: Уменьшите частоту памяти до 2100MHz или ослабьте тайминги. Используйте memtestCL для проверки стабильности.

Проблема 3: Высокая температура VRAM (>90°C)
Решение: Добавьте термопрокладки на память или установите более агрессивную кривую вентиляторов.

Результаты: что мы получили в итоге?

После полной настройки системы вы получаете:

+20-25% производительности в llama.cpp по сравнению со стоковой картой
Полную поддержку ROCm стека для машинного обучения
Мультимодальную систему с поддержкой изображений (LLaVA) и аудио (Whisper)
Web-интерфейс через OpenWeb UI, доступный с любых устройств в сети
Стабильную работу даже при длительных инференс-сессиях

Как видно из нашего сравнения в статье «AMD vs NVIDIA для локального ИИ в 2025», правильно настроенная 6700XT может составить конкуренцию более дорогим решениям.

Дальнейшая оптимизация

Для тех, кто хочет выжать ещё больше:

Моддинг системы охлаждения: Замена термопасты и добавление радиаторов на VRM
Настройка таймингов памяти: Использование MorePowerTool для тонкой настройки
Оптимизация ROCm kernel: Компиляция собственного ядра с оптимизациями под RDNA2
Использование нескольких карт: Настройка Multi-GPU через ROCm (см. наш гайд по ферме из 6 карт)

Помните, что разгон — это всегда баланс между производительностью, стабильностью и сроком службы оборудования. Начинайте с небольших изменений и тщательно тестируйте систему после каждого шага.

Разгон 6700XT под ROCm: полный гайд по сборке стека для локальных LLM