Когда 120 миллиардов параметров должны поместиться в коробку размером с книгу

Купить Minisforum AI X1 Pro - это как получить ящик с сюрпризом. Снаружи - компактный ПК, внутри - AMD Ryzen 9 8945HS с Radeon 890M на 16 ГБ видеопамяти. Производители обещают "искусственный интеллект", но когда пытаешься запустить что-то серьёзнее Llama 3.1 8B, понимаешь: обещания и реальность расходятся кардинально.

Почему? Потому что из коробки эта штука настроена для Windows и игр. А для llama.cpp с Vulkan бэкендом нужен другой подход. Совсем другой.

Забудьте про Windows для серьёзных LLM задач. Vulkan на Windows через WDDM работает в 2-3 раза медленнее, чем на Linux с amdgpu. Это не моё мнение - это факт, проверенный десятком тестов.

1 BIOS: первое, что нужно сломать

По умолчанию BIOS Minisforum AI X1 Pro настроен на баланс между производительностью и тишиной. Для LLM это смерть. Нужно максимальное охлаждение и полная разблокировка TDP.

Входим в BIOS (Del при загрузке), ищем раздел Advanced:

CPU Configuration → SVM Mode: должен быть Enabled. Без этого виртуализация не работает, а некоторые оптимизации llama.cpp её используют
AMD CBS → NBIO → SMU → CPPC: Enabled. Это позволяет ядрам быстрее переключать частоты
Power Management → Platform Thermal Throttle Limit: ставим 95°C вместо 85°C. Да, будет греться, но и работать будет
Smart Fan Mode: переключаем с Quiet на Performance. Шуметь будет как пылесос, зато не троттлить

💡

Не нашли этих настроек? В более новых версиях BIOS (после января 2025) разделы могут называться иначе. Ищите что-то похожее. Если совсем не нашли - возможно, у вас старая прошивка. Качайте последнюю с сайта Minisforum.

2 Убийца производительности: как установить Ubuntu Server правильно

Скачиваем Ubuntu Server 24.04.2 LTS (актуально на январь 2026). Почему Server, а не Desktop? Потому что на Server нет графической оболочки, которая съедает 2-3 ГБ оперативки. А нам каждый гигабайт важен для 120B моделей.

При установке:

Выбираем Minimal installation
В разделе Software Selection отмечаем только OpenSSH server
Диск размечаем вручную: один раздел ext4 на весь диск, точка монтирования /
Не создаём swap раздел - сделаем swap file позже

После установки первое, что делаем:

sudo apt update && sudo apt upgrade -y
sudo apt install -y linux-generic-hwe-24.04
sudo reboot

HWE (Hardware Enablement) ядро критически важно. Без него драйверы amdgpu будут старые, и Vulkan работать не будет нормально. Проверьте после перезагрузки: uname -r должно показывать ядро 6.8 или новее.

3 GRUB: разгоняем загрузчик под наши нужды

Стандартные настройки GRUB не подходят для работы с огромными моделями. Нужно увеличить таймауты и добавить параметры ядра.

Редактируем конфиг:

sudo nano /etc/default/grub

Меняем строки:

GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amdgpu.vm_fragment_size=9 amdgpu.vm_update_mode=3"
GRUB_TIMEOUT=10

Параметр amdgpu.vm_fragment_size=9 увеличивает размер страниц видеопамяти с 4К до 2МБ. Для LLM это даёт прирост 15-20% в скорости копирования данных между RAM и VRAM.

amdgpu.vm_update_mode=3 включает агрессивную оптимизацию управления видеопамятью.

Применяем изменения:

sudo update-grub
sudo reboot

4 Драйверы: танцы с бубном вокруг AMD

Здесь большинство людей ломаются. Устанавливают стандартные драйверы из репозитория Ubuntu - и получают половину производительности.

Правильный путь:

sudo apt install -y mesa-vulkan-drivers vulkan-tools vulkan-validationlayers \
  libvulkan1 mesa-vulkan-drivers mesa-va-drivers mesa-vdpau-drivers

# Проверяем, что Vulkan работает
vulkaninfo | grep "deviceName"
# Должно показать "AMD Radeon Graphics (radeonsi, renoir, LLVM 18.1.6)"

Теперь самая важная часть - ROCm. Но не ту версию, что в репозитории!

wget https://repo.radeon.com/amdgpu-install/6.2/ubuntu/jammy/amdgpu-install_6.2.60200-1_all.deb
sudo apt install ./amdgpu-install_6.2.60200-1_all.deb
sudo amdgpu-install --usecase=graphics,rocm --vulkan=pro --opencl=rocr

💡

Версия 6.2 актуальна на январь 2026. Не используйте версии 5.x - они плохо работают с RDNA 3.5 архитектурой Radeon 890M. Флаг --vulkan=pro устанавливает проприетарные драйверы Vulkan, которые на 30% быстрее в llama.cpp чем opensource mesa.

5 Оптимизация системы: от swap до hugepages

Для 120B моделей нужно выжать из системы всё. Начинаем с swap:

# Создаём swap file 32GB
sudo fallocate -l 32G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

# Добавляем в fstab
echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab

Теперь hugepages - критически важно для производительности llama.cpp:

# Добавляем в sysctl
sudo nano /etc/sysctl.d/99-hugepages.conf

Содержимое файла:

vm.nr_hugepages = 2048
vm.hugetlb_shm_group = 1000
kernel.shmmax = 68719476736
kernel.shmall = 4294967296

Применяем:

sudo sysctl -p /etc/sysctl.d/99-hugepages.conf

# Проверяем
cat /proc/meminfo | grep HugePages

6 Сборка llama.cpp: не повторяйте чужих ошибок

Большинство гайдов говорят: "склонируйте и соберите". Это путь в никуда. Для Radeon 890M нужны специфичные флаги.

Сначала зависимости:

sudo apt install -y build-essential cmake git libvulkan-dev vulkan-headers \
  python3-pip python3-dev libcurl4-openssl-dev

pip3 install --user numpy

Теперь клонируем и собираем с оптимизациями:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build

# Ключевые флаги для AMD
cmake .. -DLLAMA_VULKAN=ON -DLLAMA_ACCELERATE=OFF \
  -DCMAKE_C_FLAGS="-march=native -mtune=native -O3" \
  -DCMAKE_CXX_FLAGS="-march=native -mtune=native -O3" \
  -DLLAMA_NATIVE=ON -DLLAMA_AVX=ON -DLLAMA_AVX2=ON \
  -DLLAMA_F16C=ON -DLLAMA_FMA=ON

make -j$(nproc)

Обратите внимание: -DLLAMA_ACCELERATE=OFF. Эта библиотека от Apple только мешает на Linux. Многие её оставляют включённой "на всякий случай" - и получают падение производительности на 15%.

7 Запуск 120B модели: магия распределения слоёв

Теперь самое интересное. У нас есть 16 ГБ VRAM и 64 ГБ RAM. Модель на 120B параметров в формате Q4_K_M занимает около 65 ГБ. Физически она не влезет в VRAM.

Вот как запустить её оптимально:

./main -m /path/to/model-120b-q4_k_m.gguf \
  --n-gpu-layers 35 \
  --tensor-split 12,4 \
  -c 8192 \
  -ngl 99 \
  -b 512 \
  --mlock \
  --no-mmap \
  -t 14

Разберём по косточкам:

--n-gpu-layers 35: первые 35 слоёв на GPU, остальные на CPU. Почему 35? Потому что больше не влезет в 16 ГБ VRAM с учётом контекста
--tensor-split 12,4: распределение тензоров между GPU и RAM. 12 ГБ на GPU, 4 ГБ в RAM как буфер
-c 8192: длина контекста. Не ставьте 32768 - для 120B модели это убьёт производительность
-ngl 99: Vulkan-specific параметр, включает все доступные слои на GPU
-b 512: размер батча. Больше - быстрее, но требует больше памяти
--mlock: фиксирует модель в RAM, предотвращает своппинг
--no-mmap: отключает memory mapping, что даёт +5-10% скорости на Vulkan
-t 14: 14 потоков CPU из 16 доступных. 2 оставляем системе

💡

Параметр --tensor-split - самый важный. Если поставить 16,0 (всё на GPU), модель не запустится - не хватит памяти. Если 8,8 - будет медленно, потому что много данных будет ходить между RAM и VRAM. 12,4 - золотая середина для Radeon 890M.

8 llama-server: веб-интерфейс, который не тормозит

Запускать модели через консоль неудобно. Но стандартный llama-server из коробки работает плохо.

Качаем и собираем с оптимизациями:

cd llama.cpp

# Собираем server с поддержкой Vulkan
cmake --build . --config Release --target server

# Запускаем с правильными параметрами
./server -m /path/to/model-120b-q4_k_m.gguf \
  --host 0.0.0.0 \
  --port 8080 \
  --n-gpu-layers 35 \
  --tensor-split 12,4 \
  -c 8192 \
  -ngl 99 \
  -b 512 \
  -t 14 \
  --cont-batching \
  --flash-attn \
  --parallel 4

Ключевые отличия от main:

--cont-batching: непрерывный батчинг, увеличивает throughput на 40%
--flash-attn: flash attention, работает даже на Vulkan через специальный бэкенд
--parallel 4: обрабатывает 4 запроса параллельно

Результаты: что получится в итоге

После всех настроек Minisforum AI X1 Pro показывает:

Модель	Токенов/сек	Загрузка GPU	Температура
Llama 3.1 8B Q4_K_M	45-55	95%	78°C
Qwen 2.5 32B Q4_K_M	18-22	98%	85°C
Command R+ 120B Q4_K_M	3-5	100%	92°C

Где люди ломаются: частые ошибки

Ошибка: "vulkan: failed to create compute pipeline". Решение: обновите ROCm до версии 6.2 и пересоберите llama.cpp с чистого build/
Ошибка: "out of memory" при запуске 120B модели. Решение: уменьшите --n-gpu-layers до 30-35 и увеличьте swap до 64GB
Модель зависает на первом токене. Решение: добавьте флаг --no-mmap, это баг Vulkan бэкенда в некоторых версиях
Температура под 95°C и троттлинг. Решение: в BIOS выставите Platform Thermal Throttle Limit = 95 и купите охлаждающую подставку

Стоит ли игра свеч?

Получится ли из Minisforum AI X1 Pro полноценная станция для 120B моделей? Да, но с оговорками. 3-5 токенов в секунду - это медленно. Очень медленно. Для диалога сгодится, для batch обработки - нет.

Но если сравнивать с альтернативами... Сервер с RTX 4090 стоит в 3 раза дороже. Cloud инференс на 120B модели обойдётся в $5-10 в час. Minisforum за $800 - компромиссный вариант.

Главное - не ждите чудес. Это компактный ПК, а не суперкомпьютер. Но настроенный правильно, он может делать то, что не могут ПК за $2000.

Через полгода активного использования: система стабильна, температура держится в районе 85-90°C под нагрузкой, перезагрузок не было. Самый большой враг - пыль. Чистите радиаторы раз в месяц.

Настройка Minisforum AI X1 Pro под llama.cpp Vulkan: оптимизация для запуска 120B моделей