Для большинства энтузиастов локального AI выбор прост: или громкий сервер в подвале, или облачные счета с пятью нулями. Я выбрал третий путь — собрать систему, которая не сводит с ума гулом вентиляторов, но при этом жрет 70B-модели на завтрак. Вот что получилось из RTX 5090 и Ryzen 9 7950X3D.
Зачем вообще это нужно?
Две недели назад я запустил DeepSeek-V3 671B на этой сборке. Не целиком, конечно — даже 24 ГБ VRAM не хватит. Но через vLLM с интеллектуальным кешированием система выдавала 45 токенов в секунду. В полной тишине. Пока жена спала в соседней комнате.
Это не про «показать мощь железа». Это про практичность. Когда работаешь с моделями по 8-10 часов в день, постоянный гул в 50 децибел сводит с ума. Особенно если живешь в квартире, а не в серверной. Моя цель была проста: собрать машину, которая:
- Запускает 70B-модели без свопа на SSD
- Работает тише 35 дБ под нагрузкой
- Не требует водяного охлаждения (потому что я не хочу заливать дорогое железо)
- Имеет запас для будущих апгрейдов
Если вы собираете ферму из нескольких карт — этот гайд вам не подойдет. Здесь речь о максимальной производительности с одной картой, но с фокусом на тишину. Для мульти-GPU сборок лучше смотрите наш разбор с 3× RTX 3090.
Почему именно эта конфигурация?
RTX 5090 — не самая очевидная карта для AI. Все кричат о H100, о профессиональных ускорителях. Но у 5090 есть три козыря: 24 ГБ GDDR7 с пропускной способностью под 2 ТБ/с, поддержка PCIe 5.0 x16 и относительная доступность (относительно, конечно).
Ryzen 9 7950X3D — странный выбор? На первый взгляд да. Но 128 МБ L3 кэша на CCD с 3D V-Cache — это золото для инференса. Когда модель не помещается в VRAM и начинает свопиться в RAM, этот кэш снижает латентность на 15-20%. Проверено на Qwen2.5-72B.
Полный список компонентов
| Компонент | Модель | Почему выбрал | Цена (~) |
|---|---|---|---|
| Видеокарта | ASUS TUF Gaming RTX 5090 OC Edition | Кастомная система охлаждения с пассивным режимом до 50°C | $2200 |
| Процессор | AMD Ryzen 9 7950X3D | 128 МБ L3 кэша для снижения латентности RAM | $650 |
| Материнская плата | ASUS ROG Strix X670E-F Gaming | PCIe 5.0 x16, 4 слота M.2, хороший VRM для тихой работы | $450 |
| ОЗУ | G.Skill Trident Z5 Neo RGB 64GB (2×32GB) DDR5-6000 CL30 | Оптимизирована под AMD EXPO, низкая латентность | $280 |
| Блок питания | Seasonic Prime TX-1000 | 80 Plus Titanium, пассивный режим до 40% нагрузки | $300 |
| Корпус | Fractal Design Define 7 XL | Звукоизоляция 32 дБ, место под длинную видеокарту | $220 |
| Кулер процессора | Noctua NH-D15 chromax.black | Тише любого AIO, хватает для 7950X3D в eco-mode | $110 |
| Вентиляторы | 5× Noctua NF-A14 PWM chromax.black | Давление для фильтров, тихая работа | $150 |
| Накопители | 2× WD Black SN850X 2TB | Для системы и датасетов, быстрый доступ | $320 |
| Итого | ~$4680 |
Да, почти пять тысяч долларов. Но сравните с арендой H100 по $4/час. За 1170 часов работы (49 дней) вы отобьете сборку. А она прослужит минимум 3 года.
Сборка: где спрятаны подводные камни
1 Установка видеокарты — не так просто
RTX 5090 от ASUS весит 2.3 кг. Без поддержки она провиснет и сломает слот PCIe через месяц. Я использовал дополнительный кронштейн, но есть лайфхак проще:
# Проверяем прогиб карты после установки
sudo nvidia-smi --query-gpu=name,pci.bus_id --format=csv
# Если карта не в слоте до конца — будет глючить PCIe 5.0
Купите антисаг — любой, который крепится к корпусу, а не к материнской плате. И проверьте, что карта полностью вошла в слот. Если нет — PCIe 5.0 будет падать до 4.0, теряя 30% пропускной.
2 Настройка вентиляции по уму
Тишина достигается не выключением вентиляторов, а их правильной работой. Моя схема:
- 3 впуска спереди (фильтры!)
- 2 выпуска сверху
- 1 выпуск сзади
- Все вентиляторы на одном хабе для синхронизации
Кривая вентиляторов настраивается по температуре VRAM, а не GPU core. Потому что именно память греется при инференсе.
# Установка nvtop для мониторинга
sudo apt install nvtop
# Смотрим температуру VRAM
nvtop -m 1
# Норма для RTX 5090 под нагрузкой: 80-85°C
# Если выше 90°C — проблемы с охлаждением
3 Настройка процессора под AI-нагрузки
7950X3D нужно обуздать. По умолчанию он пытается разогнать оба CCD, что бессмысленно для инференса. Включаем Eco Mode и PBO с отрицательным offset.
В BIOS: AMD CBS → SMU Common Options → Eco Mode → 105W. Это снижает энергопотребление с 170W до 105W при потере всего 5% производительности в AI-задачах. Температура падает с 85°C до 65°C — вентиляторы почти не слышно.
Софт: что реально работает в 2025
vLLM — мой основной выбор. Но не версия из pip, а скомпилированная под TensorRT-LLM бэкенд. Разница в скорости — 2.5×.
# Ставим базовые зависимости
sudo apt update && sudo apt install -y python3.11 python3.11-venv
python3.11 -m venv ~/vllm_env
source ~/vllm_env/bin/activate
# Устанавливаем vLLM с TensorRT бэкендом
pip install "vllm[tensorrt]" --extra-index-url https://pypi.nvidia.com
# Проверка совместимости
python -c "from vllm import __version__; print(f'vLLM {__version__}')"
# Должно быть 0.4.2 или выше
Для моделей, которые плохо оптимизируются под TensorRT (например, некоторые китайские LLM), использую стандартный vLLM с PagedAttention.
Конфигурация vLLM для максимальной производительности
Создаю конфиг vllm-config.yaml:
model: "Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4"
download_dir: "/mnt/ssd/models"
tensor_parallel_size: 1 # Одна карта
block_size: 16
max_num_batched_tokens: 32768
max_num_seqs: 32
enforce_eager: false # Используем CUDA Graph
quantization: "gptq"
gpu_memory_utilization: 0.92 # Оставляем 8% для кеша
swap_space: 8 # ГБ на SSD для оверфлоу
pipeline_parallel_size: 1
speculative_model: null # Для ускорения маленьких моделей
enable_prefix_caching: true # Критически важно для чатов
Запускаю сервер:
python -m vllm.entrypoints.openai.api_server \
--config vllm-config.yaml \
--port 8000 \
--host 0.0.0.0 \
--disable-log-requests # Убираем спам в логах
Тесты производительности и шума
| Модель | Контекст | Токенов/с | Уровень шума (дБ) | Температура VRAM |
|---|---|---|---|---|
| Llama 3.1 8B | 128K | 312 | 28 | 68°C |
| Qwen2.5 32B | 32K | 84 | 32 | 76°C |
| DeepSeek-V3 67B | 128K | 45 | 35 | 82°C |
| Mixtral 8x22B | 64K | 67 | 34 | 79°C |
35 дБ — это уровень тихого офиса. Для сравнения: стандартная сборка на той же RTX 5090, но в обычном корпусе выдает 52-55 дБ. Разница колоссальная.
Ошибки, которые сломают вашу тишину
1. Неправильная ориентация кулера
Noctua NH-D15 нужно ставить так, чтобы теплый воздух от процессора не шел прямо на видеокарту. Иначе GPU будет греться сильнее, вентиляторы карты раскрутятся — шум.
2. Экономия на блоке питания
Дешевый БП с активным охлаждением всегда работает на высоких оборотах. Seasonic Prime TX в пассивном режиме до 400W нагрузки — это тишина. А RTX 5090 + 7950X3D в eco-mode потребляют как раз 350-380W.
3. Забыть про драйверы NVIDIA
Устаревшие драйверы не умеют правильно управлять вентиляторами RTX 5090. Кастомная кривая в Afterburner — не работает. Нужно ставить минимум 560.xx версию.
# Установка драйверов на Ubuntu 24.04
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
sudo apt install nvidia-driver-560 nvidia-utils-560
# Проверка
nvidia-smi | grep "Driver Version"
# Должно быть: 560.35.03 или выше
Интеграция с векторной БД
Локальный инференс без RAG — как машина без колес. Я использую Qdrant в Docker, потому что он умеет работать с GPU для вычисления эмбиддингов.
# docker-compose.yml для полного стека
version: '3.8'
services:
vllm:
image: vllm/vllm-openai:latest
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: 1
capabilities: [gpu]
command: \
--model Qwen/Qwen2.5-7B-Instruct \
--port 8000 \
--gpu-memory-utilization 0.85
ports:
- "8000:8000"
volumes:
- ./models:/models
qdrant:
image: qdrant/qdrant:latest
ports:
- "6333:6333"
- "6334:6334"
volumes:
- ./qdrant_storage:/qdrant/storage
environment:
- QDRANT__SERVICE__GRPC_PORT=6334
- QDRANT__LOG_LEVEL=INFO
embedder:
build: ./embedder
ports:
- "8001:8001"
environment:
- VLLM_ENDPOINT=http://vllm:8000
- QDRANT_HOST=qdrant
depends_on:
- vllm
- qdrant
Теперь у вас полноценный локальный AI-стек: LLM для генерации, эмбеддер для семантического поиска, векторная БД для хранения знаний. Все работает на одном железе, почти без шума.
Что делать, если хочется еще тише?
Есть два радикальных варианта:
- Андактинг корпуса — дополнительный слой звукопоглощающего материала внутри. Снижает шум на 3-5 дБ, но ухудшает вентиляцию. Риск перегрева.
- Подвал и оптический Thunderbolt — выносим корпус в подвал/кладовку, протягиваем оптический кабель Thunderbolt 4 на 20 метров в рабочую комнату. Кардинальное решение, но дорогое и сложное в настройке.
Я выбрал третий путь: ночная работа в Eco Mode. Снижаю лимит мощности GPU до 70%, процессора до 65W. Производительность падает на 25%, но шум — на 50%. Для неторопливой работы с документами идеально.
sudo nvidia-smi -pl 280 устанавливает лимит мощности 280W для RTX 5090 (вместо 450W по умолчанию). Температура падает с 82°C до 65°C, вентиляторы работают на минималках.А что насчет будущих апгрейдов?
Эта сборка — не тупик. Через год можно добавить вторую RTX 5090, если появится необходимость. X670E-F поддерживает PCIe 5.0 x8/x8 при использовании двух карт. Блок питания на 1000W потянет две карты в Eco Mode.
Но честно? Для 99% задач хватит и одной RTX 5090. Проблема не в скорости инференса, а в размерах моделей. И тут будущее за квантованием и смешанными техниками вроде mHC от DeepSeek, которые позволяют запускать большие модели на меньшем VRAM.
Самый вероятный апгрейд — замена процессора на Ryzen 9 9950X3D, когда он выйдет. Дополнительные ядра и кэш помогут в параллельной обработке нескольких запросов.
Итог: стоит ли овчинка выделки?
После месяца использования я могу сказать точно: да. Даже если вы не инженер по ML, а просто любите экспериментировать с локальными моделями.
Эта система дает то, что не купишь за деньги: контроль. Никаких лимитов токенов, никаких запрещенных тем, никакой зависимости от интернета. И главное — тишину, чтобы думать.
Пока облачные провайдеры спорят о ценах на API, пока Supermicro сворачивает розничные продажи, мы строим свои крепости. Тихие, мощные, независимые.
Следующая моя цель — научить эту систему работать полностью пассивно, с отключенными вентиляторами при нагрузке до 200W. Эксперименты с массивными радиаторами уже начались. Но это — тема для отдельного гайда.