Не все домашние дата-центры одинаковы
Энтузиасты локального AI делятся на два лагеря. Одни скупают б/у серверное железо, наращивая гигабайты VRAM любой ценой. Другие гонятся за новыми поколениями GPU и энергоэффективностью. Я побывал в обоих.
В этой статье — два моих стенда, которые работают 24/7. Первый: Threadripper 3960X + 4× RTX 3090 Ti (96 ГБ VRAM, PCIe 4.0). Второй: Xeon 8352 (32 ядра) + 4× RTX 5070 Ti (64 ГБ VRAM GDDR7, PCIe 5.0). Оба обслуживают десятки запросов в минуту к моделям вроде Qwen2.5-72B, DeepSeek-V4 и Llama 3.3-405B (в 4 бита).
Спойлер: выбор неочевиден. И дело не только в цене.
Первая сборка: классика жанра — Threadripper 3960X + 4× 3090 Ti
Материнская плата — Asus ROG Zenith II Extreme (TRX40). Процессор — 24-ядерный Threadripper 3960X, купленный с рук за $600. ОЗУ — 128 ГБ DDR4-3200 (4×32 ГБ), обошлось в $250 на вторичке. Видеокарты — четыре Palit RTX 3090 Ti GameRock, каждая по 24 ГБ GDDR6X. Суммарно — 96 ГБ VRAM.
Почему 3090 Ti, а не 4090? Цена. Четыре б/у 3090 Ti стоят около $4000-4500. Четыре 4090 — $8000+. А разница в производительности инференса для больших моделей — не более 30% за счёт более высокой пропускной способности памяти. Но главное — 96 ГБ VRAM позволяют запускать полную Qwen2.5-72B в FP16 (144 ГБ не влезает, но Q4_K_M — около 72 ГБ, с запасом). Llama 3.3-405B в 4 бита занимает ~120 ГБ — уже не влезает, но можно распределить через tensor parallelism на две карты? 96 ГБ недостаточно. Для 405B нужна другая сборка (см. нашу статью про Radeon R9700 с 128 ГБ).
Собрать такое на TRX40 — просто. 48 линий PCIe 4.0 от CPU + 16 от чипсета (но если использовать все 4 карты, одна получит x8 через чипсет). На практике это не страшно: для инференса bottleneck в основном VRAM и bandwidth внутри GPU. Загрузка модели весом 70 ГБ занимает около 3 секунд.
Подводные камни
Охлаждение. Четыре 3090 Ti вплотную греются как печки. Пришлось ставить их через райзеры на 4 слота друг от друга и сделать кастомный воздуховод от передних вентиляторов. Температура памяти держится в районе 90°C под нагрузкой. Без модов — терпимо, но шумно (55 дБ на расстоянии 1 м).
Питание. Блок — Corsair AX1600i, но четырём 3090 Ti нужно около 1800 Вт пиково. Пришлось ограничить power limit до 85% (потеря производительности ~5%). И использовать два блока (второй — на 1000 Вт для CPU и остального).
Важно: материнские платы TRX40 — исчезающий вид. После того как Supermicro перестала продавать розничные платы на EPYC (мы писали об этом), спрос на б/у TRX40 взлетел. Цены на Asus ROG Zenith II Extreme поднялись с $300 до $550 за полгода.
Вторая сборка: Xeon 8352 + 4× RTX 5070 Ti — новый свет
Платформа — Supermicro X12DPi-N6, два сокета LGA4189, но я использую один процессор Xeon 8352 (32 ядра, 150W TDP). ОЗУ — 256 ГБ DDR4-3200 LRDIMM (8×32 ГБ, $600 на eBay). Видеокарты — четыре MSI RTX 5070 Ti Ventus 3X, каждая с 16 ГБ GDDR7 (суммарно 64 ГБ).
5070 Ti стоит $900 за новую (четыре — $3600). Для сравнения: четыре 3090 Ti б/у — $4000. Разница небольшая, но 5070 Ti потребляет всего 250 Вт (против 450 Вт у 3090 Ti). Система на Xeon + 4×5070 Ti жрет около 1300 Вт под нагрузкой — меньше, чем одна сборка на Threadripper с 3090 Ti (1800 Вт). Это значит дешевле электричество и проще с охлаждением.
Производительность: 5070 Ti имеет 7-е поколение тензорных ядер и поддержку FP8/FP4. На квантованных моделях (Q4_K_M) она выдаёт на 40-50% больше токенов в секунду, чем 3090 Ti. Но VRAM всего 64 ГБ — этого едва хватает на Llama 3.3-405B Q4 (120 ГБ) не хватит, только на 70B модели с запасом. Зато на DeepSeek-V4 (MoE с 37B активных) — 64 ГБ более чем достаточно.
Сюрпризы и нюансы
PCIe 5.0 на Xeon 8352 нет — только PCIe 4.0 (48 линий на процессор). 5070 Ti работают в режиме x8 через коммутатор, но это не проблема: инференс не нагружает PCIe шину постоянно. Загрузка 70B модели (40 ГБ) занимает 1.2 секунды через PCIe 4.0 x8 — всё ещё быстро.
А вот драйверы. RTX 5070 Ti — новые карты, и в начале 2026 года под Linux были проблемы с CUDA 12.8. Пришлось ставить бета-ветку драйвера 550.x и использовать docker-образы с последней версией CUDA. На Windows Pro — всё гладко.
Сравнение: что выбрать в 2026?
| Параметр | Threadripper + 4×3090 Ti | Xeon + 4×5070 Ti |
|---|---|---|
| Общая VRAM | 96 ГБ (GDDR6X) | 64 ГБ (GDDR7) |
| Пропускная способность на карту | ~1008 ГБ/с | ~1344 ГБ/с |
| Потребление (стенд) | ~1800 Вт | ~1300 Вт |
| Стоимость железа (с б/у) | ~$5500 | ~$6000 (всё новое) |
| Токены/с (Qwen2.5-72B Q4) | ~6-8 tok/s (4 карты, tensor parallel) | ~12-15 tok/s (4 карты) |
| Максимальная модель (4-bit) | Llama 3.3-405B? Нет, только 70B или MoE до 100B активных | 70B или MoE до 70B активных |
Очевидно: обе сборки не запустят самые тяжелые модели (405B). Для них нужны 128+ ГБ VRAM — как в нашей статье про Radeon R9700. Но для ежедневной работы с моделями до 70B и MoE до 100B — обе годятся.
Мой выбор? Threadripper стоит, если нужно больше VRAM для экспериментов с крупными квантованными моделями (например, Command R+ в 4 бита, ~90 ГБ). Xeon + 5070 Ti — если нужна скорость и низкое энергопотребление. Я держу оба: первый для исследовательских прогонов, второй — для production-инференса в личных проектах.
Живые советы для тех, кто хочет повторить
- Не берите 3090 Ti вплотную — вот пример сборки в mid-tower с тремя картами — уже тяжко. Четыре — только райзеры и открытый стенд.
- Для Xeon проверьте совместимость с PCIe 4.0 удлинителями. У меня один из райзеров оказался 3.0 — пришлось заменить.
- Не экономьте на блоке питания: два блока с синхронизатором (Add2PSU) — нормальное решение.
Если бюджет ограничен — обратите внимание на сборку из трёх 3090 с eGPU — 96 ГБ и дешевле $3000. Или на статью про европейский дефицит — там много лайфхаков.
Последний пинок: не гонитесь за топовыми CPU. Для инференса важнее VRAM и память GPU, а процессор почти не загружен. Threadripper 3960X или Xeon 8352 — уже с головой. Даже статья про инфраструктуру на 192 ГБ RAM показывает, что CPU не бутылочное горлышко.
А что если собрать гибрид?
Сейчас подумываю взять одну RTX 5070 Ti и вставить её в старую сборку Threadripper, а четыре 3090 Ti заменить на... Нет, не повторяйте это. Вендерные драйверы и разные поколения в одном процессе — рецепт головной боли. Лучше иметь два независимых сервера, как сделал я.
Кстати, если вам интересны совсем адские конфигурации — мобильная станция за $17k с 768 ГБ VRAM или медицинский сервер за 10 000 евро — это уже совсем другая лига.