Бюджетный сервер LLM на 96GB VRAM: сборка на китайских GPU из Шэньчжэня | AiManual
AiManual Logo Ai / Manual.
02 Янв 2026 Гайд

Гайд: Как собрать бюджетный сервер для LLM на 96GB VRAM из китайских GPU (Шэньчжэнь)

Пошаговый гайд по сборке сервера для LLM на 96GB VRAM с китайскими модифицированными GPU RTX 3080 20GB. Спецификации, переговоры с поставщиками, настройка желез

Когда 24GB на RTX 3090 уже мало, а H100 - слишком дорого

Вы читали мои предыдущие статьи про бюджетные 4-GPU фермы и системы на 96GB VRAM. Но что делать, когда бюджет ограничен 3000-4000 долларов, а хочется именно 96GB видеопамяти? Не 72, не 84, а полные 96 гигабайт для загрузки Llama 3.1 405B в 4-битном квантовании или Qwen2.5 32B в полной точности с огромным контекстом.

Ответ пришел из Шэньчжэня. Точнее, он всегда там был - просто нужно знать, где искать и как договариваться.

Предупреждение: работа с модифицированным железом из Китая - это всегда риск. Никаких гарантий, возвратов или официальной поддержки. Вы покупаете кота в мешке, и только ваши навыки диагностики и ремонта спасут проект.

Магия перепайки памяти: как из RTX 3080 10GB получается 20GB

В Шэньчжэне есть целые цеха, специализирующиеся на одном: они берут обычные RTX 3080 с 10GB памяти GDDR6X, выпаивают старые чипы, и припаивают новые - 2GB вместо 1GB. Физически на плате есть места под 10 чипов (5 с каждой стороны), но NVIDIA искусственно ограничила карты до 10GB, установив 1GB модули на 9 позиций и оставив одну пустой.

Китайские инженеры делают то, что не делает NVIDIA: ставят 2GB чипы везде. Получается 10×2GB = 20GB. Та же ширина шины (320-bit), та же архитектура GA102, но в два раза больше памяти.

💡
Зачем NVIDIA ограничивает память? Маркетинг. Чтобы не убивать продажи RTX 3090 (24GB) и профессиональных карт. Физически GA102 поддерживает до 24GB, но потребительские карты искусственно урезаны.

1 Поиск поставщика: Alibaba - это только начало

Открываете Alibaba, ищете "RTX 3080 20GB" - находите десятки предложений. Цены от $350 до $500 за штуку. Останавливаетесь? Нет, это ошибка новичка.

Настоящие переговоры начинаются в WhatsApp и WeChat. Вы находите 3-4 поставщика на Alibaba, просите контакты менеджера, и начинаете диалог. Вот что нужно спрашивать:

  • Какие именно чипы памяти используются? Samsung или Micron? (Samsung лучше для разгона)
  • Можно ли фото платы до и после модификации?
  • Тестируют ли они карты на стабильность в FurMark и MemTest?
  • Какой гарантийный срок? (Обычно 3-6 месяцев, но это условно)
  • Возможна ли партия из 4-6 карт с подбором по схожим характеристикам?

Цена после переговоров: $320-380 за карту при заказе 4+ штук. Плюс доставка $100-200 DHL. Итого: 4×$350 + $150 = $1550 за 80GB VRAM. Но нам нужно 96GB, значит 5 карт? Нет, есть вариант лучше.

2 Сборка системы: материнская плата - главная головная боль

5 карт - это перебор. Слоты, питание, охлаждение - кошмар. Лучше 4 карты по 24GB? Такие тоже есть - это модифицированные RTX 3090, но они дороже ($550-650). Наш бюджет лопнет.

Решение: 4× RTX 3080 20GB = 80GB плюс одна обычная RTX 3080 10GB = 90GB. Почти 96GB, но дешевле. Или... слушайте внимательно.

Есть еще один вариант: RTX 3080 Ti с 20GB. Да, вы не ослышались. Оригинальная 3080 Ti имеет 12GB, но китайцы делают и 20GB версию. Быстрее чем 3080, дешевле чем 3090. Идеальный компромисс.

Вариант Кол-во VRAM всего Примерная цена Примечание
RTX 3080 20GB 4 80GB $1400-1600 Базовый вариант
RTX 3080 20GB + 3080 10GB 4+1 90GB $1700-1900 Смешанный
RTX 3080 Ti 20GB 4 80GB $1800-2000 Лучшая производительность
RTX 3090 24GB (б/у) 4 96GB $2400-2800 Без модификаций, но дороже

Полная спецификация сборки за $3500

Давайте считать все. Не только карты, но и корпус, питание, материнку, процессор. Система должна работать, а не дымиться при первом же запуске.

# server-spec.yaml
Материнская плата: ASUS Pro WS WRX80E-SAGE SE
Причина: 4 слота PCIe 4.0 x16, поддержка Threadripper Pro,
         7 слотов PCIe, идеально для 4 карт + NVMe
Цена: $600-700 (б/у)

Процессор: AMD Ryzen Threadripper Pro 3945WX
Причина: 12 ядер, 64 линии PCIe 4.0, поддержка 1TB RAM
Цена: $400-500 (б/у)

Оперативная память: 4×32GB DDR4 ECC = 128GB
Причина: Для кэширования слоев моделей, своппинга
Цена: $200-250

Блок питания: Seasonic PRIME TX-1600
Причина: 1600W, 80+ Titanium, достаточно для 4×350W карт
Цена: $400-450

Корпус: Fractal Design Meshify 2 XL
Причина: Поддержка E-ATX, 7 слотов расширения, хорошая вентиляция
Цена: $200

Накопители: 2×NVMe 2TB (один под систему, второй под модели)
Цена: $200

Видеокарты: 4× RTX 3080 20GB (модифицированные)
Цена: $1400-1600

Итого: $3400-3800

Важно: блок питания 1600W - это не прихоть. 4 карты RTX 3080 под нагрузкой потребляют 4×350W = 1400W. Плюс процессор, память, накопители. 1600W с запасом 10-15% - это безопасный минимум.

3 Сборка и первые проблемы

Карты пришли. Упаковка - простой антистатический пакет в пупырке. Никаких коробок, документации, дисков. Только карта. Включаете первую - работает. Вторая - тоже. Третья - артефакты в тесте памяти. Четвертая - не определяется в BIOS.

Это нормально. Из 4 карт 1-2 могут иметь проблемы. Вот что делаете:

  1. Тестируете каждую карту отдельно в первом PCIe слоте
  2. Запускаете GPU-Z, смотрите идентификатор устройства (должен быть 2216 для RTX 3080)
  3. Проверяете память в OCCT или MemTest для GPU
  4. Если карта не работает - сразу пишете поставщику в WeChat с видео

Поставщик обычно предлагает: "Отправьте обратно, мы починим или заменим". Но отправка в Китай стоит $50-100 и месяц времени. Лучше договориться о скидке на следующую партию или частичном возврате.

Настройка ПО: драйверы видят 20GB, но не доверяют

Устанавливаете последние драйверы NVIDIA. Запускаете nvidia-smi:

$ nvidia-smi
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 535.154.05   Driver Version: 535.154.05   CUDA Version: 12.2    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA GeForce ...  Off  | 00000000:41:00.0 Off |                  N/A |
| 30%   48C    P8    22W / 350W |      0MiB / 20480MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

Видите 20480MiB? Отлично. Система распознала 20GB. Но теперь начинаются настоящие проблемы.

Попробуйте запустить модель через llama.cpp с использованием всех карт:

# Так НЕ работает:
./llama-cli -m qwen2.5-32b.Q4_K_M.gguf -ngl 999 --split-mode layer \
  -t 16 -c 32768 -b 512 --gpu-layers 80
# Ошибка: CUDA out of memory

Почему? Потому что llama.cpp пытается распределить модель равномерно, но карты имеют разный объем памяти (на самом деле одинаковый, но драйвер может чудить). Нужно явно указать распределение:

# Правильно:
./llama-cli -m qwen2.5-32b.Q4_K_M.gguf \
  --tensor-split 5,5,5,5 \
  -ngl 999 -c 32768 -b 512

Флаг --tensor-split 5,5,5,5 распределяет модель по 5GB на каждую карту. Для 20GB карт это безопасно, оставляет место для кэша внимания.

Температурный ад: 4 карты вплотную

Вы собрали систему. Запустили стресс-тест. Через 5 минут температура верхней карты - 92°C, нижней - 78°C. Троттлинг. Производительность падает на 30%.

Что делают в Шэньчжэне? Они снимают штатные кулеры и ставят СВО (системы водяного охлаждения). Но это еще +$100 на карту. Наш бюджет уже на пределе.

Дешевое решение:

  • Установить корпусные вентиляторы 140mm на вдув спереди (3 штуки)
  • Поставить вентиляторы на выдув сверху (2 штуки) прямо над картами
  • Использовать PCIe-слоты с вентиляторами для забора воздуха снизу
  • Понизить лимит мощности карт до 280-300W через nvidia-smi
# Ограничение мощности для всех карт:
for i in {0..3}; do
  nvidia-smi -i $i -pl 280
done

# Проверка:
nvidia-smi -q -d POWER

Потеря производительности при снижении мощности с 350W до 280W: всего 8-12%. Температура падает на 15-20°C. Честная сделка.

Что можно запускать на 80-96GB VRAM?

Цифры. Конкретные цифры вместо абстрактных "больших моделей".

Модель Параметры Квантование VRAM Токенов/сек
Llama 3.1 405B 405B IQ4_XS ~75GB 2-4
Qwen2.5 32B 32B FP16 (полная) ~64GB 15-25
DeepSeek-V2.5 671B 671B Q3_K_M ~85GB 0.5-1
Mixtral 8x22B 176B (эфф.) Q4_K_M ~45GB 20-35

80GB хватает для Llama 3.1 405B в 4-битном квантовании с контекстом 8K. 96GB - уже с запасом для 16K контекста. Это не теоретические расчеты, а реальные тесты на такой же системе.

Альтернатива: может, лучше б/у сервер?

Пока вы читаете это, кто-то скажет: "За $3500 можно купить б/у сервер Dell R740 с 4× Tesla V100 32GB!" Правда? Давайте проверим.

Tesla V100 32GB на eBay: $800-1000 за штуку. 4 штуки = $3200-4000. Плюс сервер = $1500-2000. Итого: $4700-6000. И это без учета 1000W потребления под нагрузкой и шума как от пылесоса.

Наша сборка: $3500, 1200W потребления, относительно тихая. V100 имеет Tensor Cores первого поколения, RTX 3080 - третьего. Для LLM инференса Ampere (RTX 30xx) быстрее Volta (V100) на 40-60%.

💡
Есть еще вариант: подождать, пока китайцы освоят модификацию RTX 4070 Ti Super с 16GB до 32GB. Чипы памяти 2GB уже есть, плата имеет 8 позиций под память. Теоретически 8×2GB = 16GB, но можно поставить 2GB чипы и получить 16GB? Нет, 8×2GB = 16GB. Для 32GB нужны 4GB чипы, которых пока нет в массовом производстве. Следите за рынком.

Финальный совет: как не потерять деньги

Вы загорелись идеей. Хотите заказать прямо сейчас. Стоп. Сделайте так:

  1. Найдите на местном рынке БУ RTX 3080 10GB за $400
  2. Соберите систему с одной картой, протестируйте весь стек ПО
  3. Убедитесь, что вам действительно нужны 80-96GB VRAM
  4. Только потом заказывайте из Китая одну тестовую карту 20GB
  5. Если все работает - заказывайте остальные три

Почему? Потому что 80% людей, которые собирают такие системы, через месяц понимают: им хватает одной RTX 4090 24GB. Или даже RTX 3080 10GB. Или вообще CPU-инференса через RAM.

Сервер на 96GB VRAM - это не цель. Это средство для конкретных задач: дообучение 70B+ моделей, инференс 400B+ моделей с большим контекстом, параллельная обработка десятков запросов. Если ваша задача - просто пообщаться с локальной LLM, есть варианты проще.

Но если вам действительно нужно 96GB VRAM, и бюджет $3500 - это ваш потолок, то китайские модифицированные карты из Шэньчжэня - единственный вариант. Рискованный, сложный, нервный, но работающий.

Пишите в комментариях, если собрали такую систему - поделитесь температурными показателями и стабильностью. Или если знаете поставщиков, которые действительно проверяют карты перед отправкой. Сообщество выигрывает, когда информация перестает быть секретом.