Насколько надежны модифицированные китайские видеокарты?

Надежность варьируется в зависимости от поставщика. Качественные модификации с использованием оригинальных чипов памяти и профессиональной пайки могут работать годами, но всегда есть риск получить брак. Рекомендуется заказывать тестовый образец перед покупкой партии.

Какие модели LLM можно запускать на 80-96GB VRAM?

На 80-96GB VRAM можно запускать Llama 3.1 405B в 4-битном квантовании, Qwen2.5 32B в полной точности FP16, DeepSeek-V2.5 671B в Q3_K_M, Mixtral 8x22B и другие крупные модели с контекстом до 16K токенов.

Как решить проблему перегрева 4 видеокарт в одном корпусе?

Необходимо установить дополнительные корпусные вентиляторы на вдув и выдув, использовать PCIe-слоты с вентиляторами, ограничить мощность карт до 280-300W через nvidia-smi, и рассмотреть возможность установки систем водяного охлаждения для критически важных систем.

Бюджетный сервер LLM на 96GB VRAM: сборка на китайских GPU из Шэньчжэня

Когда 24GB на RTX 3090 уже мало, а H100 - слишком дорого

Вы читали мои предыдущие статьи про бюджетные 4-GPU фермы и системы на 96GB VRAM. Но что делать, когда бюджет ограничен 3000-4000 долларов, а хочется именно 96GB видеопамяти? Не 72, не 84, а полные 96 гигабайт для загрузки Llama 3.1 405B в 4-битном квантовании или Qwen2.5 32B в полной точности с огромным контекстом.

Ответ пришел из Шэньчжэня. Точнее, он всегда там был - просто нужно знать, где искать и как договариваться.

Предупреждение: работа с модифицированным железом из Китая - это всегда риск. Никаких гарантий, возвратов или официальной поддержки. Вы покупаете кота в мешке, и только ваши навыки диагностики и ремонта спасут проект.

Магия перепайки памяти: как из RTX 3080 10GB получается 20GB

В Шэньчжэне есть целые цеха, специализирующиеся на одном: они берут обычные RTX 3080 с 10GB памяти GDDR6X, выпаивают старые чипы, и припаивают новые - 2GB вместо 1GB. Физически на плате есть места под 10 чипов (5 с каждой стороны), но NVIDIA искусственно ограничила карты до 10GB, установив 1GB модули на 9 позиций и оставив одну пустой.

Китайские инженеры делают то, что не делает NVIDIA: ставят 2GB чипы везде. Получается 10×2GB = 20GB. Та же ширина шины (320-bit), та же архитектура GA102, но в два раза больше памяти.

💡

Зачем NVIDIA ограничивает память? Маркетинг. Чтобы не убивать продажи RTX 3090 (24GB) и профессиональных карт. Физически GA102 поддерживает до 24GB, но потребительские карты искусственно урезаны.

1 Поиск поставщика: Alibaba - это только начало

Открываете Alibaba, ищете "RTX 3080 20GB" - находите десятки предложений. Цены от $350 до $500 за штуку. Останавливаетесь? Нет, это ошибка новичка.

Настоящие переговоры начинаются в WhatsApp и WeChat. Вы находите 3-4 поставщика на Alibaba, просите контакты менеджера, и начинаете диалог. Вот что нужно спрашивать:

Какие именно чипы памяти используются? Samsung или Micron? (Samsung лучше для разгона)
Можно ли фото платы до и после модификации?
Тестируют ли они карты на стабильность в FurMark и MemTest?
Какой гарантийный срок? (Обычно 3-6 месяцев, но это условно)
Возможна ли партия из 4-6 карт с подбором по схожим характеристикам?

Цена после переговоров: $320-380 за карту при заказе 4+ штук. Плюс доставка $100-200 DHL. Итого: 4×$350 + $150 = $1550 за 80GB VRAM. Но нам нужно 96GB, значит 5 карт? Нет, есть вариант лучше.

2 Сборка системы: материнская плата - главная головная боль

5 карт - это перебор. Слоты, питание, охлаждение - кошмар. Лучше 4 карты по 24GB? Такие тоже есть - это модифицированные RTX 3090, но они дороже ($550-650). Наш бюджет лопнет.

Решение: 4× RTX 3080 20GB = 80GB плюс одна обычная RTX 3080 10GB = 90GB. Почти 96GB, но дешевле. Или... слушайте внимательно.

Есть еще один вариант: RTX 3080 Ti с 20GB. Да, вы не ослышались. Оригинальная 3080 Ti имеет 12GB, но китайцы делают и 20GB версию. Быстрее чем 3080, дешевле чем 3090. Идеальный компромисс.

Вариант	Кол-во	VRAM всего	Примерная цена	Примечание
RTX 3080 20GB	4	80GB	$1400-1600	Базовый вариант
RTX 3080 20GB + 3080 10GB	4+1	90GB	$1700-1900	Смешанный
RTX 3080 Ti 20GB	4	80GB	$1800-2000	Лучшая производительность
RTX 3090 24GB (б/у)	4	96GB	$2400-2800	Без модификаций, но дороже

Полная спецификация сборки за $3500

Давайте считать все. Не только карты, но и корпус, питание, материнку, процессор. Система должна работать, а не дымиться при первом же запуске.

# server-spec.yaml
Материнская плата: ASUS Pro WS WRX80E-SAGE SE
Причина: 4 слота PCIe 4.0 x16, поддержка Threadripper Pro,
         7 слотов PCIe, идеально для 4 карт + NVMe
Цена: $600-700 (б/у)

Процессор: AMD Ryzen Threadripper Pro 3945WX
Причина: 12 ядер, 64 линии PCIe 4.0, поддержка 1TB RAM
Цена: $400-500 (б/у)

Оперативная память: 4×32GB DDR4 ECC = 128GB
Причина: Для кэширования слоев моделей, своппинга
Цена: $200-250

Блок питания: Seasonic PRIME TX-1600
Причина: 1600W, 80+ Titanium, достаточно для 4×350W карт
Цена: $400-450

Корпус: Fractal Design Meshify 2 XL
Причина: Поддержка E-ATX, 7 слотов расширения, хорошая вентиляция
Цена: $200

Накопители: 2×NVMe 2TB (один под систему, второй под модели)
Цена: $200

Видеокарты: 4× RTX 3080 20GB (модифицированные)
Цена: $1400-1600

Итого: $3400-3800

Важно: блок питания 1600W - это не прихоть. 4 карты RTX 3080 под нагрузкой потребляют 4×350W = 1400W. Плюс процессор, память, накопители. 1600W с запасом 10-15% - это безопасный минимум.

3 Сборка и первые проблемы

Карты пришли. Упаковка - простой антистатический пакет в пупырке. Никаких коробок, документации, дисков. Только карта. Включаете первую - работает. Вторая - тоже. Третья - артефакты в тесте памяти. Четвертая - не определяется в BIOS.

Это нормально. Из 4 карт 1-2 могут иметь проблемы. Вот что делаете:

Тестируете каждую карту отдельно в первом PCIe слоте
Запускаете GPU-Z, смотрите идентификатор устройства (должен быть 2216 для RTX 3080)
Проверяете память в OCCT или MemTest для GPU
Если карта не работает - сразу пишете поставщику в WeChat с видео

Поставщик обычно предлагает: "Отправьте обратно, мы починим или заменим". Но отправка в Китай стоит $50-100 и месяц времени. Лучше договориться о скидке на следующую партию или частичном возврате.

Настройка ПО: драйверы видят 20GB, но не доверяют

Устанавливаете последние драйверы NVIDIA. Запускаете nvidia-smi:

$ nvidia-smi
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 535.154.05   Driver Version: 535.154.05   CUDA Version: 12.2    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA GeForce ...  Off  | 00000000:41:00.0 Off |                  N/A |
| 30%   48C    P8    22W / 350W |      0MiB / 20480MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

Видите 20480MiB? Отлично. Система распознала 20GB. Но теперь начинаются настоящие проблемы.

Попробуйте запустить модель через llama.cpp с использованием всех карт:

# Так НЕ работает:
./llama-cli -m qwen2.5-32b.Q4_K_M.gguf -ngl 999 --split-mode layer \
  -t 16 -c 32768 -b 512 --gpu-layers 80
# Ошибка: CUDA out of memory

Почему? Потому что llama.cpp пытается распределить модель равномерно, но карты имеют разный объем памяти (на самом деле одинаковый, но драйвер может чудить). Нужно явно указать распределение:

# Правильно:
./llama-cli -m qwen2.5-32b.Q4_K_M.gguf \
  --tensor-split 5,5,5,5 \
  -ngl 999 -c 32768 -b 512

Флаг --tensor-split 5,5,5,5 распределяет модель по 5GB на каждую карту. Для 20GB карт это безопасно, оставляет место для кэша внимания.

Температурный ад: 4 карты вплотную

Вы собрали систему. Запустили стресс-тест. Через 5 минут температура верхней карты - 92°C, нижней - 78°C. Троттлинг. Производительность падает на 30%.

Что делают в Шэньчжэне? Они снимают штатные кулеры и ставят СВО (системы водяного охлаждения). Но это еще +$100 на карту. Наш бюджет уже на пределе.

Дешевое решение:

Установить корпусные вентиляторы 140mm на вдув спереди (3 штуки)
Поставить вентиляторы на выдув сверху (2 штуки) прямо над картами
Использовать PCIe-слоты с вентиляторами для забора воздуха снизу
Понизить лимит мощности карт до 280-300W через nvidia-smi

# Ограничение мощности для всех карт:
for i in {0..3}; do
  nvidia-smi -i $i -pl 280
done

# Проверка:
nvidia-smi -q -d POWER

Потеря производительности при снижении мощности с 350W до 280W: всего 8-12%. Температура падает на 15-20°C. Честная сделка.

Что можно запускать на 80-96GB VRAM?

Цифры. Конкретные цифры вместо абстрактных "больших моделей".

Модель	Параметры	Квантование	VRAM	Токенов/сек
Llama 3.1 405B	405B	IQ4_XS	~75GB	2-4
Qwen2.5 32B	32B	FP16 (полная)	~64GB	15-25
DeepSeek-V2.5 671B	671B	Q3_K_M	~85GB	0.5-1
Mixtral 8x22B	176B (эфф.)	Q4_K_M	~45GB	20-35

80GB хватает для Llama 3.1 405B в 4-битном квантовании с контекстом 8K. 96GB - уже с запасом для 16K контекста. Это не теоретические расчеты, а реальные тесты на такой же системе.

Альтернатива: может, лучше б/у сервер?

Пока вы читаете это, кто-то скажет: "За $3500 можно купить б/у сервер Dell R740 с 4× Tesla V100 32GB!" Правда? Давайте проверим.

Tesla V100 32GB на eBay: $800-1000 за штуку. 4 штуки = $3200-4000. Плюс сервер = $1500-2000. Итого: $4700-6000. И это без учета 1000W потребления под нагрузкой и шума как от пылесоса.

Наша сборка: $3500, 1200W потребления, относительно тихая. V100 имеет Tensor Cores первого поколения, RTX 3080 - третьего. Для LLM инференса Ampere (RTX 30xx) быстрее Volta (V100) на 40-60%.

💡

Есть еще вариант: подождать, пока китайцы освоят модификацию RTX 4070 Ti Super с 16GB до 32GB. Чипы памяти 2GB уже есть, плата имеет 8 позиций под память. Теоретически 8×2GB = 16GB, но можно поставить 2GB чипы и получить 16GB? Нет, 8×2GB = 16GB. Для 32GB нужны 4GB чипы, которых пока нет в массовом производстве. Следите за рынком.

Финальный совет: как не потерять деньги

Вы загорелись идеей. Хотите заказать прямо сейчас. Стоп. Сделайте так:

Найдите на местном рынке БУ RTX 3080 10GB за $400
Соберите систему с одной картой, протестируйте весь стек ПО
Убедитесь, что вам действительно нужны 80-96GB VRAM
Только потом заказывайте из Китая одну тестовую карту 20GB
Если все работает - заказывайте остальные три

Почему? Потому что 80% людей, которые собирают такие системы, через месяц понимают: им хватает одной RTX 4090 24GB. Или даже RTX 3080 10GB. Или вообще CPU-инференса через RAM.

Сервер на 96GB VRAM - это не цель. Это средство для конкретных задач: дообучение 70B+ моделей, инференс 400B+ моделей с большим контекстом, параллельная обработка десятков запросов. Если ваша задача - просто пообщаться с локальной LLM, есть варианты проще.

Но если вам действительно нужно 96GB VRAM, и бюджет $3500 - это ваш потолок, то китайские модифицированные карты из Шэньчжэня - единственный вариант. Рискованный, сложный, нервный, но работающий.

Пишите в комментариях, если собрали такую систему - поделитесь температурными показателями и стабильностью. Или если знаете поставщиков, которые действительно проверяют карты перед отправкой. Сообщество выигрывает, когда информация перестает быть секретом.

Гайд: Как собрать бюджетный сервер для LLM на 96GB VRAM из китайских GPU (Шэньчжэнь)