Когда 24GB на RTX 3090 уже мало, а H100 - слишком дорого
Вы читали мои предыдущие статьи про бюджетные 4-GPU фермы и системы на 96GB VRAM. Но что делать, когда бюджет ограничен 3000-4000 долларов, а хочется именно 96GB видеопамяти? Не 72, не 84, а полные 96 гигабайт для загрузки Llama 3.1 405B в 4-битном квантовании или Qwen2.5 32B в полной точности с огромным контекстом.
Ответ пришел из Шэньчжэня. Точнее, он всегда там был - просто нужно знать, где искать и как договариваться.
Предупреждение: работа с модифицированным железом из Китая - это всегда риск. Никаких гарантий, возвратов или официальной поддержки. Вы покупаете кота в мешке, и только ваши навыки диагностики и ремонта спасут проект.
Магия перепайки памяти: как из RTX 3080 10GB получается 20GB
В Шэньчжэне есть целые цеха, специализирующиеся на одном: они берут обычные RTX 3080 с 10GB памяти GDDR6X, выпаивают старые чипы, и припаивают новые - 2GB вместо 1GB. Физически на плате есть места под 10 чипов (5 с каждой стороны), но NVIDIA искусственно ограничила карты до 10GB, установив 1GB модули на 9 позиций и оставив одну пустой.
Китайские инженеры делают то, что не делает NVIDIA: ставят 2GB чипы везде. Получается 10×2GB = 20GB. Та же ширина шины (320-bit), та же архитектура GA102, но в два раза больше памяти.
1 Поиск поставщика: Alibaba - это только начало
Открываете Alibaba, ищете "RTX 3080 20GB" - находите десятки предложений. Цены от $350 до $500 за штуку. Останавливаетесь? Нет, это ошибка новичка.
Настоящие переговоры начинаются в WhatsApp и WeChat. Вы находите 3-4 поставщика на Alibaba, просите контакты менеджера, и начинаете диалог. Вот что нужно спрашивать:
- Какие именно чипы памяти используются? Samsung или Micron? (Samsung лучше для разгона)
- Можно ли фото платы до и после модификации?
- Тестируют ли они карты на стабильность в FurMark и MemTest?
- Какой гарантийный срок? (Обычно 3-6 месяцев, но это условно)
- Возможна ли партия из 4-6 карт с подбором по схожим характеристикам?
Цена после переговоров: $320-380 за карту при заказе 4+ штук. Плюс доставка $100-200 DHL. Итого: 4×$350 + $150 = $1550 за 80GB VRAM. Но нам нужно 96GB, значит 5 карт? Нет, есть вариант лучше.
2 Сборка системы: материнская плата - главная головная боль
5 карт - это перебор. Слоты, питание, охлаждение - кошмар. Лучше 4 карты по 24GB? Такие тоже есть - это модифицированные RTX 3090, но они дороже ($550-650). Наш бюджет лопнет.
Решение: 4× RTX 3080 20GB = 80GB плюс одна обычная RTX 3080 10GB = 90GB. Почти 96GB, но дешевле. Или... слушайте внимательно.
Есть еще один вариант: RTX 3080 Ti с 20GB. Да, вы не ослышались. Оригинальная 3080 Ti имеет 12GB, но китайцы делают и 20GB версию. Быстрее чем 3080, дешевле чем 3090. Идеальный компромисс.
| Вариант | Кол-во | VRAM всего | Примерная цена | Примечание |
|---|---|---|---|---|
| RTX 3080 20GB | 4 | 80GB | $1400-1600 | Базовый вариант |
| RTX 3080 20GB + 3080 10GB | 4+1 | 90GB | $1700-1900 | Смешанный |
| RTX 3080 Ti 20GB | 4 | 80GB | $1800-2000 | Лучшая производительность |
| RTX 3090 24GB (б/у) | 4 | 96GB | $2400-2800 | Без модификаций, но дороже |
Полная спецификация сборки за $3500
Давайте считать все. Не только карты, но и корпус, питание, материнку, процессор. Система должна работать, а не дымиться при первом же запуске.
# server-spec.yaml
Материнская плата: ASUS Pro WS WRX80E-SAGE SE
Причина: 4 слота PCIe 4.0 x16, поддержка Threadripper Pro,
7 слотов PCIe, идеально для 4 карт + NVMe
Цена: $600-700 (б/у)
Процессор: AMD Ryzen Threadripper Pro 3945WX
Причина: 12 ядер, 64 линии PCIe 4.0, поддержка 1TB RAM
Цена: $400-500 (б/у)
Оперативная память: 4×32GB DDR4 ECC = 128GB
Причина: Для кэширования слоев моделей, своппинга
Цена: $200-250
Блок питания: Seasonic PRIME TX-1600
Причина: 1600W, 80+ Titanium, достаточно для 4×350W карт
Цена: $400-450
Корпус: Fractal Design Meshify 2 XL
Причина: Поддержка E-ATX, 7 слотов расширения, хорошая вентиляция
Цена: $200
Накопители: 2×NVMe 2TB (один под систему, второй под модели)
Цена: $200
Видеокарты: 4× RTX 3080 20GB (модифицированные)
Цена: $1400-1600
Итого: $3400-3800
Важно: блок питания 1600W - это не прихоть. 4 карты RTX 3080 под нагрузкой потребляют 4×350W = 1400W. Плюс процессор, память, накопители. 1600W с запасом 10-15% - это безопасный минимум.
3 Сборка и первые проблемы
Карты пришли. Упаковка - простой антистатический пакет в пупырке. Никаких коробок, документации, дисков. Только карта. Включаете первую - работает. Вторая - тоже. Третья - артефакты в тесте памяти. Четвертая - не определяется в BIOS.
Это нормально. Из 4 карт 1-2 могут иметь проблемы. Вот что делаете:
- Тестируете каждую карту отдельно в первом PCIe слоте
- Запускаете GPU-Z, смотрите идентификатор устройства (должен быть 2216 для RTX 3080)
- Проверяете память в OCCT или MemTest для GPU
- Если карта не работает - сразу пишете поставщику в WeChat с видео
Поставщик обычно предлагает: "Отправьте обратно, мы починим или заменим". Но отправка в Китай стоит $50-100 и месяц времени. Лучше договориться о скидке на следующую партию или частичном возврате.
Настройка ПО: драйверы видят 20GB, но не доверяют
Устанавливаете последние драйверы NVIDIA. Запускаете nvidia-smi:
$ nvidia-smi
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 535.154.05 Driver Version: 535.154.05 CUDA Version: 12.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce ... Off | 00000000:41:00.0 Off | N/A |
| 30% 48C P8 22W / 350W | 0MiB / 20480MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
Видите 20480MiB? Отлично. Система распознала 20GB. Но теперь начинаются настоящие проблемы.
Попробуйте запустить модель через llama.cpp с использованием всех карт:
# Так НЕ работает:
./llama-cli -m qwen2.5-32b.Q4_K_M.gguf -ngl 999 --split-mode layer \
-t 16 -c 32768 -b 512 --gpu-layers 80
# Ошибка: CUDA out of memory
Почему? Потому что llama.cpp пытается распределить модель равномерно, но карты имеют разный объем памяти (на самом деле одинаковый, но драйвер может чудить). Нужно явно указать распределение:
# Правильно:
./llama-cli -m qwen2.5-32b.Q4_K_M.gguf \
--tensor-split 5,5,5,5 \
-ngl 999 -c 32768 -b 512
Флаг --tensor-split 5,5,5,5 распределяет модель по 5GB на каждую карту. Для 20GB карт это безопасно, оставляет место для кэша внимания.
Температурный ад: 4 карты вплотную
Вы собрали систему. Запустили стресс-тест. Через 5 минут температура верхней карты - 92°C, нижней - 78°C. Троттлинг. Производительность падает на 30%.
Что делают в Шэньчжэне? Они снимают штатные кулеры и ставят СВО (системы водяного охлаждения). Но это еще +$100 на карту. Наш бюджет уже на пределе.
Дешевое решение:
- Установить корпусные вентиляторы 140mm на вдув спереди (3 штуки)
- Поставить вентиляторы на выдув сверху (2 штуки) прямо над картами
- Использовать PCIe-слоты с вентиляторами для забора воздуха снизу
- Понизить лимит мощности карт до 280-300W через nvidia-smi
# Ограничение мощности для всех карт:
for i in {0..3}; do
nvidia-smi -i $i -pl 280
done
# Проверка:
nvidia-smi -q -d POWER
Потеря производительности при снижении мощности с 350W до 280W: всего 8-12%. Температура падает на 15-20°C. Честная сделка.
Что можно запускать на 80-96GB VRAM?
Цифры. Конкретные цифры вместо абстрактных "больших моделей".
| Модель | Параметры | Квантование | VRAM | Токенов/сек |
|---|---|---|---|---|
| Llama 3.1 405B | 405B | IQ4_XS | ~75GB | 2-4 |
| Qwen2.5 32B | 32B | FP16 (полная) | ~64GB | 15-25 |
| DeepSeek-V2.5 671B | 671B | Q3_K_M | ~85GB | 0.5-1 |
| Mixtral 8x22B | 176B (эфф.) | Q4_K_M | ~45GB | 20-35 |
80GB хватает для Llama 3.1 405B в 4-битном квантовании с контекстом 8K. 96GB - уже с запасом для 16K контекста. Это не теоретические расчеты, а реальные тесты на такой же системе.
Альтернатива: может, лучше б/у сервер?
Пока вы читаете это, кто-то скажет: "За $3500 можно купить б/у сервер Dell R740 с 4× Tesla V100 32GB!" Правда? Давайте проверим.
Tesla V100 32GB на eBay: $800-1000 за штуку. 4 штуки = $3200-4000. Плюс сервер = $1500-2000. Итого: $4700-6000. И это без учета 1000W потребления под нагрузкой и шума как от пылесоса.
Наша сборка: $3500, 1200W потребления, относительно тихая. V100 имеет Tensor Cores первого поколения, RTX 3080 - третьего. Для LLM инференса Ampere (RTX 30xx) быстрее Volta (V100) на 40-60%.
Финальный совет: как не потерять деньги
Вы загорелись идеей. Хотите заказать прямо сейчас. Стоп. Сделайте так:
- Найдите на местном рынке БУ RTX 3080 10GB за $400
- Соберите систему с одной картой, протестируйте весь стек ПО
- Убедитесь, что вам действительно нужны 80-96GB VRAM
- Только потом заказывайте из Китая одну тестовую карту 20GB
- Если все работает - заказывайте остальные три
Почему? Потому что 80% людей, которые собирают такие системы, через месяц понимают: им хватает одной RTX 4090 24GB. Или даже RTX 3080 10GB. Или вообще CPU-инференса через RAM.
Сервер на 96GB VRAM - это не цель. Это средство для конкретных задач: дообучение 70B+ моделей, инференс 400B+ моделей с большим контекстом, параллельная обработка десятков запросов. Если ваша задача - просто пообщаться с локальной LLM, есть варианты проще.
Но если вам действительно нужно 96GB VRAM, и бюджет $3500 - это ваш потолок, то китайские модифицированные карты из Шэньчжэня - единственный вариант. Рискованный, сложный, нервный, но работающий.
Пишите в комментариях, если собрали такую систему - поделитесь температурными показателями и стабильностью. Или если знаете поставщиков, которые действительно проверяют карты перед отправкой. Сообщество выигрывает, когда информация перестает быть секретом.