Зачем кому-то в здравом уме подключать 4 видеокарты к компьютеру размером с книгу?
Потому что в 2026 году даже квантованный MiniMax-M3.2 (а вы уже пробовали?) требует под 80 гигабайт VRAM для работы с контекстом в 128к токенов. Потому что GLM 5.0 в полной точности — это уже за 100 ГБ. Потому что ждать ответа от модели, которая свопится на SSD, — это как наблюдать, как сохнет краска.
Стандартные решения? Дорого. Серверная RTX 8000 Ada Generation — одна карта, 48 ГБ. Цена — как подержанный автомобиль. H200? Забудьте. Сообщество ищет обходные пути, и самый безумный из них — сварганить гибрид из старых серверных монстров и новых технологий подключения.
Идея проста: взять компактный, но мощный мини-ПК на Intel Core Ultra 9 285K или AMD Ryzen 9 9950X (актуально на март 2026), и навесить на него внешнюю ферму. Цель — 120 ГБ VRAM. Три Tesla P40 по 24 ГБ дают 72 ГБ. Плюс одна RTX 8000 (Ada или предыдущего поколения) — еще 48 ГБ. Итог — 120. Достаточно, чтобы поиграть с самыми тяжелыми моделями.
Это не для слабонервных. Здесь нет гарантий. Вы будете бороться с драйверами, физически модифицировать кулеры, и, возможно, увидите синий экран. Но если получится — вы получите уникальный инструмент за относительно небольшие деньги.
1 Что понадобится: список запчастей для нашего Франкенштейна
Собирать будем из того, что есть на вторичном рынке и в современных магазинах. Главное — понимать подводные камни каждого компонента.
| Компонент | Модель (пример) | Ключевая задача | Нюансы 2026 года |
|---|---|---|---|
| Мини-ПК (хост) | Minisforum Neptune HX100 / Intel NUC 15 Pro | Должен иметь 2x USB4 (режим PCIe Tunneling) и мощный CPU | Ищите модели с чипами, где 12+ PCIe линий от процессора. Thunderbolt 5 уже есть, но драйверная поддержка под Linux пока сыровата. |
| Главная eGPU | NVIDIA RTX 8000 (48 GB GDDR6) | Основная карта для инференса, подключается через OCuLink | На рынке много б/у карт из студий. Убедитесь, что это Ada Generation, а не предыдущая архитектура. |
| Карты для памяти | 3x NVIDIA Tesla P40 (24 GB GDDR5) | Обеспечивают объем VRAM для загрузки больших моделей | Пассивное охлаждение. Без модификаций с кулерами они перегреются за минуты. |
| Интерфейс подключения | 2x OCuLink адаптер (SFF-8612 to PCIe x16), 1x USB4 eGPU бокс | Физическое соединение карт с мини-ПК | OCuLink дает полные PCIe 4.0 x4 (аналог x4 внутри ПК). Это лучше, чем Thunderbolt 3. Для P40 достаточно. |
| Блок питания | Серверный PSU 1200W + плата распределения (breakout board) | Питание всех четырех карт | P40 ест до 250W каждая, RTX 8000 — до 300W. Итого под 1100W. Блок должен быть надежным. |
| Охлаждение | 3x активные кулеры для Tesla P40 (совместимые с GPU) | Охлаждение пассивных карт P40 | Придется снять штатный радиатор и прикрутить кулер с вентиляторами. Это точка отказа. |
2 Шаг первый: физическая сборка и модификация кулеров (самое страшное)
Сначала разберемся с P40. Они приедут к вам с огромным пассивным радиатором. Без обдува в вашей сборке они моментально уйдут в троттлинг (thermal throttling) при нагрузке.
Ошибка новичка: попытаться поставить P40 в корпус с общим обдувом. Не выйдет. Тепло просто не будет успевать отводиться от радиатора. Нужен направленный воздушный поток прямо на ребра.
Что делаем:
- Аккуратно откручиваем штатный радиатор от платы P40. Под ним — термопрокладки на GPU и чипы памяти.
- Берем совместимый активный кулер (например, от старой игровой карты или специальный для серверных GPU). Критично: убедиться, что высота кулера позволит установить карты рядом, если они будут стоять в стойке.
- Наносим свежую термопасту на GPU и заменяем термопрокладки на чипах памяти, если они рассыпались (а они часто рассыпаются).
- Прикручиваем новый кулер. Не перетягивайте винты, можно повредить кристалл.
Повторить для трех карт. Готово? Теперь у вас три P40, которые хоть и шумные, но не расплавятся.
3 Шаг второй: организация питания и подключения
У вас есть четыре карты, мини-ПК и куча проводов. Самый чистый способ — использовать серверный блок питания (например, от HP или Dell) с платой-распределителем. Он обеспечит стабильные 12V линии.
Схема подключения:
- Мини-ПК включается отдельно, от своего штатного блока.
- Серверный БП 1200W+ включается вручную (замкнуть контакты PS-ON и GND) или через специальный контроллер.
- От платы распределения запитать все четыре видеокарты через PCIe 8-pin кабели.
- Важно: для RTX 8000, возможно, потребуется два 8-pin или 12VHPWR коннектор. Используйте родные кабели, идущие в комплекте с БП.
Теперь подключение данных:
- RTX 8000 подключается к одному из OCuLink портов мини-ПК (через адаптер OCuLink to PCIe x16).
- Две P40 подключаются к второму OCuLink порту и к USB4 порту через eGPU бокс.
- Третья P40? Здесь придется проявить изобретательность. Если на мини-ПК есть второй USB4, используем его. Если нет — можно попробовать использовать PCIe-коммутатор на один из существующих портов, но это уже высший пилотаж.
В теории, ваш мини-ПК теперь должен увидеть четыре карты как отдельные устройства PCIe. Но это только в теории.
4 Шаг третий: установка ОС и драйверов (ад под Linux)
Windows? Забудьте. Стабильная работа с таким зоопарком железа возможна только под Linux. Ubuntu 24.04 LTS или свежий Rolling Release дистрибутив.
Первая проблема: драйвера NVIDIA. Вам нужна версия 560.x или новее (актуально на март 2026), которая поддерживает и старые Pascal (P40), и современные Ada Lovelace (RTX 8000 Ada).
# Устанавливаем проприетарные драйверы
sudo apt update
sudo apt install nvidia-driver-560 nvidia-utils-560
# Или через официальный репозиторий NVIDIA, если версия новее
# Следите за обновлениями на developer.nvidia.com
После перезагрузки команда nvidia-smi должна показать все четыре карты. Если показывает только три или две — начинается детектив.
Распространенная загвоздка: карты, подключенные через OCuLink/USB4, могут требовать дополнительной настройки ядра. Убедитесь, что в BIOS/UEFI мини-ПК включен PCIe Tunneling для USB4 и что используется последняя версия микрокода.
Вторая проблема: PCIe Bus ID. Карты будут разбросаны по разным PCIe доменам. Это нормально. Но для работы фреймворков вроде vLLM или llama.cpp с несколькими GPU нужно явно указать, какие устройства использовать.
# Проверяем топологию
nvidia-smi topo -m
# Убедимся, что P2P (Peer-to-Peer) доступен между некоторыми картами
# Но между P40 и RTX 8000 его скорее всего не будет из-за разных архитектур.
5 Шаг четвертый: тестирование и запуск реальной модели
Железо работает, драйвера стоят. Проверим стабильность.
# Нагрузим все карты тестом из утилиты NVIDIA
sudo nvidia-smi -pm 1 # Включим персистентный режим
for i in {0..3}; do nvidia-smi -i $i -pl 200 & done # Ограничим мощность для теста
stress-ng --matrix 0 --timeout 60s # Нагрузка на CPU, чтобы спровоцировать передачу данных
Следите за температурами (watch nvidia-smi). P40 не должны превышать 85°C.
Теперь самое интересное — запуск модели. Возьмем, например, Qwen2.5-Coder 32B в формате GPTQ (квантованная до 4 бит). Ей нужно примерно 24-28 ГБ VRAM.
# Пример для llama.cpp с поддержкой нескольких GPU (обязательно собранной с CUDA)
./main -m qwen2.5-coder-32b-q4_k_m.gguf -n 512 -ngl 999 --tensor-split 12,12,12,12
Флаг --tensor-split распределяет слои модели по VRAM четырех карт. Но это для единой модели. Более практичный сценарий в 2026 году — использование P40 для оффлоудинга (offloading) через фреймворк, подобный TGI или vLLM. Можно указать RTX 8000 как основной device для вычислений, а P40 — как медленное, но большое хранилище для весов.
Что делать, если все сломалось? Типичные грабли
- Карты не определяются в nvidia-smi, но видны в lspci. Проблема с драйвером NVML. Попробуйте полностью удалить драйвер (
sudo nvidia-uninstall) и поставить заново с официального сайта NVIDIA. Помогает часто. - Одна из P40 отключается под нагрузкой. Нехватка питания. Убедитесь, что каждый 8-pin коннектор идет отдельным кабелем от БП, а не разветвителем.
- Ужасная пропускная способность через USB4. Проверьте, что в BIOS отключены все энергосберегающие функции для PCIe (ASPM). И что используете качественный кабель.
- Система зависает при обращении к нескольким картам. Возможен конфликт PCIe доменов. Попробуйте добавить параметр ядра
pci=assign-busesв загрузчик.
Стоило ли оно того? Мой вердикт
Эта сборка — чистая инженерия ради инженерии. Она неэффективна с точки зрения энергопотребления (под 1000 ватт в пике). Она шумная. Она требует постоянной возни.
Но. Она дает вам 120 ГБ VRAM за сумму, которая в 3-4 раза меньше, чем стоимость одной новой серверной карты с аналогичным объемом. Это окно в мир огромных локальных моделей, которое иначе было бы закрыто. Вы запустите и MiniMax-M3.2, и экспериментальные модели размером 400B+ параметров, о которых другие только читают в блогах.
Это хак. Это Франкенштейн. Но иногда монстр — это именно то, что вам нужно, чтобы догнать будущее, которое уже наступило.
Последний совет: Если идея возни с железом вас не прельщает, а VRAM нужен, посмотрите в сторону облачных инстансов с GPU. Но если вы, как и я, получаете кайф от того, чтобы заставить работать то, что не должно работать — добро пожаловать в клуб. Ваш следующий шаг — возможно, сборка мобильной станции на 768 ГБ. Или, для начала, более простая интеграция второго GPU в обычный ПК.