Сборка 120 ГБ VRAM на мини-ПК: 3x Tesla P40 + RTX 8000 Гайд 2026 | AiManual
AiManual Logo Ai / Manual.
28 Мар 2026 Гайд

Франкенштейн-сборка: 120 ГБ VRAM на мини-ПК — пошаговый гайд по подключению 4 GPU (3x P40 + RTX 8000)

Полный гайд по созданию монстра для локальных LLM: подключаем 3 Tesla P40 и RTX 8000 к мини-ПК через OCuLink и USB4. 120 ГБ VRAM для моделей 2026 года.

Зачем кому-то в здравом уме подключать 4 видеокарты к компьютеру размером с книгу?

Потому что в 2026 году даже квантованный MiniMax-M3.2 (а вы уже пробовали?) требует под 80 гигабайт VRAM для работы с контекстом в 128к токенов. Потому что GLM 5.0 в полной точности — это уже за 100 ГБ. Потому что ждать ответа от модели, которая свопится на SSD, — это как наблюдать, как сохнет краска.

Стандартные решения? Дорого. Серверная RTX 8000 Ada Generation — одна карта, 48 ГБ. Цена — как подержанный автомобиль. H200? Забудьте. Сообщество ищет обходные пути, и самый безумный из них — сварганить гибрид из старых серверных монстров и новых технологий подключения.

Идея проста: взять компактный, но мощный мини-ПК на Intel Core Ultra 9 285K или AMD Ryzen 9 9950X (актуально на март 2026), и навесить на него внешнюю ферму. Цель — 120 ГБ VRAM. Три Tesla P40 по 24 ГБ дают 72 ГБ. Плюс одна RTX 8000 (Ada или предыдущего поколения) — еще 48 ГБ. Итог — 120. Достаточно, чтобы поиграть с самыми тяжелыми моделями.

Это не для слабонервных. Здесь нет гарантий. Вы будете бороться с драйверами, физически модифицировать кулеры, и, возможно, увидите синий экран. Но если получится — вы получите уникальный инструмент за относительно небольшие деньги.

1 Что понадобится: список запчастей для нашего Франкенштейна

Собирать будем из того, что есть на вторичном рынке и в современных магазинах. Главное — понимать подводные камни каждого компонента.

Компонент Модель (пример) Ключевая задача Нюансы 2026 года
Мини-ПК (хост) Minisforum Neptune HX100 / Intel NUC 15 Pro Должен иметь 2x USB4 (режим PCIe Tunneling) и мощный CPU Ищите модели с чипами, где 12+ PCIe линий от процессора. Thunderbolt 5 уже есть, но драйверная поддержка под Linux пока сыровата.
Главная eGPU NVIDIA RTX 8000 (48 GB GDDR6) Основная карта для инференса, подключается через OCuLink На рынке много б/у карт из студий. Убедитесь, что это Ada Generation, а не предыдущая архитектура.
Карты для памяти 3x NVIDIA Tesla P40 (24 GB GDDR5) Обеспечивают объем VRAM для загрузки больших моделей Пассивное охлаждение. Без модификаций с кулерами они перегреются за минуты.
Интерфейс подключения 2x OCuLink адаптер (SFF-8612 to PCIe x16), 1x USB4 eGPU бокс Физическое соединение карт с мини-ПК OCuLink дает полные PCIe 4.0 x4 (аналог x4 внутри ПК). Это лучше, чем Thunderbolt 3. Для P40 достаточно.
Блок питания Серверный PSU 1200W + плата распределения (breakout board) Питание всех четырех карт P40 ест до 250W каждая, RTX 8000 — до 300W. Итого под 1100W. Блок должен быть надежным.
Охлаждение 3x активные кулеры для Tesla P40 (совместимые с GPU) Охлаждение пассивных карт P40 Придется снять штатный радиатор и прикрутить кулер с вентиляторами. Это точка отказа.
💡
Почему именно такая комбинация? RTX 8000 через OCuLink будет работать как основная карта для вычислений (высокие INT8/FP16 скорости). Три P40 — это, по сути, банки оперативной памяти с шиной PCIe. Современные фреймворки вроде vLLM 0.5.7 (актуально на март 2026) умеют распределять слои модели по разным устройствам, используя P40 только для хранения весов.

2 Шаг первый: физическая сборка и модификация кулеров (самое страшное)

Сначала разберемся с P40. Они приедут к вам с огромным пассивным радиатором. Без обдува в вашей сборке они моментально уйдут в троттлинг (thermal throttling) при нагрузке.

Ошибка новичка: попытаться поставить P40 в корпус с общим обдувом. Не выйдет. Тепло просто не будет успевать отводиться от радиатора. Нужен направленный воздушный поток прямо на ребра.

Что делаем:

  1. Аккуратно откручиваем штатный радиатор от платы P40. Под ним — термопрокладки на GPU и чипы памяти.
  2. Берем совместимый активный кулер (например, от старой игровой карты или специальный для серверных GPU). Критично: убедиться, что высота кулера позволит установить карты рядом, если они будут стоять в стойке.
  3. Наносим свежую термопасту на GPU и заменяем термопрокладки на чипах памяти, если они рассыпались (а они часто рассыпаются).
  4. Прикручиваем новый кулер. Не перетягивайте винты, можно повредить кристалл.

Повторить для трех карт. Готово? Теперь у вас три P40, которые хоть и шумные, но не расплавятся.

3 Шаг второй: организация питания и подключения

У вас есть четыре карты, мини-ПК и куча проводов. Самый чистый способ — использовать серверный блок питания (например, от HP или Dell) с платой-распределителем. Он обеспечит стабильные 12V линии.

Схема подключения:

  • Мини-ПК включается отдельно, от своего штатного блока.
  • Серверный БП 1200W+ включается вручную (замкнуть контакты PS-ON и GND) или через специальный контроллер.
  • От платы распределения запитать все четыре видеокарты через PCIe 8-pin кабели.
  • Важно: для RTX 8000, возможно, потребуется два 8-pin или 12VHPWR коннектор. Используйте родные кабели, идущие в комплекте с БП.

Теперь подключение данных:

  • RTX 8000 подключается к одному из OCuLink портов мини-ПК (через адаптер OCuLink to PCIe x16).
  • Две P40 подключаются к второму OCuLink порту и к USB4 порту через eGPU бокс.
  • Третья P40? Здесь придется проявить изобретательность. Если на мини-ПК есть второй USB4, используем его. Если нет — можно попробовать использовать PCIe-коммутатор на один из существующих портов, но это уже высший пилотаж.

В теории, ваш мини-ПК теперь должен увидеть четыре карты как отдельные устройства PCIe. Но это только в теории.

4 Шаг третий: установка ОС и драйверов (ад под Linux)

Windows? Забудьте. Стабильная работа с таким зоопарком железа возможна только под Linux. Ubuntu 24.04 LTS или свежий Rolling Release дистрибутив.

Первая проблема: драйвера NVIDIA. Вам нужна версия 560.x или новее (актуально на март 2026), которая поддерживает и старые Pascal (P40), и современные Ada Lovelace (RTX 8000 Ada).

# Устанавливаем проприетарные драйверы
sudo apt update
sudo apt install nvidia-driver-560 nvidia-utils-560

# Или через официальный репозиторий NVIDIA, если версия новее
# Следите за обновлениями на developer.nvidia.com

После перезагрузки команда nvidia-smi должна показать все четыре карты. Если показывает только три или две — начинается детектив.

Распространенная загвоздка: карты, подключенные через OCuLink/USB4, могут требовать дополнительной настройки ядра. Убедитесь, что в BIOS/UEFI мини-ПК включен PCIe Tunneling для USB4 и что используется последняя версия микрокода.

Вторая проблема: PCIe Bus ID. Карты будут разбросаны по разным PCIe доменам. Это нормально. Но для работы фреймворков вроде vLLM или llama.cpp с несколькими GPU нужно явно указать, какие устройства использовать.

# Проверяем топологию
nvidia-smi topo -m

# Убедимся, что P2P (Peer-to-Peer) доступен между некоторыми картами
# Но между P40 и RTX 8000 его скорее всего не будет из-за разных архитектур.

5 Шаг четвертый: тестирование и запуск реальной модели

Железо работает, драйвера стоят. Проверим стабильность.

# Нагрузим все карты тестом из утилиты NVIDIA
sudo nvidia-smi -pm 1  # Включим персистентный режим
for i in {0..3}; do nvidia-smi -i $i -pl 200 & done  # Ограничим мощность для теста
stress-ng --matrix 0 --timeout 60s  # Нагрузка на CPU, чтобы спровоцировать передачу данных

Следите за температурами (watch nvidia-smi). P40 не должны превышать 85°C.

Теперь самое интересное — запуск модели. Возьмем, например, Qwen2.5-Coder 32B в формате GPTQ (квантованная до 4 бит). Ей нужно примерно 24-28 ГБ VRAM.

# Пример для llama.cpp с поддержкой нескольких GPU (обязательно собранной с CUDA)
./main -m qwen2.5-coder-32b-q4_k_m.gguf -n 512 -ngl 999 --tensor-split 12,12,12,12

Флаг --tensor-split распределяет слои модели по VRAM четырех карт. Но это для единой модели. Более практичный сценарий в 2026 году — использование P40 для оффлоудинга (offloading) через фреймворк, подобный TGI или vLLM. Можно указать RTX 8000 как основной device для вычислений, а P40 — как медленное, но большое хранилище для весов.

💡
Настройка экосистемы: Установите последнюю версию CUDA Toolkit 12.6+ и cuDNN 9.x. Для Python окружения используйте uv или rye — они быстрее pip. Критично обновить bitsandbytes до версии, поддерживающей ваши карты (для P40 может потребоваться компиляция с флагами для SM 6.1).

Что делать, если все сломалось? Типичные грабли

  • Карты не определяются в nvidia-smi, но видны в lspci. Проблема с драйвером NVML. Попробуйте полностью удалить драйвер (sudo nvidia-uninstall) и поставить заново с официального сайта NVIDIA. Помогает часто.
  • Одна из P40 отключается под нагрузкой. Нехватка питания. Убедитесь, что каждый 8-pin коннектор идет отдельным кабелем от БП, а не разветвителем.
  • Ужасная пропускная способность через USB4. Проверьте, что в BIOS отключены все энергосберегающие функции для PCIe (ASPM). И что используете качественный кабель.
  • Система зависает при обращении к нескольким картам. Возможен конфликт PCIe доменов. Попробуйте добавить параметр ядра pci=assign-buses в загрузчик.

Стоило ли оно того? Мой вердикт

Эта сборка — чистая инженерия ради инженерии. Она неэффективна с точки зрения энергопотребления (под 1000 ватт в пике). Она шумная. Она требует постоянной возни.

Но. Она дает вам 120 ГБ VRAM за сумму, которая в 3-4 раза меньше, чем стоимость одной новой серверной карты с аналогичным объемом. Это окно в мир огромных локальных моделей, которое иначе было бы закрыто. Вы запустите и MiniMax-M3.2, и экспериментальные модели размером 400B+ параметров, о которых другие только читают в блогах.

Это хак. Это Франкенштейн. Но иногда монстр — это именно то, что вам нужно, чтобы догнать будущее, которое уже наступило.

Последний совет: Если идея возни с железом вас не прельщает, а VRAM нужен, посмотрите в сторону облачных инстансов с GPU. Но если вы, как и я, получаете кайф от того, чтобы заставить работать то, что не должно работать — добро пожаловать в клуб. Ваш следующий шаг — возможно, сборка мобильной станции на 768 ГБ. Или, для начала, более простая интеграция второго GPU в обычный ПК.

Подписаться на канал