Зачем вообще такое строить? (Или почему облака — это не всегда ответ)
Представьте: вы графический дизайнер, работающий с AI-генерацией видео. Каждый кадр — это запрос к модели типа Stable Video Diffusion 3.1 или новой Sora-подобной системе. Каждый эксперимент с промптом — это доллары в облачном провайдере. А ещё есть задержки, ограничения API, конфиденциальность клиентских данных.
Теперь представьте другую картину: у вас под столом стоит собственная станция. 768 гигабайт видеопамяти. Вы запускаете Deepseek V3.2 (671B параметров, MoE-архитектура) полностью локально. Или Kimi K2 с её контекстом в 1 миллион токенов. Без интернета. Без счётчиков. Без ограничений.
Это не фантастика. Это реальность за $17 000. Дорого? Да. Но окупаемость при профессиональном использовании — 6-12 месяцев. А дальше — чистая экономия и полный контроль.
Важный нюанс на 20.01.2026: MoE-модели (Mixture of Experts) стали стандартом для больших систем. Deepseek V3.2, Kimi K2, Qwen 2.5-MoE — все они требуют огромного VRAM, но активируют только часть параметров за раз. Это меняет правила игры для локального железа.
Проблема: как запихнуть невпихуемое
Классические сборки упираются в лимиты: 4 слота PCIe на материнке, 1600 ватт на блоке питания, теплоотвод в 1500+ ватт. Хочется 10 карт? Приготовьтесь к серверным шасси, трёхфазному питанию и шуму как в дата-центре.
Наша цель другая: мобильная станция. Её можно перевезти в машине. Установить в офисе без модификации электросети. Она должна быть относительно тихой (для такой мощности).
Парадокс? Да. Но решаемый.
Решение: Threadripper Pro + внешние боксы
Сердце системы — AMD Threadripper Pro 3995WX. 64 ядра, 128 потоков, но главное — 128 линий PCIe 4.0. Это в 4 раза больше, чем у десктопных Ryzen. Эти линии — наша суперсила.
Мы не будем пихать все карты внутрь одного корпуса. Мы используем гибридный подход, похожий на тот, что описан в статье про 3× RTX 3090 и eGPU, но в промышленном масштабе.
| Компонент | Модель | Кол-во | Стоимость (примерно) | Зачем |
|---|---|---|---|---|
| Процессор | AMD Threadripper Pro 3995WX | 1 | $4,500 | 128 линий PCIe 4.0, много ядер для препроцессинга |
| Материнская плата | ASUS Pro WS WRX80E-SAGE SE | 1 | $800 | 7 слотов PCIe x16, поддержка Pro-процессоров |
| Оперативная память | DDR4 ECC 256 ГБ (8×32 ГБ) | 1 комплект | $900 | Буфер для данных, модели вне VRAM |
| Видеокарты | NVIDIA RTX 4090 24 ГБ | 10 | $1,600 × 10 = $16,000 | Основной вычислительный ресурс |
| Блок питания (внутр.) | Seasonic PRIME TX-1600 | 1 | $500 | Питание материнки и 4 карт |
| Внешние блоки питания | HP Server PSU 1200W + плата Breakout | 4 набора | $150 × 4 = $600 | Питание остальных 6 карт |
| eGPU боксы (модиф.) | Razer Core X Chroma (без БП) | 3 | $300 × 3 = $900 | Внешние корпуса для карт |
| Кабели PCIe | PCIe 4.0 x16 Riser кабели 50 см | 10 | $50 × 10 = $500 | Подключение карт |
| Корпус | Cooler Master HAF 700 Evo | 1 | $350 | Много места, хороший airflow |
| Накопители | Samsung 990 Pro 4TB | 2 | $400 × 2 = $800 | Модели, датасеты, ОС |
| Итого | ~$17,250 |
Стоп. 10 RTX 4090 по $1,600? Это же $16,000 только на карты! Да, но здесь есть хитрость. Мы берём б/у карты с майнинг-ферм (после краха очередной крипто-зимы). На 20.01.2026 их можно найти по $900-1,100 за штуку. Экономия $5,000-7,000. Риск? Да. Но проверка стресс-тестом и замена термопасты решают 90% проблем.
Архитектура: как это всё соединить
Внутри основного корпуса (Cooler Master HAF 700):
- Материнская плата с процессором и памятью
- 4 видеокарты RTX 4090, установленные напрямую или через райзеры
- Основной блок питания 1600W
- Два SSD
Рядом — три модифицированных eGPU бокса (Razer Core X Chroma):
- Из каждого выкинут родной БП (он слабый)
- Внутрь установлены по 2 видеокарты
- Питание — от внешних серверных БП HP 1200W (они дешёвые, эффективные и громкие, но боксы заглушают шум)
- Каждый бокс подключается к материнской плате через PCIe райзер-кабель
Итого: 4 + (3×2) = 10 карт. Все получают минимум PCIe 4.0 x8 (благодаря 128 линиям Threadripper). Для MoE-инференса, как мы помним из статьи про PCIe 5.0, полоса x8 PCIe 4.0 более чем достаточна.
1 Сборка основного корпуса
Установите процессор, кулер (обязательно водяное охлаждение, 360 мм), память. Вставьте 4 видеокарты в слоты 1, 3, 5, 7 (через райзеры, чтобы было пространство для airflow). Подключите основной БП. Закрепите SSD.
Ошибка номер один: ставить карты вплотную. Температура взлетит до 90°C за минуты. Используйте райзеры, оставляйте хотя бы один слот пустым между картами.
2 Модификация eGPU боксов
Разберите Razer Core X Chroma. Аккуратно отсоедините и выньте родной блок питания. Установите внутрь две видеокарты (тоже через райзеры, если не влезают). Выведите наружу два 8-пиновых разъёма PCIe для питания от внешних БП.
Для подключения к системе: из каждого бокса выходит PCIe райзер-кабель (50 см). Эти кабели подключаются к оставшимся слотам на материнской плате.
3 Организация питания
4 карты в основном корпусе питаются от Seasonic 1600W. 6 карт в eGPU боксах — от 4 серверных БП HP 1200W (по одному БП на 1.5 карты, с запасом).
Серверные БП включаются коротким замыканием контактов. Сделайте для каждого простую кнопку включения. Или подключите к материнке через адаптер.
Внимание! Общая потребляемая мощность системы под нагрузкой — около 3500-4000 ватт. Убедитесь, что розетка и проводка выдержат. Идеально — две отдельные линии 220В/16А. Не включайте в одну розетку через тройник!
4 Программная настройка
Установите Ubuntu 24.04 LTS (или новее, актуальную на 20.01.2026). Драйвера NVIDIA последней стабильной версии.
Ключевой момент — настройка CUDA_VISIBLE_DEVICES и использование правильных фреймворков.
# Проверяем, что все 10 карт видны
nvidia-smi -L
# Устанавливаем vLLM с поддержкой Tensor Parallelism
pip install vllm
# Запускаем Deepseek V3.2 на всех картах
python -m vllm.entrypoints.openai.api_server \
--model deepseek-ai/DeepSeek-V3.2 \
--tensor-parallel-size 10 \
--gpu-memory-utilization 0.95 \
--max-model-len 131072
Для MoE-моделей важен параметр --tensor-parallel-size. Он должен равняться количеству карт (или делителю). vLLM автоматически распределит экспертов по устройствам.
Что можно делать на этой станции? (Практическое применение)
1. Локальный инференс гигантских MoE-моделей: Deepseek V3.2 (671B), Kimi K2 (поговаривают о 500B+), Qwen 2.5-MoE. Полная точность (FP16), контекст до 1M токенов. Задержка генерации — секунды, а не минуты.
2. Генерация видео: Запуск Stable Video Diffusion 3.1 в batch-режиме. Одновременно генерировать 10 разных видео по 5 секунд. Или одно длинное, разбитое на сегменты.
3. Тренировка небольших моделей: Fine-tuning специализированных LoRA для дизайна. Не нужно арендовать A100.
4. Агентные системы: Запуск нескольких агентов параллельно, каждый на своей карте. Автоматизация рутинных задач дизайнера: ресайз изображений, подбор цветовых палитр, генерация вариантов логотипов.
Подводные камни (о которых молчат в блогах)
Тепло: 10 карт = 3500+ ватт тепла. Комната нагреется на 5-10 градусов. Кондиционер обязателен. Летом — страдание.
Шум: Серверные БП гудят как пылесосы. eGPU боксы приглушают, но не полностью. Это не система для спальни.
Надёжность: 10 карт = в 10 раз выше вероятность выхода одной из строя. Иметь запасную — обязательно.
Электричество: При 8 часах работы в день, 20 дней в месяц — 560 кВт·ч. Умножьте на тариф в вашем регионе. В Европе это €200-400 в месяц.
ПО: Не все фреймворки идеально работают с 10 картами. Tensor Parallelism > 8 иногда ломается. Придётся копаться в исходниках, как в случае с бюджетной 4-GPU фермой.
А есть ли альтернативы?
Конечно. Можно собрать станцию за $15 000 на 4 карты. Или тихую систему на RTX 5090. Или даже использовать доступное железо в условиях дефицита.
Но если вам нужна максимальная VRAM в мобильном формате — этот гибридный подход на 20.01.2026 один из самых эффективных.
Последний совет: перед покупкой всех компонентов соберите тестовый стенд на 2-3 карты. Проверьте совместимость, температуру, ПО. Потом масштабируйте. Сэкономите кучу нервов и денег.
И да, эта станция — не для всех. Но для тех, кто зарабатывает AI-генерацией, она может стать самым прибыльным инструментом в арсенале. Когда облака поднимут цены ещё на 30% (а они поднимут), вы будете только улыбаться.