Мобильная AI-станция за $17k: 10 GPU, 768 ГБ VRAM для MoE-моделей | AiManual
AiManual Logo Ai / Manual.
20 Янв 2026 Гайд

Сборка мобильной AI-станции за $17k: 10 GPU, 768 ГБ VRAM для MoE-моделей

Полное руководство по сборке уникальной мобильной AI-станции с 10 GPU и 768 ГБ VRAM для локального запуска MoE-моделей типа Deepseek V3.2 и Kimi K2. Спецификаци

Зачем вообще такое строить? (Или почему облака — это не всегда ответ)

Представьте: вы графический дизайнер, работающий с AI-генерацией видео. Каждый кадр — это запрос к модели типа Stable Video Diffusion 3.1 или новой Sora-подобной системе. Каждый эксперимент с промптом — это доллары в облачном провайдере. А ещё есть задержки, ограничения API, конфиденциальность клиентских данных.

Теперь представьте другую картину: у вас под столом стоит собственная станция. 768 гигабайт видеопамяти. Вы запускаете Deepseek V3.2 (671B параметров, MoE-архитектура) полностью локально. Или Kimi K2 с её контекстом в 1 миллион токенов. Без интернета. Без счётчиков. Без ограничений.

Это не фантастика. Это реальность за $17 000. Дорого? Да. Но окупаемость при профессиональном использовании — 6-12 месяцев. А дальше — чистая экономия и полный контроль.

Важный нюанс на 20.01.2026: MoE-модели (Mixture of Experts) стали стандартом для больших систем. Deepseek V3.2, Kimi K2, Qwen 2.5-MoE — все они требуют огромного VRAM, но активируют только часть параметров за раз. Это меняет правила игры для локального железа.

Проблема: как запихнуть невпихуемое

Классические сборки упираются в лимиты: 4 слота PCIe на материнке, 1600 ватт на блоке питания, теплоотвод в 1500+ ватт. Хочется 10 карт? Приготовьтесь к серверным шасси, трёхфазному питанию и шуму как в дата-центре.

Наша цель другая: мобильная станция. Её можно перевезти в машине. Установить в офисе без модификации электросети. Она должна быть относительно тихой (для такой мощности).

Парадокс? Да. Но решаемый.

Решение: Threadripper Pro + внешние боксы

Сердце системы — AMD Threadripper Pro 3995WX. 64 ядра, 128 потоков, но главное — 128 линий PCIe 4.0. Это в 4 раза больше, чем у десктопных Ryzen. Эти линии — наша суперсила.

Мы не будем пихать все карты внутрь одного корпуса. Мы используем гибридный подход, похожий на тот, что описан в статье про 3× RTX 3090 и eGPU, но в промышленном масштабе.

Компонент Модель Кол-во Стоимость (примерно) Зачем
Процессор AMD Threadripper Pro 3995WX 1 $4,500 128 линий PCIe 4.0, много ядер для препроцессинга
Материнская плата ASUS Pro WS WRX80E-SAGE SE 1 $800 7 слотов PCIe x16, поддержка Pro-процессоров
Оперативная память DDR4 ECC 256 ГБ (8×32 ГБ) 1 комплект $900 Буфер для данных, модели вне VRAM
Видеокарты NVIDIA RTX 4090 24 ГБ 10 $1,600 × 10 = $16,000 Основной вычислительный ресурс
Блок питания (внутр.) Seasonic PRIME TX-1600 1 $500 Питание материнки и 4 карт
Внешние блоки питания HP Server PSU 1200W + плата Breakout 4 набора $150 × 4 = $600 Питание остальных 6 карт
eGPU боксы (модиф.) Razer Core X Chroma (без БП) 3 $300 × 3 = $900 Внешние корпуса для карт
Кабели PCIe PCIe 4.0 x16 Riser кабели 50 см 10 $50 × 10 = $500 Подключение карт
Корпус Cooler Master HAF 700 Evo 1 $350 Много места, хороший airflow
Накопители Samsung 990 Pro 4TB 2 $400 × 2 = $800 Модели, датасеты, ОС
Итого ~$17,250

Стоп. 10 RTX 4090 по $1,600? Это же $16,000 только на карты! Да, но здесь есть хитрость. Мы берём б/у карты с майнинг-ферм (после краха очередной крипто-зимы). На 20.01.2026 их можно найти по $900-1,100 за штуку. Экономия $5,000-7,000. Риск? Да. Но проверка стресс-тестом и замена термопасты решают 90% проблем.

💡
Альтернатива: вместо 10× RTX 4090 можно взять 8× RTX 5090 (если они уже вышли к 20.01.2026) с 32 ГБ VRAM каждая. Это 256 ГБ против 240 ГБ, но дороже. Или комбинация из новых и старых карт, как в статье про ферму из б/у карт.

Архитектура: как это всё соединить

Внутри основного корпуса (Cooler Master HAF 700):

  • Материнская плата с процессором и памятью
  • 4 видеокарты RTX 4090, установленные напрямую или через райзеры
  • Основной блок питания 1600W
  • Два SSD

Рядом — три модифицированных eGPU бокса (Razer Core X Chroma):

  • Из каждого выкинут родной БП (он слабый)
  • Внутрь установлены по 2 видеокарты
  • Питание — от внешних серверных БП HP 1200W (они дешёвые, эффективные и громкие, но боксы заглушают шум)
  • Каждый бокс подключается к материнской плате через PCIe райзер-кабель

Итого: 4 + (3×2) = 10 карт. Все получают минимум PCIe 4.0 x8 (благодаря 128 линиям Threadripper). Для MoE-инференса, как мы помним из статьи про PCIe 5.0, полоса x8 PCIe 4.0 более чем достаточна.

1 Сборка основного корпуса

Установите процессор, кулер (обязательно водяное охлаждение, 360 мм), память. Вставьте 4 видеокарты в слоты 1, 3, 5, 7 (через райзеры, чтобы было пространство для airflow). Подключите основной БП. Закрепите SSD.

Ошибка номер один: ставить карты вплотную. Температура взлетит до 90°C за минуты. Используйте райзеры, оставляйте хотя бы один слот пустым между картами.

2 Модификация eGPU боксов

Разберите Razer Core X Chroma. Аккуратно отсоедините и выньте родной блок питания. Установите внутрь две видеокарты (тоже через райзеры, если не влезают). Выведите наружу два 8-пиновых разъёма PCIe для питания от внешних БП.

Для подключения к системе: из каждого бокса выходит PCIe райзер-кабель (50 см). Эти кабели подключаются к оставшимся слотам на материнской плате.

3 Организация питания

4 карты в основном корпусе питаются от Seasonic 1600W. 6 карт в eGPU боксах — от 4 серверных БП HP 1200W (по одному БП на 1.5 карты, с запасом).

Серверные БП включаются коротким замыканием контактов. Сделайте для каждого простую кнопку включения. Или подключите к материнке через адаптер.

Внимание! Общая потребляемая мощность системы под нагрузкой — около 3500-4000 ватт. Убедитесь, что розетка и проводка выдержат. Идеально — две отдельные линии 220В/16А. Не включайте в одну розетку через тройник!

4 Программная настройка

Установите Ubuntu 24.04 LTS (или новее, актуальную на 20.01.2026). Драйвера NVIDIA последней стабильной версии.

Ключевой момент — настройка CUDA_VISIBLE_DEVICES и использование правильных фреймворков.

# Проверяем, что все 10 карт видны
nvidia-smi -L

# Устанавливаем vLLM с поддержкой Tensor Parallelism
pip install vllm

# Запускаем Deepseek V3.2 на всех картах
python -m vllm.entrypoints.openai.api_server \
  --model deepseek-ai/DeepSeek-V3.2 \
  --tensor-parallel-size 10 \
  --gpu-memory-utilization 0.95 \
  --max-model-len 131072

Для MoE-моделей важен параметр --tensor-parallel-size. Он должен равняться количеству карт (или делителю). vLLM автоматически распределит экспертов по устройствам.

Что можно делать на этой станции? (Практическое применение)

1. Локальный инференс гигантских MoE-моделей: Deepseek V3.2 (671B), Kimi K2 (поговаривают о 500B+), Qwen 2.5-MoE. Полная точность (FP16), контекст до 1M токенов. Задержка генерации — секунды, а не минуты.

2. Генерация видео: Запуск Stable Video Diffusion 3.1 в batch-режиме. Одновременно генерировать 10 разных видео по 5 секунд. Или одно длинное, разбитое на сегменты.

3. Тренировка небольших моделей: Fine-tuning специализированных LoRA для дизайна. Не нужно арендовать A100.

4. Агентные системы: Запуск нескольких агентов параллельно, каждый на своей карте. Автоматизация рутинных задач дизайнера: ресайз изображений, подбор цветовых палитр, генерация вариантов логотипов.

Подводные камни (о которых молчат в блогах)

Тепло: 10 карт = 3500+ ватт тепла. Комната нагреется на 5-10 градусов. Кондиционер обязателен. Летом — страдание.

Шум: Серверные БП гудят как пылесосы. eGPU боксы приглушают, но не полностью. Это не система для спальни.

Надёжность: 10 карт = в 10 раз выше вероятность выхода одной из строя. Иметь запасную — обязательно.

Электричество: При 8 часах работы в день, 20 дней в месяц — 560 кВт·ч. Умножьте на тариф в вашем регионе. В Европе это €200-400 в месяц.

ПО: Не все фреймворки идеально работают с 10 картами. Tensor Parallelism > 8 иногда ломается. Придётся копаться в исходниках, как в случае с бюджетной 4-GPU фермой.

А есть ли альтернативы?

Конечно. Можно собрать станцию за $15 000 на 4 карты. Или тихую систему на RTX 5090. Или даже использовать доступное железо в условиях дефицита.

Но если вам нужна максимальная VRAM в мобильном формате — этот гибридный подход на 20.01.2026 один из самых эффективных.

Последний совет: перед покупкой всех компонентов соберите тестовый стенд на 2-3 карты. Проверьте совместимость, температуру, ПО. Потом масштабируйте. Сэкономите кучу нервов и денег.

И да, эта станция — не для всех. Но для тех, кто зарабатывает AI-генерацией, она может стать самым прибыльным инструментом в арсенале. Когда облака поднимут цены ещё на 30% (а они поднимут), вы будете только улыбаться.