Сборка LLM-станции за $15k: оптимальное железо для локальных моделей | AiManual
AiManual Logo Ai / Manual.
30 Дек 2025 Гайд

Как собрать мощную станцию для локальных LLM за $15 000: гайд по железу

Подробный гайд по сборке мощной станции для локальных LLM за $15 000. Разбор конфигураций GPU, RAM, SSD под большие модели типа DeepSeek.

Когда речь заходит о локальном запуске больших языковых моделей, многие сразу думают о облачных сервисах или аренде мощностей. Но что если вам нужна собственная, полностью контролируемая станция, способная запускать модели размером 70B+ параметров с приемлемой скоростью? Бюджет в $15 000 — это та золотая середина, где можно собрать систему, которая не уступит многим облачным инстансам, но при этом будет полностью вашей.

Важно понимать: $15 000 — это не "просто мощный игровой ПК". Это специализированная рабочая станция, оптимизированная под задачи инференса LLM. Каждый компонент здесь выбирается с прицелом на специфические требования: объем VRAM, пропускную способность памяти, охлаждение и энергоэффективность при длительных нагрузках.

Почему именно $15 000? Анализ точки оптимальности

Прежде чем переходить к конкретным компонентам, давайте разберемся, почему этот бюджет имеет смысл. В мире локальных LLM есть несколько ключевых моментов:

  • Порог вхождения в "большие модели": Для комфортной работы с моделями 70B+ в полной точности (FP16) нужно около 140 ГБ VRAM. Это либо 2×RTX 4090 (по 24 ГБ), либо специализированные карты.
  • Экономия на масштабе: Система за $8-10k уже будет мощной, но за $15k можно получить качественный скачок в производительности и долговечности.
  • Будущее-прочность: Модели растут в размерах. То, что сегодня кажется избыточным, завтра станет минимальным требованием.
Бюджет Возможности Ограничения
$5 000 Модели до 34B, комфортная работа с 13B Не хватит VRAM для 70B+
$10 000 70B в квантованном виде, некоторые 70B FP16 Компромиссы в охлаждении, питании
$15 000 70B+ FP16, параллельные инференсы Требует профессионального монтажа
$20 000+ Профессиональные серверные решения Избыточно для большинства задач

Ядро системы: выбор видеокарт — самая важная часть

Для LLM инференса видеопамять (VRAM) — это всё. Процессор важен, но вторичен. Основная задача — разместить модель в памяти с минимальным своппингом между картами.

1 Вариант A: 2× NVIDIA RTX 4090 (48 ГБ VRAM суммарно)

Классический выбор для тех, кто хочет максимум производительности в потребительском сегменте. Две карты дают 48 ГБ VRAM — этого достаточно для:

  • Моделей 70B в 4-битном квантовании (Q4_K_M)
  • Моделей 34B в 8-битной точности (Q8_0)
  • Параллельного запуска нескольких моделей 7B-13B
💡
Нюанс: RTX 4090 не поддерживают NVLink между собой. Обмен данными между картами идет через PCIe, что создает bottleneck при очень больших моделях. Для моделей, которые не помещаются в одну карту, производительность может упасть на 10-20%.

2 Вариант B: 4× NVIDIA RTX 3090 (96 ГБ VRAM суммарно)

Если вы читали нашу статью «Собираем ПК для локальных LLM за копейки: 3× RTX 3090 и eGPU на 96 ГБ VRAM», то знаете, что 3090 — это золотой стандарт для LLM энтузиастов. За $15 000 можно собрать систему с четырьмя картами:

  • Преимущество: 96 ГБ VRAM — это уже серьёзно. Можно запускать 70B модели в FP16 без квантования.
  • Вызов: Охлаждение 4 карт требует продуманного корпуса и вентиляции.
  • Особенность: RTX 3090 поддерживают NVLink, но только попарно. В 4-карточной конфигурации вы получите две пары с NVLink.

Внимание: Материнская плата для 4 GPU должна иметь соответствующие слоты PCIe x16. Не все платы поддерживают 4 карты в режиме x16/x8/x8/x8. Часто приходится идти на компромисс с x16/x8/x4/x4.

3 Вариант C: 2× NVIDIA RTX 6000 Ada (96 ГБ VRAM суммарно)

Профессиональный вариант, который вписывается в бюджет, если экономить на других компонентах. Одна RTX 6000 Ada стоит около $6 800, две — $13 600. Что это дает:

  • ECC память — защита от ошибок при длительных вычислениях
  • Превосходное охлаждение и надежность
  • Поддержка NVLink для полной пропускной способности между картами
  • Официальная поддержка в enterprise-софте

Для большинства энтузиастов я рекомендую Вариант B (4× RTX 3090) как оптимальный по соотношению цена/производительность/VRAM. Но если вам критична стабильность и вы планируете использовать станцию 24/7 — присмотритесь к RTX 6000 Ada.

Материнская плата: основа для многокарточной конфигурации

Выбор материнской платы определяет, сколько GPU вы сможете установить и как они будут работать. Основные критерии:

  1. Количество слотов PCIe x16: Минимум 4 для нашего варианта с 3090
  2. Расположение слотов: Расстояние между слотами должно позволять установку толстых 3-слотовых карт
  3. Чипсет: Для Intel — Z790 или W790, для AMD — TRX50 или WRX90
  4. Поддержка PCIe 4.0/5.0: Для LLM PCIe 4.0 достаточно, но 5.0 — задел на будущее

Отличным выбором будет ASUS Pro WS W790-ACE или аналог от Gigabyte/ASRock. Эти платы созданы для рабочих станций и поддерживают несколько GPU с правильным распределением линий PCIe.

💡
Если вы рассматриваете вариант с 4 GPU, изучите нашу статью «Собираем бюджетную 4-GPU ферму для LLM». Там подробно разобраны нюансы выбора плат для многокарточных систем.

Процессор и оперативная память: не экономить, но и не переплачивать

Процессор: Intel Xeon W7-2495X или AMD Threadripper 7960X

Для 4 GPU нужен процессор с большим количеством линий PCIe. Потребительские Core i9 имеют только 20 линий, что недостаточно. Нужны платформы:

  • Intel W790: Xeon W-2400/3400 серии, 64-112 линий PCIe 5.0
  • AMD TRX50: Threadripper 7000 серии, 88 линий PCIe 5.0

Я рекомендую Intel Xeon W7-2495X (24 ядра) или AMD Threadripper 7960X (24 ядра). Этого более чем достаточно для задач инференса.

Оперативная память: 128 ГБ DDR5 с ECC

Хотя основная нагрузка ложится на VRAM, системная память тоже важна:

  1. Объем: 128 ГБ — минимум. Модели типа DeepSeek-R1 при использовании CPU offloading могут требовать до 64 ГБ RAM только под модель.
  2. Тип: DDR5 с поддержкой ECC (Error Correcting Code). При длительных вычислениях ошибки памяти неизбежны, ECC их корректирует.
  3. Скорость: 5600-6000 МГц — оптимальный баланс цена/производительность.

Если ваш бюджет позволяет, рассмотрите 256 ГБ. Особенно если планируете эксперименты с CPU+RAM инференсом огромных моделей.

Хранение, питание и охлаждение: детали, которые решают всё

Хранение: быстрый NVMe для моделей и данных

LLM модели занимают десятки гигабайт. Рекомендую конфигурацию:

  • Системный диск: 1 ТБ NVMe PCIe 4.0 (Samsung 990 Pro или аналог)
  • Диск для моделей: 2-4 ТБ NVMe PCIe 4.0 (отдельный диск для быстрой загрузки GGUF файлов)
  • Резервное хранилище: 8+ ТБ HDD или дополнительный SSD для дампов, логов, датасетов

Блок питания: 1600-2000 Вт с сертификатом 80+ Platinum

4× RTX 3090 потребляют до 1400 Вт в пике. Добавляем процессор, память, диски — получаем около 1600 Вт. Нужен запас:

  • Мощность: 2000 Вт — безопасный выбор
  • Сертификат: 80+ Platinum или Titanium для эффективности и стабильности
  • Кабели: Достаточное количество PCIe кабелей (для 4 карт нужно 12-16 разъемов 8-pin)

Охлаждение: профессиональный подход

4 GPU в одном корпусе — это вызов для системы охлаждения:

  1. Корпус: Full-tower с mesh фронтальной панелью (Fractal Design Meshify 2 XL, Lian Li O11 Dynamic XL)
  2. Вентиляторы: Минимум 6×140 мм вентиляторов с высоким статическим давлением
  3. Охлаждение CPU: 360 мм AIO или качественный воздушный кулер (Noctua NH-D15)
  4. Термопаста: Профессиональная (Thermal Grizzly Kryonaut, Arctic MX-6)

Критически важно: При использовании 4 GPU убедитесь, что между картами есть зазор для airflow. Частая ошибка — установка карт вплотную, что приводит к перегреву средней пары. Рассмотрите варианты с вертикальным монтажом или использованием riser кабелей.

Примерная смета на $15 000 (вариант с 4× RTX 3090)

Компонент Модель Примерная цена Примечания
Видеокарты (4 шт) NVIDIA RTX 3090 $6 400 По $1 600 за карту (б/у или новая)
Материнская плата ASUS Pro WS W790-ACE $700 Поддержка 4 GPU, ECC RAM
Процессор Intel Xeon W7-2495X $1 500 24 ядра, 64 линии PCIe 5.0
Оперативная память 128 ГБ DDR5 ECC $800 4×32 ГБ, 5600 МГц
Накопители 1 ТБ + 4 ТБ NVMe + 8 ТБ HDD $900 Для системы, моделей и данных
Блок питания 2000 Вт 80+ Platinum $500 С достаточным количеством кабелей
Корпус и охлаждение Full-tower + вентиляторы + AIO $600 Качественное охлаждение для 4 GPU
Прочее Кабели, термопаста, монтаж $600 Включая возможные riser кабели
Итого $12 000 Остается $3 000 на монитор, клавиатуру, ОС

Настройка ПО: превращаем железо в LLM-станцию

Собрать железо — полдела. Нужно правильно настроить программную часть:

# Установка базовых драйверов и утилит
sudo apt update
sudo apt install nvidia-driver-550 nvidia-utils-550

# Проверка работы всех GPU
nvidia-smi

# Установка CUDA Toolkit
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install cuda-toolkit-12-4

Для работы с моделями рекомендую:

  1. LM Studio или Ollama для простого запуска
  2. llama.cpp с поддержкой GPU offloading для максимальной производительности
  3. Text Generation WebUI для веб-интерфейса

Если вы новичок в настройке, изучите наш практический гайд по избежанию ошибок при локальном запуске LLM.

Что можно запускать на такой станции?

С 96 ГБ VRAM (4×3090) или 48 ГБ (2×4090) открываются серьезные возможности:

Модель Размер Требования VRAM Наша конфигурация
Llama 3.1 8B 8B параметров 8-16 ГБ Можно запускать 4-6 экземпляров параллельно
DeepSeek-R1 67B 67B параметров ~135 ГБ (FP16) Только на 4×3090, с квантованием на 2×4090
Qwen 2.5 32B 32B параметров 64 ГБ (FP16) Комфортно на 2×4090, легко на 4×3090
Mixtral 8x22B 141B (эфф. 39B) 80-90 ГБ Комфортно на обеих конфигурациях
💡
Для выбора моделей смотрите наш обзор лучших LLM с поддержкой Tool Calling. Особенно актуально, если планируете создавать AI-агентов.

Частые ошибки и как их избежать

  1. Ошибка: Экономия на блоке питания
    Решение: Всегда берите БП с запасом 20-30%. Нестабильное питание убивает GPU быстрее, чем перегрев.

  2. Ошибка: Плотная установка GPU без зазоров
    Решение: Используйте riser кабели для вертикального монтажа или выбирайте корпуса с увеличенным расстоянием между слотами.

  3. Ошибка: Недостаточное охлаждение помещения
    Решение: Система на 4 GPU выделяет 1000-1500 Вт тепла. Нужна хорошая вентиляция комнаты или кондиционер.

  4. Ошибка: Покупка разных моделей GPU
    Решение: Все карты должны быть одной модели и по возможности одного производителя. Смешивание разных VRAM или архитектур создает проблемы.

Альтернативы и когда стоит рассмотреть другие варианты

$15 000 — не единственный вариант. Рассмотрите альтернативы если:

Итог: стоит ли инвестировать $15 000 в локальную LLM-станцию?

Если вы:

  • Занимаетесь исследованиями в области AI/ML
  • Разрабатываете коммерческие продукты на основе LLM
  • Имеете требования к конфиденциальности данных
  • Планируете использовать систему 2+ года

— тогда да, стоит. За $15 000 вы получаете систему, которая окупится за 12-18 месяцев по сравнению с облачными инстансами аналогичной мощности.

Если же вы просто хотите "поиграться" с LLM или ваши задачи ограничиваются моделями до 13B параметров — соберите систему за $3 000-5 000. А $15 000 инвестируйте в обучение или данные.

Ключевой вывод:

$15 000 — это точка, где можно собрать не просто "мощный компьютер", а профессиональную LLM-станцию, способную конкурировать с облачными предложениями среднего уровня. Главное — не гнаться за максимальными частотами или RGB-подсветкой, а сфокусироваться на объеме VRAM, стабильности питания и качественном охлаждении.