Публикация AiManual

Собираем ПК за копейки для 120B dense LLM: 10+ токенов/с, Q5, 64K контекст

Гайд по сборке бюджетного ПК для запуска 120B dense LLM с квантованием Q5/Q6 и 64K контекстом. Расчёт VRAM, выбор GPU, настройка софта для 10+ токенов/с.

6 мин чтения 09.06.2026

Коротко

Что будет в материале

01
Мечта или реальность
02
Почему 120B — это не 70B
03
Выбор GPU: RTX 3090 — король б/у рынка
04
Остальное железо: экономия без фанатизма

Мечта или реальность

В 2026 году локальный запуск 120B-paметрной модели уже не выглядит фантастикой. Проблема в другом: как собрать систему, которая тянет 120B dense в Q5-квантовании, держит 64K контекст и выдаёт больше 10 токенов в секунду — и при этом не стоит как квартира в Монако. Спойлер: можно уложиться в $3500–4000, если грамотно подобрать железо. Никаких датацентровых карт, никаких свежих RTX 5090 с их ценником в €4000. Только проверенные б/у решения.

В этой статье я разберу каждую деталь: от расчёта необходимого VRAM до выбора материнки для четырёх GPU и настройки софта. Будет больно (но только кошельку), зато потом — 12–15 токенов в секунду на чат-модели уровня Llama 4 120B или Qwen3-120B.

Важно: dense 120B — это не MoE. Для инференса такой модели нужно загружать в VRAM все веса, а не только часть экспертов. Поэтому требования к памяти жёсткие, но зато качество генерации — топ.

Почему 120B — это не 70B

Многие привыкли к моделям 7B–34B, где хватает одной RTX 3090. Но 120B — зверь другого уровня. В FP16 веса занимают ~240 ГБ, в Q5 (5 бит на параметр) — около 75 ГБ. Добавляем KV cache для 64K контекста: примерно 15–20 ГБ. Итого — 90–95 ГБ VRAM нужно только под модель и кэш. Без свопинга в RAM, иначе скорость упадёт до 1–2 токенов/с.

Вывод: нужна конфигурация с минимум 96 ГБ видеопамяти. И это не обязательно четыре свежих RTX 4090 — мы пойдём по бюджетному пути.

Выбор GPU: RTX 3090 — король б/у рынка

Самая доступная карта с 24 ГБ VRAM — RTX 3090. На вторичке (июнь 2026) её можно найти за $550–650. Четыре штуки — $2200–2600. Да, блок питания придётся мощный, да, они греются как печки, но это всё ещё лучший вариант по соотношению цена/гигабайт.

Альтернативы:

RTX 4090 — не вписывается в бюджет (по $1800+).
RTX 3080 12 ГБ / 3080 Ti — не хватит одной карты для 120B, придётся ставить 8 штук, а материнки с 8 слотами x16 редкость.
NVIDIA Tesla P40 (24 ГБ) — медленные, без активного охлаждения, поддержка FP16 неполная.
AMD Radeon RX 7900 XTX (24 ГБ) — подходит, но привязка к ROCm и меньшая совместимость с llama.cpp.

Лучший выбор — 4 × RTX 3090. В прошлой статье я уже описывал сборку на 3 картах — здесь логика та же, но на один GPU больше.

Остальное железо: экономия без фанатизма

1 Материнская плата

Нам нужно как минимум 4 слота PCIe x16 (физически) с поддержкой расщепления линий (bifurcation). Идеально — платы на чипсетах X299 (LGA 2066) или X399/TRX40 (Threadripper). Но они дороги. Бюджетное решение — использовать плату с двумя слотами и райзеры на M.2 (PCIe 3.0 x4). Или, как я описал в гайде по 4-GPU ферме за €300, взять ASRock X299 или китайскую плату с 4-6 слотами.

2 Процессор и RAM

CPU можно взять Intel Core i7-12700 или i5-13600K — для инференса он не critical. Главное — 64+ ГБ системной RAM (DDR4/DDR5). Сама модель не требует большого RAM, но KV cache и буферы нужно где-то хранить при загрузке. 128 ГБ — оптимально. Возможен вариант с 64 ГБ, если модель загружается целиком в VRAM.

3 Блок питания

Четыре RTX 3090 в пике потребляют ~1400 Вт. Плюс остальная система. Берите блок на 1600–1800 Вт (например, Corsair AX1600i или Super Flower Leadex Platinum 1600). Это будет ~$300–400, но экономия здесь — прямой путь к перезагрузкам или пожару.

Сборка: как соединить всё вместе

Варианты физического размещения:

Плата с 4 полноценными слотами x16 (дорого).
Два слота + два райзера M.2–PCIe (дешево, но теряется пропускная способность).
eGPU-корпуса с блоком питания (громоздко).

Я рекомендую второй вариант: материнка с 2 слотами x16 + 2 адаптера M.2–PCIe x4. Для инференса пропускной способности PCIe 3.0 x4 (~4 ГБ/с) достаточно, т.к. модель уже загружена и обмен данными невысокий. Единственный нюанс — убедитесь, что материнка поддерживает bifurcation на M.2.

В статье про Dell Precision 7820 показан похожий подход — серверная плата с 4 слотами x16 доступна уже за $250.

Софт: настройка llama.cpp для 10+ токенов

Берите самую свежую версию llama.cpp (сборка от июня 2026). Установка стандартная:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j

Скачайте квантованную модель в формате GGUF Q5_K_M. Например, qwen3-120b-Q5_K_M.gguf. Запуск на 4 GPU (нумерация с 0):

./build/bin/main -m models/qwen3-120b-Q5_K_M.gguf \
  -ngl 99 -t 8 -c 65536 \
  -gpu-id 0,1,2,3 --split-mode layer

Ключевые флаги:

-ngl 99 — все слои на GPU.
-t 8 — 8 потоков CPU для вспомогательных расчётов.
-c 65536 — контекст 64K.
--split-mode layer — равномерное распределение слоёв между GPU.

При такой конфигурации на 4×3090 вы получите 12–16 токенов/с. Если нужна поддержка нового формата квантования (например, IQ6_K для Q6) — конвертируйте модель сами с помощью преобразователя.

Совет: используйте флаг --no-mmap на Windows, если модель не загружается полностью. А на Linux убедитесь, что transparent_hugepage отключена (echo never > /sys/kernel/mm/transparent_hugepage/enabled).

Типичные ошибки и как их избежать

Покупка RTX 3090 с гнилыми чипами. Спрашивайте скриншоты тестов (FurMark, mhdd) и требуйте фотографии алюминиевых радиаторов — они часто забиты пылью.
Перегрев в закрытом корпусе. Четыре RTX 3090 вплотную — это космическое тепло. Используйте открытый стенд или водяное охлаждение.
Нехватка VRAM при 64K контексте. Даже 96 ГБ может быть впритык. Проверьте реальный расход через nvidia-smi — если модель не влезает, используйте --stream или уменьшите контекст до 32K.
Использование разных моделей памяти. Разгон RAM может привести к BSOD. Держите настройки JEDEC.

Бюджетная таблица

Компонент	Модель	Цена (б/у, $)
GPU (4×)	RTX 3090 24 ГБ	2200–2600
Материнская плата	ASRock X299 Taichi или китайская LGA2011-3 с 4 слотами	200–350
CPU	Intel Core i7-12700 или Xeon E5-2690v4	100–200
RAM	128 ГБ DDR4	100–150
Блок питания	1600 Вт 80+ Platinum	300–400
Охлаждение/стенд	Высокопоточные вентиляторы + открытый каркас	50–100
Итого		$3000–3800

Дополнительно: SSD (240 ГБ за $20), клавиатура/мышь. Если вы живёте в Европе, учтите наценку на GPU (подробнее в статье про дефицит GPU в Европе).

Что дальше?

Собранная система даст вам полный контроль над инференсом. Вы сможете запускать 120B dense модели с контекстом 64K и скоростью 12–15 токенов/с. Это уже пригодно для полноценного диалогового ассистента или работы с большими документами.

Единственный нюанс: через год-два вы захотите большего. 120B — это не предел. Уже сейчас есть dense 180B, а MoE модели типа DeepSeek-V4. Но для них нужна другая архитектура. Если хотите остаться в бюджете, советую присмотреться к гибридным сборкам с разгрузкой на CPU — это может слегка замедлить скорость, но позволит запускать совсем гигантов.

И последнее: не экономьте на блоке питания. Пожар в домашнем сервере — это не то, о чём вы мечтали. Лучше переплатить $100, чем потерять всё железо.

Подписаться на канал