Мечта или реальность
В 2026 году локальный запуск 120B-paметрной модели уже не выглядит фантастикой. Проблема в другом: как собрать систему, которая тянет 120B dense в Q5-квантовании, держит 64K контекст и выдаёт больше 10 токенов в секунду — и при этом не стоит как квартира в Монако. Спойлер: можно уложиться в $3500–4000, если грамотно подобрать железо. Никаких датацентровых карт, никаких свежих RTX 5090 с их ценником в €4000. Только проверенные б/у решения.
В этой статье я разберу каждую деталь: от расчёта необходимого VRAM до выбора материнки для четырёх GPU и настройки софта. Будет больно (но только кошельку), зато потом — 12–15 токенов в секунду на чат-модели уровня Llama 4 120B или Qwen3-120B.
Важно: dense 120B — это не MoE. Для инференса такой модели нужно загружать в VRAM все веса, а не только часть экспертов. Поэтому требования к памяти жёсткие, но зато качество генерации — топ.
Почему 120B — это не 70B
Многие привыкли к моделям 7B–34B, где хватает одной RTX 3090. Но 120B — зверь другого уровня. В FP16 веса занимают ~240 ГБ, в Q5 (5 бит на параметр) — около 75 ГБ. Добавляем KV cache для 64K контекста: примерно 15–20 ГБ. Итого — 90–95 ГБ VRAM нужно только под модель и кэш. Без свопинга в RAM, иначе скорость упадёт до 1–2 токенов/с.
Вывод: нужна конфигурация с минимум 96 ГБ видеопамяти. И это не обязательно четыре свежих RTX 4090 — мы пойдём по бюджетному пути.
Выбор GPU: RTX 3090 — король б/у рынка
Самая доступная карта с 24 ГБ VRAM — RTX 3090. На вторичке (июнь 2026) её можно найти за $550–650. Четыре штуки — $2200–2600. Да, блок питания придётся мощный, да, они греются как печки, но это всё ещё лучший вариант по соотношению цена/гигабайт.
Альтернативы:
- RTX 4090 — не вписывается в бюджет (по $1800+).
- RTX 3080 12 ГБ / 3080 Ti — не хватит одной карты для 120B, придётся ставить 8 штук, а материнки с 8 слотами x16 редкость.
- NVIDIA Tesla P40 (24 ГБ) — медленные, без активного охлаждения, поддержка FP16 неполная.
- AMD Radeon RX 7900 XTX (24 ГБ) — подходит, но привязка к ROCm и меньшая совместимость с llama.cpp.
Лучший выбор — 4 × RTX 3090. В прошлой статье я уже описывал сборку на 3 картах — здесь логика та же, но на один GPU больше.
Остальное железо: экономия без фанатизма
1 Материнская плата
Нам нужно как минимум 4 слота PCIe x16 (физически) с поддержкой расщепления линий (bifurcation). Идеально — платы на чипсетах X299 (LGA 2066) или X399/TRX40 (Threadripper). Но они дороги. Бюджетное решение — использовать плату с двумя слотами и райзеры на M.2 (PCIe 3.0 x4). Или, как я описал в гайде по 4-GPU ферме за €300, взять ASRock X299 или китайскую плату с 4-6 слотами.
2 Процессор и RAM
CPU можно взять Intel Core i7-12700 или i5-13600K — для инференса он не critical. Главное — 64+ ГБ системной RAM (DDR4/DDR5). Сама модель не требует большого RAM, но KV cache и буферы нужно где-то хранить при загрузке. 128 ГБ — оптимально. Возможен вариант с 64 ГБ, если модель загружается целиком в VRAM.
3 Блок питания
Четыре RTX 3090 в пике потребляют ~1400 Вт. Плюс остальная система. Берите блок на 1600–1800 Вт (например, Corsair AX1600i или Super Flower Leadex Platinum 1600). Это будет ~$300–400, но экономия здесь — прямой путь к перезагрузкам или пожару.
Сборка: как соединить всё вместе
Варианты физического размещения:
- Плата с 4 полноценными слотами x16 (дорого).
- Два слота + два райзера M.2–PCIe (дешево, но теряется пропускная способность).
- eGPU-корпуса с блоком питания (громоздко).
Я рекомендую второй вариант: материнка с 2 слотами x16 + 2 адаптера M.2–PCIe x4. Для инференса пропускной способности PCIe 3.0 x4 (~4 ГБ/с) достаточно, т.к. модель уже загружена и обмен данными невысокий. Единственный нюанс — убедитесь, что материнка поддерживает bifurcation на M.2.
В статье про Dell Precision 7820 показан похожий подход — серверная плата с 4 слотами x16 доступна уже за $250.
Софт: настройка llama.cpp для 10+ токенов
Берите самую свежую версию llama.cpp (сборка от июня 2026). Установка стандартная:
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j
Скачайте квантованную модель в формате GGUF Q5_K_M. Например, qwen3-120b-Q5_K_M.gguf. Запуск на 4 GPU (нумерация с 0):
./build/bin/main -m models/qwen3-120b-Q5_K_M.gguf \
-ngl 99 -t 8 -c 65536 \
-gpu-id 0,1,2,3 --split-mode layer
Ключевые флаги:
-ngl 99— все слои на GPU.-t 8— 8 потоков CPU для вспомогательных расчётов.-c 65536— контекст 64K.--split-mode layer— равномерное распределение слоёв между GPU.
При такой конфигурации на 4×3090 вы получите 12–16 токенов/с. Если нужна поддержка нового формата квантования (например, IQ6_K для Q6) — конвертируйте модель сами с помощью преобразователя.
Совет: используйте флаг --no-mmap на Windows, если модель не загружается полностью. А на Linux убедитесь, что transparent_hugepage отключена (echo never > /sys/kernel/mm/transparent_hugepage/enabled).
Типичные ошибки и как их избежать
- Покупка RTX 3090 с гнилыми чипами. Спрашивайте скриншоты тестов (FurMark, mhdd) и требуйте фотографии алюминиевых радиаторов — они часто забиты пылью.
- Перегрев в закрытом корпусе. Четыре RTX 3090 вплотную — это космическое тепло. Используйте открытый стенд или водяное охлаждение.
- Нехватка VRAM при 64K контексте. Даже 96 ГБ может быть впритык. Проверьте реальный расход через
nvidia-smi— если модель не влезает, используйте--streamили уменьшите контекст до 32K. - Использование разных моделей памяти. Разгон RAM может привести к BSOD. Держите настройки JEDEC.
Бюджетная таблица
| Компонент | Модель | Цена (б/у, $) |
|---|---|---|
| GPU (4×) | RTX 3090 24 ГБ | 2200–2600 |
| Материнская плата | ASRock X299 Taichi или китайская LGA2011-3 с 4 слотами | 200–350 |
| CPU | Intel Core i7-12700 или Xeon E5-2690v4 | 100–200 |
| RAM | 128 ГБ DDR4 | 100–150 |
| Блок питания | 1600 Вт 80+ Platinum | 300–400 |
| Охлаждение/стенд | Высокопоточные вентиляторы + открытый каркас | 50–100 |
| Итого | $3000–3800 |
Дополнительно: SSD (240 ГБ за $20), клавиатура/мышь. Если вы живёте в Европе, учтите наценку на GPU (подробнее в статье про дефицит GPU в Европе).
Что дальше?
Собранная система даст вам полный контроль над инференсом. Вы сможете запускать 120B dense модели с контекстом 64K и скоростью 12–15 токенов/с. Это уже пригодно для полноценного диалогового ассистента или работы с большими документами.
Единственный нюанс: через год-два вы захотите большего. 120B — это не предел. Уже сейчас есть dense 180B, а MoE модели типа DeepSeek-V4. Но для них нужна другая архитектура. Если хотите остаться в бюджете, советую присмотреться к гибридным сборкам с разгрузкой на CPU — это может слегка замедлить скорость, но позволит запускать совсем гигантов.
И последнее: не экономьте на блоке питания. Пожар в домашнем сервере — это не то, о чём вы мечтали. Лучше переплатить $100, чем потерять всё железо.