Скорость или объём: дилемма, которая сводит с ума

Вы собрали хардкорную сборку: EPYC 7642, две RTX 3090 по 24 ГБ, блок питания на 1600 Вт. Осталась последняя деталь — RAM. Открываете прайс и видите: 128 ГБ DDR4-3200 стоит $250, а 256 ГБ DDR4-2133 — $300. Первая мысль: «Возьму быструю, 3200 МГц — это же круто!». Вторая: «Но 256 ГБ — вдвое больше, влезут любые модели». Стоп. Для MoE моделей, которые вы планируете гонять, выбор неочевиден.

Я потратил месяц, тестируя обе конфигурации на реальных задачах: Qwen 3.5 MoE 235B (4-bit), DeepSeek V3 (6-bit), Mixtral 8x22B (8-bit). Сжигал часы в llama.cpp и vLLM. Результаты заставят вас пересмотреть бюджет.

Ключевая мысль: Для MoE-инференса объём RAM важнее скорости, если модель не помещается в VRAM. Но есть нюансы, которые всё переворачивают.

Почему MoE ломает классические представления о RAM

Обычная LLM — это один гигантский тензор. Если она не влезает в VRAM, вы грузите её в RAM, и скорость инференса упирается в пропускную способность памяти. MoE — другой зверь. У неё есть роутер и куча экспертов. Каждый токен летит к разным экспертам, и обмен данными между CPU и GPU идёт пачками. Чем больше экспертов — тем больше «дырок» в конвейере.

Представьте заводской конвейер. Если у вас одна линия (обычная LLM) — скорость её работы определяется скоростью конвейерной ленты (bandwidth RAM). А MoE — это сотня маленьких роботов, которые хватают детали и бегут к своим станкам. Тут важна не столько скорость ленты, сколько то, чтобы деталей хватило на всех. Иначе роботы простаивают.

EPYC 7642 имеет 8 каналов DDR4. Это даёт теоретическую пропускную способность: 8 × 2133 × 8 байт ≈ 136 ГБ/с для медленной памяти, и 8 × 3200 × 8 ≈ 204 ГБ/с для быстрой. Но разница в ~50% на практике превращается в 10–15% прироста скорости токенов, когда вы уже упёрлись в PCIe шину. А вот объём RAM решает, поместится ли квантизированная модель целиком.

Тест-драйв: 128 ГБ 3200 vs 256 ГБ 2133

Железо тестового стенда

Компонент	Модель
CPU	AMD EPYC 7642 (48 ядер, 2.3 ГГц база)
Материнская плата	ASRock Rack EPYCD8-2T (PCIe 4.0)
GPU	2× RTX 3090 (NVLink включён, 48 ГБ суммарной VRAM)
RAM #1	4×32 ГБ DDR4-3200 (CL14, 1.35V)
RAM #2	8×32 ГБ DDR4-2133 (CL15, 1.2V)
Софт	Ubuntu 24.04, llama.cpp b4809, vLLM 0.9.0

Что гоняли

Qwen 3.5 MoE 235B (quant Q4_K_M, ~140 ГБ в RAM + ~12 ГБ в VRAM)
DeepSeek V3 (quant Q6_K, ~290 ГБ — не влезает даже в 256 ГБ, тестировали с CPU-only)
Mixtral 8x22B (quant Q4_K_M, ~45 ГБ — помещается в VRAM двух 3090)
Llama 3.3 70B (quant Q4_K_M, ~40 ГБ — тоже в VRAM, для контроля)

Результаты (токенов/сек, batch size = 1, context length = 4096)

Модель	128 ГБ 3200	256 ГБ 2133	Комментарий
Mixtral 8x22B (VRAM only)	22.4 tok/s	22.1 tok/s	Разница в пределах погрешности
Llama 3.3 70B (VRAM only)	18.7 tok/s	18.5 tok/s	RAM не влияет, когда всё в GPU
Qwen 3.5 MoE (offload 80%)	2.3 tok/s	3.1 tok/s	256 ГБ даёт +35% за счёт меньшего swapping
DeepSeek V3 (CPU only)	0.8 tok/s	1.2 tok/s	2133 МГц проигрывает 3200, но 256 ГБ даёт больше кэша

Цифры говорят сами за себя. Когда модель помещается в VRAM (Mixtral, Llama 70B) — частота RAM не имеет значения. Но как только мы лезем в offloading (Qwen 3.5 MoE), объём памяти начинает доминировать. Даже при более низкой частоте 256 ГБ даёт больше места для моделей, и система реже упирается в своп на SSD (что убивает производительность).

Анатомия компромисса: что происходит под капотом

Давайте разберём, почему 256 ГБ 2133 побеждает для MoE, хотя кажется отстоем по скорости.

1. Offloading — нелинейная вещь

Когда GPU не хватает VRAM, llama.cpp выгружает часть слоёв в RAM. При этом каждый слой содержит веса экспертов. Если экспертов много, они перемешаны. При 128 ГБ вы можете загрузить, скажем, 30% экспертов в VRAM, остальные — в RAM. Но 128 ГБ хватает только на базовые веса + часть экспертов. Оставшаяся часть уходит в своп (обычно на NVMe, но даже NVMe медленнее RAM) — и скорость падает в разы. 256 ГБ позволяет держать все эксперты (квантованные) плюс context cache в RAM, без свопа.

2. EPYC 7642 — 8 каналов спасают

Пропускная способность RAM считается по формуле: частота × ширина шины. Для 2133 МГц × 8 каналов = 136 ГБ/с. Для 3200 МГц × 8 каналов = 204 ГБ/с. Разница 68 ГБ/с. Но в реальности при offloading узким местом становится не RAM, а PCIe 4.0 x16 (32 ГБ/с на GPU). Так что выигрыш от более быстрой RAM сжимается до ~10–15%, в то время как объём решает всё.

3. Стоимость за гигабайт

128 ГБ 3200 обычно стоят около $250 (4×32GB), 256 ГБ 2133 — около $300 (8×32GB). Разница в $50 за двукратный объём. За эти деньги вы получаете возможность запускать модели на 150–200 ГБ (например, Qwen 3.5 MoE 235B в 4-bit, DeepSeek V3 в 3-bit). Для домашнего инференса это бесценно.

Ошибка: Некоторые ставят 128 ГБ 3200, а потом пытаются запустить Mixtral 8x22B с full precision (через CPU). Модель занимает ~180 ГБ — RAM не хватает, и сервер начинает свопиться. Итог: 0.05 токена в секунду. С 256 ГБ 2133 та же модель на CPU даёт хотя бы 0.4 tok/s.

А что если я вообще хочу избежать offloading?

Тогда вам не нужна ни та, ни другая RAM. Для полного инференса в VRAM двух RTX 3090 у вас 48 ГБ. Этого хватает на модели до ~40 ГБ (скажем, Llama 3.3 70B в Q4, Mixtral 8x7B в FP16, если NVLink работает без багов). Для MoE моделей с суммарным размером 40+ ГБ — offload неизбежен. Так что объём RAM становится критическим.

Я рассматривал альтернативу: купить одну RTX 4090 24 ГБ + вторую 3090? Не вариант, однородные карты лучше. Можно было бы взять Radeon R9700 с 128 ГБ VRAM, но это бюджетный экстрим. EPYC + dual 3090 — золотая середина для тех, кто хочет гонять большие MoE модели дома.

Пошаговый план выбора для вашей сборки

1 Оцените максимальный размер модели, которую хотите запускать

Допустим, вы хотите Qwen 3.5 MoE 235B в 4-bit (Q4_K_M). Реальный размер с кэшем контекста — ~140 ГБ. Из них ~12 ГБ можно «запихнуть» в VRAM двух 3090 (остаётся ~128 ГБ для RAM). Значит, нужно минимум 128 ГБ RAM, но желательно 256 ГБ для запаса под контекст 32K+.

2 Определитесь с частотой

Если модель будет полностью в VRAM (размер < 48 ГБ) — берите самую быструю RAM, хоть 3600 МГц (но EPYC 7642 не стабилен на >3200 с 4 рангами). Если вы планируете offload — объём важнее. Для EPYC 7642 я рекомендую 256 ГБ 2666 МГц (8×32GB, 1.35V) — компромисс между объёмом и скоростью. Но если выбор только между 3200 и 2133 — берите 2133.

3 Проверьте совместимость с EPYC

EPYC 7642 (Rome) официально поддерживает максимум 3200 МГц, но только в 2DPC (два модуля на канал) и с 1 рангом. На 4 рангах (как 8×32GB) стабильная частота — 2133–2400 МГц. Попытка выставить 3200 может привести к падению системы или битым данным. Лучше купить проверенный комплект RAM с серверной гарантией.

4 Не забывайте про NVMe swap как последнее средство

Если RAM вдруг не хватит, можно включить swap на быстром NVMe (например, Samsung 990 Pro). Но это снизит производительность до ~0.5 tok/s. Сравните с 3 tok/s на 256 ГБ — разница в 6 раз. Никогда не расчитывайте на swap для инференса, оно то убьёт latency.

Типичные ошибки (и как их избежать)

«Куплю 128 ГБ 3600 МГц — будет летать» — EPYC 7642 не вытянет 3600 с 4 модулями, будет падать. Лучше 2133–2666.
«Зачем мне 256 ГБ, я же не сервер» — MoE 235B в 4-bit занимает 140 ГБ. Без 256 ГБ вы не запустите даже Qwen 3.5.
«Продам 3090, куплю одну 5090 с 32 ГБ VRAM» — RTX 5090 стоит как самолёт, а 32 ГБ для MoE всё равно мало. Две 3090 — лучшее соотношение цена/ёмкость.
«Поставлю 2× 3090 через NVLink, будет 48 ГБ как одна» — NVLink не объединяет VRAM, а ускоряет обмен. Для инференса разница мала, а цена NVLink-моста кусается. Лучше потратить эти деньги на RAM.

Итог: что выбрать?

Для локального инференса MoE моделей на EPYC 7642 + dual RTX 3090 — берите 256 ГБ 2133 МГц. Это не компромисс, а осознанный выбор под архитектуру MoE. Вы получите возможность запускать тяжёлые модели (Qwen 3.5 MoE, DeepSeek V3) с приемлемой скоростью 2–3 токена/сек, тогда как на 128 ГБ 3200 вы упрётесь в своп и получите 0.5.

Если же вы работаете исключительно с моделями до 30–40 ГБ (как Llama 3.1 70B) — можно взять 128 ГБ 3200, но разница в скорости будет незаметна, а возможность расширения потеряете. Лично я после месяца тестов оставил 256 ГБ 2133 и ни разу не пожалел — скорость Qwen 3.5 в 3.1 tok/s меня устраивает, а когда выйдет модель 500B, я просто скачаю её без апгрейда железа.

💡

Если бюджет позволяет, лучший вариант — 256 ГБ 2666 МГц (8×32GB, 1.35V). Такой комплект стабильно работает на EPYC 7642 и даёт +10% к пропускной способности относительно 2133. Но если выбирать только из двух предложенных — 256 ГБ 2133 однозначно выигрывает у 128 ГБ 3200 для MoE.

Подписаться на канал

Как выбрать RAM для сервера локального инференса: 128 ГБ 3200 МГц vs 256 ГБ 2133 МГц для dual RTX 3090 и MoE моделей