Когда экономия на железе стоит дороже, чем весь кластер

Вижу это каждый месяц. Команда собирает 4-8 H100, радуется ценам у перепродавцов, заказывает серверы с PCIe 5.0. «Смотрите, новейшая шина!» А через три недели обучения 70B-модели ROI уходит в минус. Не в ноль. В глубокий минус.

Проблема не в H100 самих по себе. Проблема в том, как их соединяют. PCIe 5.0 — это не плохо. Для инференса, для некоторых задач — отлично. Но для распределенного обучения LLM размером от 70B параметров это экономическое самоубийство.

Если вы сейчас планируете кластер для обучения, и бюджет ограничен — остановитесь. Прочитайте эту статью до конца. Сэкономите не тысячи, а десятки тысяч долларов в месяц на электроэнергии и простое железа.

NVLink vs PCIe: цифры, которые не показывают маркетологи

Возьмем конкретный пример. Обучение модели Llama 3.2 405B (актуальная на февраль 2026). На кластере из 8x H100.

Параметр	PCIe 5.0 x16	NVLink 4.0 (900GB/s)	Разница
Пропускная способность	~128 GB/s	900 GB/s	7x
Задержка GPU-GPU	1.5-2 мкс	0.3 мкс	5x
Время All-Reduce (8 GPU)	120 мс	18 мс	6.7x
Utilization GPU	45-60%	85-95%	Практически 2x

Цифра в 45% utilization — это не теория. Это реальные замеры с кластера, который я разбирал на прошлой неделе. Команда думала, что у них проблемы с кодом, с оптимизацией. Проблема была в железе.

Каждый процент utilization — это тысячи долларов в месяц. 8x H100 потребляют около 5.5 кВт. При цене электричества $0.15 за кВт*ч (среднее по дата-центрам в 2026) это $594 в месяц просто на питание. Если GPU работают на 45% вместо 90%, вы платите $297 за воздух. Каждый месяц.

All-Reduce операции: где PCIe умирает окончательно

Вот что большинство не понимает про распределенное обучение. Современные фреймворки вроде DeepSpeed (актуальная версия на 2026 — 0.14.2) или FSDP из PyTorch 2.4 постоянно синхронизируют градиенты между GPU. Каждую итерацию. Для модели на 70B параметров с mixed precision (fp16/bfloat16) это около 140GB данных, которые нужно разослать всем участникам.

На PCIe 5.0 x16: 140GB / 128 GB/s = 1.09 секунд. Каждую итерацию.

На NVLink 4.0: 140GB / 900 GB/s = 0.16 секунд.

Разница в 0.93 секунды на итерацию. При типичном размере батча и 10 итерациях в минуту — это 9.3 секунды простоя каждую минуту. 15.5% времени GPU просто ждут, пока градиенты «ползут» по PCIe.

💡

Это как строить гоночный болид Формулы-1, но соединять двигатель с колесами через резиновые шланги вместо карданного вала. Мощность есть, но она никуда не передается.

Чекпоинты модели: второй убийца ROI

Обучение Llama 3.2 405B — это не только вычисления. Каждые 2-4 часа (иногда чаще) нужно сохранять чекпоинт. Веса модели в bfloat16 — это около 810GB. Плюс оптимизатор, плюс метаданные. Итого ~1.2TB на чекпоинт.

Если ваше хранилище — это локальные NVMe диски на каждом сервере (самая частая ошибка), то сохранение занимает:

Собрать данные со всех GPU через PCIe
Записать на локальный диск
Потом еще реплицировать на другой узел для надежности

Время сохранения: 5-8 минут. Весь кластер стоит. 8x H100 потребляют 5.5 кВт и ничего не делают.

За месяц обучения (30 дней) при сохранении каждые 3 часа — это 240 чекпоинтов. 240 * 6 минут = 1440 минут = 24 часа простоя в месяц. Месяц обучения стоит $50,000? Тогда $4,166 вы платите просто за сохранение чекпоинтов на медленное хранилище.

Как построить бюджетный H100 кластер: пошаговый разбор

Бюджетный — не значит дешевый. Бюджетный значит оптимальный по ROI. Вот из чего на самом деле состоит кластер, который не убивает вашу экономику.

1 Выбираем правильную конфигурацию H100

H100 бывают разные. На февраль 2026 актуальны:

H100 PCIe — избегайте. Вообще. Даже если продавец предлагает скидку 20%.
H100 SXM5 — с NVLink. Но есть нюанс: SXM5 требует специального сервера (DGX H100 или аналоги). Дорого.
H100 NVL — новая версия на 2025-2026. Две GPU на одной плате с NVLink между ними. Можно собрать в стандартный сервер.

Оптимальный выбор для бюджета: 4x сервера, в каждом 2x H100 NVL (итого 8 GPU). Внутри сервера GPU общаются по NVLink (600GB/s). Между серверами — по сети.

Цена на H100 NVL на вторичном рынке в начале 2026: $25,000-28,000 за пару. Сервер под них: $8,000-10,000. Итого 4 сервера = $132,000-152,000. Да, дорого. Но PCIe-версия с такими же 8 GPU обойдется в $120,000-140,000. Разница всего 8-10%, а производительность в обучении LLM — в 2-2.5 раза выше.

2 Сеть: не Ethernet, а InfiniBand или RoCEv2

Между серверами градиенты все равно идут по сети. Если поставить обычные 25GbE сетевые карты — вы сведете на нет все преимущества NVLink внутри сервера.

Варианты:

InfiniBand HDR (200 Gb/s) — идеально, но дорого. Карта ConnectX-6: $800-1000, свитч: $5000-8000.
RoCEv2 поверх 100GbE — бюджетная альтернатива. Карта ConnectX-5: $300-400 б/у. Но требует тщательной настройки.

Конфигурация для 4 серверов:

# Настройка RoCEv2 на Ubuntu 24.04 LTS (актуальная на 2026)
apt install rdma-core ibverbs-utils

echo "options mlx5_core log_num_mgm_entry_size=-1" > /etc/modprobe.d/mlx5.conf

# В /etc/rdma/rdma.conf
RDMA_LOAD=yes
# В /etc/sysctl.conf
net.core.rmem_default = 524288
net.core.wmem_default = 524288
net.core.rmem_max = 16777216
net.core.wmem_max = 16777216

3 Хранилище: параллельная файловая система

Локальные NVMe — это ошибка. Нужна параллельная файловая система, куда все узлы пишут одновременно.

Варианты:

WekaFS — отлично, но дорого ($20,000+ за 100TB)
BeeGFS — open source, можно собрать самому. Сложно.
Простое решение — NFS сервер с 4x NVMe дисков в RAID 0 и 100GbE сетью. Дешево и достаточно для чекпоинтов.

Схема: отдельный сервер (можно без GPU) с 4-8 TB NVMe хранилища. Все обучающие узлы монтируют эту шару по NFS over RDMA (через ту же InfiniBand/RoCE сеть).

4 Софт: правильные версии и настройки

На февраль 2026 актуальны:

NVIDIA Driver 560.xx+ (поддержка H100 NVL)
CUDA 12.6+
PyTorch 2.4+ с поддержкой FSDP улучшенной
NCCL 2.21+ с поддержкой NVLink топологии

Критическая настройка NCCL:

export NCCL_DEBUG=INFO
export NCCL_IB_HCA=mlx5_0
export NCCL_IB_GID_INDEX=3
export NCCL_SOCKET_IFNAME=eth0
export NCCL_IB_TIMEOUT=22
export NCCL_IB_RETRY_CNT=7
export NCCL_NET_GDR_LEVEL=5
# Для H100 NVL:
export NCCL_ALGO=Tree
export NCCL_PROTO=Simple

Ошибки, которые совершают все (и как их избежать)

Собрал десятки кластеров. Видел одни и те же ошибки снова и снова.

Ошибка	Последствия	Решение
Экономия на сети (10GbE вместо 100GbE)	Синхронизация градиентов занимает 85% времени	InfiniBand или RoCEv2 100GbE обязательно
Локальное хранилище на каждом узле	Чекпоинты сохраняются по 10-15 минут	Параллельная FS или быстрый NFS over RDMA
Неверная топология NVLink	GPU внутри сервера общаются через PCIe	Проверять nvidia-smi topo -m перед покупкой
Неправильные настройки power limit	GPU троттлят при длительной нагрузке	nvidia-smi -pl 550 (для H100 NVL)

А что если бюджет действительно маленький?

8x H100 — это $130,000+. Не у всех есть такие деньги. Альтернативы на 2026 год:

H200 NVL — если появится на вторичном рынке. Более новая архитектура, лучше эффективность.
Б/у A100 80GB с NVLink — старые, но все еще мощные. 4x A100 80GB = $25,000-30,000. Медленнее H100 в 2-3 раза, но в 5 раз дешевле.
AMD MI250X — если ваш код поддерживает ROCm. 2x MI250X = $15,000. Свои нюансы с софтом.

Самая безумная, но рабочая схема: найти б/у AMD MI50 по $500-700 за штуку и собрать кластер на 16 GPU за $10,000. Производительность на LLM будет как у 2-3 H100, но за 1/10 цены. Правда, с электричеством и охлаждением придется повозиться.

Важно: перед покупкой любого железа запустите тест All-Reduce. Возьмите NCCL test, запустите на планируемой конфигурации. Если время синхронизации больше 50 мс на 8 GPU — ищите другую конфигурацию. Этот тест сэкономит вам месяцы боли.

Итог: математика ROI, которая не врет

Давайте посчитаем на реальных цифрах 2026 года.

Вариант 1: 8x H100 PCIe. Стоимость: $120,000. Обучение Llama 3.2 405B: 45 дней. Utilization: 55%. Эффективное время GPU: 45 * 24 * 0.55 = 594 GPU-дней.

Вариант 2: 8x H100 NVL с NVLink. Стоимость: $140,000. Обучение: 28 дней. Utilization: 88%. Эффективное время GPU: 28 * 24 * 0.88 = 591 GPU-дней.

Результат почти одинаковый. Но:

Вариант 1: аренда стойки + электричество за 45 дней: ~$12,000
Вариант 2: аренда стойки + электричество за 28 дней: ~$7,500

Экономия на инфраструктуре: $4,500. Плюс модель готова на 17 дней раньше. В мире LLM, где каждый день задержки выхода — это потеря рынка, эти 17 дней стоят десятки, если не сотни тысяч долларов.

PCIe серверы убивают ROI не потому что они плохие. Они убивают ROI потому что их используют не по назначению. Как молотком забивать винты. Получается, но дорого, медленно, и все вокруг в крови.

P.S. Если после прочтения все еще думаете о PCIe для обучения — найдите того, кто уже прошел этот путь. Попросите показать график GPU utilization. Увидите ровное плато на 45-60%. И тогда, может быть, сэкономите себе $20,000 и три месяца жизни.

Почему PCIe серверы убивают ROI при обучении LLM: разбор ошибок и как построить бюджетный H100 кластер