DDP или FSDP? Что выбрать в 2026 году?

DDP подходит для моделей, которые полностью помещаются в память одного GPU. Для очень больших моделей (от 10B параметров) используйте Fully Sharded Data Parallel (FSDP), который в PyTorch 2.4+ стабилен и эффективен.

Как дебажить таймауты синхронизации в DDP?

Увеличьте переменную окружения NCCL_TIMEOUT. Для глубокой диагностики используйте NCCL_DEBUG=INFO и инструменты профилирования сети, такие как nccl-tests, чтобы найти узкие места в коммуникации между узлами.

Можно ли использовать gradient accumulation с DDP? Не сломает ли это синхронизацию градиентов?

Да, можно. DDP автоматически синхронизирует градиенты при каждом вызове backward(). При accumulation вы просто откладываете шаг оптимизатора. Важно нормализовать loss на количество шагов accumulation.

Production PyTorch DDP Pipeline для Multi-Node Кластеров | Гайд 2026

Почему ваш кластер из 64 GPU работает как 8, и как это исправить

Вы арендовали кучу GPU, запустили обучение через PyTorch DDP, а ускорение линейное только до 8 карт. Дальше - тишина. Или, что хуже, ошибки синхронизации, которые появляются раз в три дня и стирают прогресс обучения.

В 2026 году модели стали еще больше, а терпение инженеров - еще меньше. Классические туториалы по DDP показывают, как запустить обучение на одном узле, но молчат о real-world проблемах: сетевые лаги, неравномерная загрузка данных, падение узлов, и самое главное - как собрать все это в pipeline, который не развалится при первом же сбое.

Если вы думаете, что DDP - это просто обернуть модель в DistributedDataParallel, приготовьтесь к сюрпризам. Production-среда съест ваш код за завтраком.

1 От прототипа к pipeline: что меняется в production

В лаборатории вы запускаете скрипт из терминала. В production у вас есть оркестратор (Kubernetes, Slurm), система мониторинга, логирования, и требование: обучение должно идти неделями без перерыва. И если упадет один узел - система должна восстановиться с последнего чекпоинта, а не начинать с нуля.

Поэтому наш pipeline будет состоять из модулей:

Конфигурация - все параметры обучения в одном месте (YAML, Hydra, или что вы предпочитаете)
Инициализация DDP - с автоматическим определением ранга и world_size
Data loading - с учетом распределенности и эффективным shuffling
Модель - обернутая в DDP с правильными device placement
Training loop - с gradient accumulation, mixed precision, и логированием
Чекпоинты - сохранение и загрузка состояния с учетом multi-node
Мониторинг - сбор метрик и трассировка производительности

Звучит много, но каждый модуль - это 50-100 строк кода. Главное - знать, куда их положить.

2 Шаг 1: Готовим окружение - Docker и зависимости

Начнем с контейнеризации. Без Docker ваш pipeline будет работать только на вашем ноутбуке, а в кластере - мистические ошибки версий библиотек.

FROM pytorch/pytorch:2.4.0-cuda12.1-cudnn9-runtime

# Устанавливаем дополнительные зависимости
RUN pip install --no-cache-dir \
    tensorboard \
    hydra-core \
    wandb \
    numpy \
    pandas

# Копируем код
COPY . /app
WORKDIR /app

# Запускаем скрипт
CMD ["python", "-m", "torch.distributed.run", "--nnodes", "${NNODES}", "--nproc_per_node", "${NGPU_PER_NODE}", "train.py"]

Обратите внимание: мы используем официальный образ PyTorch 2.4.0 с CUDA 12.1. На момент марта 2026 это актуальная версия, но проверьте официальный сайт PyTorch для обновлений.

💡

Не используйте базовые образы Ubuntu с ручной установкой CUDA - это гарантирует несовместимость драйверов между узлами кластера. Берите готовые образы от NVIDIA или PyTorch.

3 Шаг 2: Ядро обучения - DDP инициализация и data loading

Теперь пишем код инициализации. Ключевой момент: каждый процесс должен знать свой rank и world_size. В 2026 году PyTorch рекомендует использовать torch.distributed.run или torchrun для запуска, что упрощает передачу параметров.

import torch
import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel as DDP
from torch.utils.data.distributed import DistributedSampler

def setup_ddp(rank, world_size):
    """Инициализация процесса для DDP."""
    # Используем NCCL backend для GPU, на 2026 год он все еще самый быстрый
    dist.init_process_group(
        backend="nccl",
        init_method="env://",  # Параметры берутся из переменных окружения
        rank=rank,
        world_size=world_size
    )
    # Устанавливаем device для текущего процесса
    torch.cuda.set_device(rank)

def cleanup_ddp():
    dist.destroy_process_group()

class Trainer:
    def __init__(self, rank, world_size, config):
        self.rank = rank
        self.world_size = world_size
        self.config = config
        
        setup_ddp(rank, world_size)
        
        # Модель
        self.model = MyModel(config).cuda(rank)
        self.model = DDP(self.model, device_ids=[rank])
        
        # Данные
        self.dataset = MyDataset(config.data_path)
        self.sampler = DistributedSampler(
            self.dataset,
            num_replicas=world_size,
            rank=rank,
            shuffle=True
        )
        self.dataloader = DataLoader(
            self.dataset,
            batch_size=config.batch_size,
            sampler=self.sampler,
            num_workers=config.num_workers,
            pin_memory=True  # Ускоряет передачу данных на GPU
        )
        
        # Оптимизатор и т.д.
        self.optimizer = torch.optim.AdamW(self.model.parameters(), lr=config.lr)
        self.scaler = torch.cuda.amp.GradScaler() if config.mixed_precision else None

Что здесь важно: DistributedSampler гарантирует, что каждый процесс получит уникальную часть данных. Без него все процессы будут обрабатывать одни и те же батчи - и вы зря потратите вычислительные ресурсы.

Подробнее о тонкостях NCCL и синхронизации я писал в статье PyTorch Distributed и NCCL: как заставить 8 GPU работать как одна.

4 Шаг 3: Training loop с gradient accumulation и mixed precision

В production вы не можете позволить себе обновлять веса после каждого батча - это слишком медленно. Gradient accumulation накапливает градиенты за несколько шагов, а mixed precision ускоряет вычисления. Но есть нюансы.

def train_epoch(self, epoch):
    self.model.train()
    self.sampler.set_epoch(epoch)  # Важно для корректного shuffling между эпохами
    
    total_loss = 0.0
    self.optimizer.zero_grad()
    
    for batch_idx, batch in enumerate(self.dataloader):
        data, target = batch
        data, target = data.cuda(self.rank), target.cuda(self.rank)
        
        # Mixed precision контекст
        with torch.cuda.amp.autocast(enabled=self.scaler is not None):
            output = self.model(data)
            loss = self.criterion(output, target)
            # Нормализуем loss с учетом accumulation
            loss = loss / self.config.accumulation_steps
        
        # Backward
        if self.scaler:
            self.scaler.scale(loss).backward()
        else:
            loss.backward()
        
        # Gradient accumulation: обновляем веса каждые accumulation_steps шагов
        if (batch_idx + 1) % self.config.accumulation_steps == 0:
            if self.scaler:
                self.scaler.step(self.optimizer)
                self.scaler.update()
            else:
                self.optimizer.step()
            
            self.optimizer.zero_grad()
        
        # Собираем метрики (только на rank 0 для логирования)
        if self.rank == 0:
            total_loss += loss.item() * self.config.accumulation_steps
            if batch_idx % self.config.log_interval == 0:
                print(f"Epoch {epoch}, Batch {batch_idx}, Loss {loss.item():.4f}")
    
    # Не забудьте про последний неполный accumulation шаг
    if (batch_idx + 1) % self.config.accumulation_steps != 0:
        if self.scaler:
            self.scaler.step(self.optimizer)
            self.scaler.update()
        else:
            self.optimizer.step()
        self.optimizer.zero_grad()
    
    # Синхронизируем loss между процессами для корректного усреднения
    avg_loss = torch.tensor(total_loss / len(self.dataloader)).cuda(self.rank)
    dist.all_reduce(avg_loss, op=dist.ReduceOp.SUM)
    avg_loss = avg_loss / self.world_size
    
    if self.rank == 0:
        print(f"Epoch {epoch} average loss: {avg_loss.item():.4f}")

Самый частый баг: забыть self.sampler.set_epoch(epoch). Без этого данные между эпохами не перемешиваются, и модель переобучается на одних и тех же примерах.

5 Шаг 4: Чекпоинты и восстановление после сбоев

Ваш кластер может упасть в любой момент. Сеть, питание, обновление драйверов - все это прерывает обучение. Поэтому чекпоинты должны сохраняться регулярно и загружаться автоматически.

def save_checkpoint(self, epoch, path):
    # Сохраняем только на процессе с rank 0
    if self.rank == 0:
        checkpoint = {
            'epoch': epoch,
            'model_state_dict': self.model.module.state_dict(),  # Обратите внимание на .module
            'optimizer_state_dict': self.optimizer.state_dict(),
            'scaler_state_dict': self.scaler.state_dict() if self.scaler else None,
            'config': self.config
        }
        torch.save(checkpoint, path)
        print(f"Checkpoint saved to {path}")
    
    # Барьер, чтобы другие процессы ждали сохранения
    dist.barrier()

def load_checkpoint(self, path):
    # Загружаем на всех процессах
    checkpoint = torch.load(path, map_location=f"cuda:{self.rank}")
    
    # Загружаем состояние модели
    self.model.module.load_state_dict(checkpoint['model_state_dict'])
    
    # Загружаем оптимизатор и scaler
    self.optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
    if self.scaler and checkpoint['scaler_state_dict']:
        self.scaler.load_state_dict(checkpoint['scaler_state_dict'])
    
    start_epoch = checkpoint['epoch'] + 1
    print(f"Resuming from epoch {start_epoch} on rank {self.rank}")
    return start_epoch

Ключевой момент: модель обернута в DDP, поэтому чтобы получить доступ к оригинальным весам, нужно использовать self.model.module. Если вы забудете .module, при загрузке получите ошибку из-за несоответствия ключей в state_dict.

Для оркестрации в Kubernetes или Slurm, вам нужно передавать путь к чекпоинту через переменные окружения. Например, при запуске через torchrun:

torchrun --nnodes=4 --nproc_per_node=8 --rdzv_id=123 --rdzv_backend=c10d --rdzv_endpoint=master:29500 train.py --resume /path/to/checkpoint.pt

Если вы используете Slurm, ознакомьтесь с моей статьей о DGX Spark, где я разбираю проблемы с планировщиками задач.

6 Шаг 5: Мониторинг и профилирование - куда смотреть, когда все сломалось

DDP скрывает детали коммуникации, но когда что-то идет не так, вы видите только "таймаут синхронизации". Вот инструменты, которые спасают жизнь:

NCCL debug: установите NCCL_DEBUG=INFO перед запуском. Вы увидите логи инициализации и ошибки передачи данных.
PyTorch profiler: встроенный профилировщик покажет, где тратится время - на вычисления или на синхронизацию.
TensorBoard / WandB: для визуализации метрик. Убедитесь, что логирует только rank 0, иначе вы получите дублирующие события.

# Пример настройки WandB только на rank 0
if self.rank == 0:
    import wandb
    wandb.init(project="my-ddp-training", config=self.config)

# В training loop
if self.rank == 0 and batch_idx % self.config.log_interval == 0:
    wandb.log({"loss": loss.item(), "epoch": epoch})

Если вы хотите глубоко понять, как масштабировать именно LLM, посмотрите стратегии масштабирования локальных LLM.

Подводные камни, которые потопят ваш pipeline

Теория гладкая, но практика зубастая. Вот список ошибок, которые я совершил за вас:

Ошибка	Симптом	Решение
Не используете `DistributedSampler`	Ускорение линейное только до 2-4 GPU, дальше падение	Всегда используйте сэмплер для данных
Забываете `set_epoch`	Модель быстро сходится, но качество ниже ожидаемого	Вызывайте в начале каждой эпохи
Логирование со всех ранков	Логи-файлы раздуваются в world_size раз	Логируйте только с rank 0
Неправильный batch size	Out of memory после добавления GPU	Умножьте batch size на world_size и делите loss на accumulation_steps

FAQ: ответы на вопросы, которые вы боялись задать

❓

Вопрос: DDP или FSDP?
Ответ: DDP подходит для моделей, которые помещаются в память одного GPU. Если модель не помещается - используйте Fully Sharded Data Parallel (FSDP), который появился в PyTorch 1.11 и активно развивается. На 2026 год FSDP стабилен и рекомендуется для моделей от 10B параметров.

❓

Вопрос: Как дебажить таймауты синхронизации?
Ответ: Увеличьте NCCL_TIMEOUT до 7200 (2 часа) для длительных операций. Но лучше найдите узкое место: часто проблема в медленной сети между узлами. Используйте nccl-tests для проверки пропускной способности.

❓

Вопрос: Можно ли использовать gradient accumulation с DDP?
Ответ: Да, как показано выше. Но помните: loss.backward() накапливает градиенты в .grad атрибутах. DDP автоматически синхронизирует градиенты при вызове backward, поэтому accumulation не ломает синхронизацию.

И последнее: неочевидный совет, который сэкономит вам месяц

Не доверяйте линейному масштабированию. Запустите обучение на 1, 2, 4, 8 GPU и постройте график ускорения. Если после 8 GPU кривая выходит на плато - проблема в коммуникации. Чаще всего виновата сеть: 1 Гбит/с Ethernet не потянет 64 GPU. Переходите на InfiniBand или хотя бы 10 Гбит Ethernet.

И еще: настройте алерт, который сработает, если loss не меняется 24 часа. Иногда модель застревает в локальном минимуме, а вы платите за простаивающие GPU. Для облачных инстансов я рекомендую AWS P3/P4 instances - они имеют хорошее соотношение цена/производительность для распределенного обучения.

Теперь у вас есть pipeline, который работает. Не идеально, но стабильно. Осталось адаптировать его под свою задачу и запустить. Если столкнетесь с чем-то необычным - напишите в комментариях, разберем вместе.

Удачи, и да пребудут с вами стабильные градиенты!

Подписаться на канал

Масштабирование обучения нейросетей: production-ready pipeline на PyTorch DDP для multi-node кластеров