Decoupled DiLoCo: асинхронное распределенное обучение LLM от DeepMind

Когда синхронизация становится проклятием

Каждый, кто хоть раз пытался распределить обучение LLM на несколько GPU, знает этот ад: градиенты летают туда-сюда, пропускная способность сети забита, а всё потому, что каждый чих синхронизируется со всеми. Чем больше узлов — тем сильнее боль. DeepMind решили, что с этим пора заканчивать, и выпустили Decoupled DiLoCo — метод, который позволяет моделям учиться почти независимо друг от друга, обмениваясь данными лишь изредка.

Представьте: вы тренируете LLM на кластерах, разбросанных по разным континентам. Скорость между ними — чахлые 10 Гбит/с, а то и меньше. Обычный подход (FSDP, DeepSpeed ZeRO) тут же упрётся в лимиты: каждый шаг требует обмена гигабайтами тензоров. В итоге вы либо ждёте вечность, либо модель расходится. Decoupled DiLoCo предлагает третий путь.

Основная идея: разбить обучение на независимые "острова" (islands), каждый из которых выполняет локальные шаги оптимизации, и лишь изредка (раз в N итераций) происходит глобальная синхронизация через усреднение весов. Это снижает требования к пропускной способности сети в десятки раз.

Как устроен Decoupled DiLoCo: меньше общения — больше жизни

В оригинальном DiLoCo (2023) уже была идея локальных шагов, но синхронизация всё равно требовала одновременного доступа ко всем узлам. Decoupled версия разрывает эту связь. Каждый "остров" (группа GPU) может работать в своём темпе. Глобальная модель обновляется асинхронно через центральный сервер, который принимает веса от островов и отдаёт усреднённую версию. Никаких блокировок, никаких барьеров.

Звучит как магия? Почти. DeepMind математически доказали сходимость для выпуклых задач и показали эмпирически на моделях до 10B параметров, что потери в качестве минимальны по сравнению с синхронным обучением. Более того, метод оказался устойчив к выпадению отдельных узлов — если один кластер "отвалился", остальные продолжают учиться, и после восстановления он просто подхватывает последнюю глобальную версию. Отказоустойчивость на уровне.

💡

На практике это означает, что можно объединять ресурсы университетов, облачных провайдеров и даже игровых ПК (как в Covenant-72B и SparseLoco) в единую сеть обучения, не заботясь о скорости соединения.

Почему это меняет правила игры

Раньше для обучения большой модели нужно было арендовать один гигантский кластер с бешеными interconnects (InfiniBand, NVLink). Теперь можно распихать задачу по десятку маленьких кластеров, соединённых обычным интернетом. Это резко снижает порог входа. Плюс — вы можете использовать дешёвые spot-инстансы в разных регионах: если один регион "встал", остальные продолжают.

DeepMind опубликовали результаты: на синтетических тестах с задержкой в 100 мс между островами и пропускной способностью 1 Гбит/с (это хуже, чем домашний Wi-Fi) Decoupled DiLoCo достигает 95% эффективности от синхронного обучения с бесконечной пропускной способностью. Для индустрии это спасение.

Под капотом: как это работает (очень кратко)

Метод использует два уровня оптимизации: локальный (внутри острова — обычный AdamW с синхронизацией через all-reduce) и глобальный (между островами — редкое усреднение весов). Ключевая находка — специальный механизм коррекции локальных шагов, чтобы избежать дрейфа весов. DeepMind назвали его local momentum alignment — грубо говоря, каждый остров хранит не только веса, но и скользящую среднюю градиентов, которая синхронизируется вместе с весами.

Если вам интересны детали реализации, рекомендую глянуть на прототипирование на Mac в Unsloth-MLX — там похожие идеи переноса локально натренированных весов в облако, только в уменьшенном масштабе.

Сравнение с существующими подходами

Метод	Синхронизация	Устойчивость к задержкам	Отказоустойчивость
FSDP	Каждый шаг	Низкая	Низкая
DeepSpeed ZeRO-3	Каждый шаг	Низкая	Средняя
DiLoCo (оригинал)	Периодически	Средняя	Средняя
Decoupled DiLoCo	Асинхронно	Высокая	Высокая

Конечно, есть нюанс: при сильной гетерогенности (один остров на H100, другой на RTX 3090) алгоритм подстраивает частоту синхронизации под медленные узлы. Но это решается конфигурацией — можно задать максимальное число локальных шагов для каждого острова отдельно.

Не всё так радужно: подводные камни

Во-первых, математическое доказательство сходимости пока только для выпуклых задач. Для невыпуклых (а обучение LLM — это именно оно) есть только эмпирика. DeepMind заявляют, что на моделях до 10B параметров отклонение от baseline не превышает 0.5% по loss, но доверять ли этому — вопрос. Особенно если вспомнить, что даже маленькие изменения в распределении данных могут вызвать катастрофическое забывание (см. RLM: управление контекстом).

Во-вторых, асинхронность может приводить к "запаздыванию" градиентов — медленные острова присылают устаревшие веса. DeepMind компенсируют это momentum alignment, но на практике при сильном разбросе скоростей (более 10x) качество может проседать.

Наконец, метод требует довольно тонкой настройки гиперпараметров: частоты глобальной синхронизации, размера островов, локального learning rate. Но, как говорится, хочешь научить LLM без единого InfiniBand — умей вертеть knobs.

Кому это реально нужно?

Да почти всем, кто не может позволить себе монолитный кластер стартапов вроде OpenAI. Если вы исследователь из университета с доступом к нескольким серверам в разных лабораториях — Decoupled DiLoCo ваш выбор. Если вы энтузиаст с сетью из игровых ПК по подвалам друзей — тоже.

Кстати, этот подход отлично сочетается с Multi-LoRA serving — после обучения можно развернуть сотни адаптеров на одном GPU. Или использовать CLaaS для дообучения на фидбеках в реальном времени — архитектура не мешает.

Прогноз: следующий шаг — федеративное обучение для гигантов

Decoupled DiLoCo — это не последний виток. Он открывает дверь к настоящему федеративному обучению LLM, где данные никогда не покидают владельца, а обмениваются только веса. Пока DeepMind не заикаются о приватности, но технически это уже возможно. Если добавить дифференциальную приватность — получится идеальная система для медицинских или финансовых данных.

Мой прогноз: через год мы увидим open-source реализацию Decoupled DiLoCo в фреймворках вроде PyTorch FSDPv3 или DeepSpeed Ulysses. И тогда порог входа в обучение LLaMA-100B упадёт до цены хорошего интернет-канала. Готовьтесь.

Подписаться на канал

DeepMind взламывает закон Мура для обучения: Decoupled DiLoCo позволяет тренировать LLM на дата-центрах через низкоскоростные каналы