Что такое метод SparseLoco?

SparseLoco — это метод децентрализованного обучения больших нейросетей, который позволяет узлам с GPU независимо обучаться на своих данных, обмениваясь только небольшими, критически важными обновлениями (менее 0.1% градиентов) через пиринговую сеть. Это эволюция подхода DiLoCo, работающая в условиях нестабильного интернета и низкой доступности узлов.

Как обучалась модель Covenant-72B?

Covenant-72B (72 млрд параметров) была обучена на пиковой сети из примерно 1850 независимых GPU по всему миру с использованием метода SparseLoco. Это позволило значительно снизить стоимость обучения (оценка в $42 000) по сравнению с централизованным подходом ($500 000+), хотя и с некоторой потерей в скорости сходимости и эффективности.

Covenant-72B и SparseLoco: прорыв в децентрализованном обучении ИИ | 17.03.2026

Конец эпохи суперкомпьютеров?

Обучение модели на 72 миллиарда параметров сегодня требует либо кластера из тысяч H100, либо бюджета небольшой страны. Covenant-72B только что поставила на этом крест. Ее обучили на разрозненных GPU по всему миру — от дата-центров до, возможно, вашего соседа с тремя RTX 5090. И сделали это с помощью метода под названием SparseLoco.

Звучит как фантастика. Но на 17 марта 2026 года это уже реальность. Технологический переворот, который может демократизировать создание ИИ сильнее, чем что-либо до этого.

Контекст: SparseLoco — это эволюция подхода DiLoCo (Distributed Low-Communication), представленного Google в 2024 году. Но если DiLoCo все еще требовал относительно стабильной сети между узлами, то SparseLoco работает в условиях, когда пинг между участниками может быть 200 мс, а доступность — 70%. Именно это позволяет использовать truly permissionless сеть.

Магия SparseLoco: синхронизация без синхронизации

Как заставить тысячу независимых видеокарт учить одну модель, не утонув в обмене градиентами? Классический федеративный learning здесь не работает — коммуникационные затраты съедят все.

SparseLoco делает три вещи, каждая из которых в отдельности звучит безумно:

Локальные эпохи в вакууме: Каждый узел обучается на своем чанке данных десятки, а то и сотни шагов, совершенно независимо. Представьте, что 1000 моделей начинают расходиться в разные стороны.
Разреженный синтез: Вместо того чтобы слать все градиенты, узлы обмениваются крошечными, критически важными обновлениями — обычно меньше 0.1% от полного размера. Это похоже на DroPE-хак, но примененный к процессу обучения, а не инференсу.
Асинхронное усреднение «когда получится»: Центрального сервера нет. Есть пиринговая сеть, где обновления путешествуют как сплетни — медленно, но неотвратимо.

Результат? Модель сходится. Медленнее, чем на кластере Nvidia. Но в 10-15 раз дешевле. И главное — без единого точки контроля.

💡

Для экспертов: SparseLoco — это не просто федеративный learning. Это гибрид локального SGD с динамическим разреженным зондированием (dynamic sparse probing) и gossip-протоколами. Метод особенно эффективен с современными архитектурами, где многие параметры избыточны, что подтверждается экспериментами с гибридными подходами, как в Genesis-152M-Instruct.

Covenant-72B: первая ласточка

Сама модель — это плотно оптимизированный LLaMA 3.2-подобный декодер на 72B параметров. Никаких архитектурных сюрпризов. Весь фокус в том, как ее обучали.

Параметр	Значение	Комментарий
Архитектура	Decoder-only (Llama 3.2)	Использует SwiGLU и RoPE, как и современные чемпионы
Узлов (в пике)	~1,850	Средняя доступная память GPU: 18-24 ГБ
Эффективность использования GPU	67%	Поразительно высоко для такой нестабильной сети
Стоимость обучения (эстимейт)	$42,000	Для сравнения: централизованный аналог — $500,000+

На тестах MMLU, HellaSwag и HumanEval Covenant-72B показывает результаты в пределах 2-3% от централизованно обученной LLaMA 3.1 70B. Недостаток восполняется продвинутыми техниками инференса и последующей тонкой настройкой.

Предупреждение: Децентрализованное обучение — это ад для отладки. Вы не можете просто подключиться к TensorBoard и посмотреть кривые потерь в реальном времени. Если узел с 5% критически важных градиентов упадет — вся система будет болеть часами. Это не для слабонервных.

Что это меняет? Всё

Технические детали интересны. Но последствия — взрывные.

Конец монополии на вычисления: OpenAI, Anthropic, Google владеют суперкомпьютерами. Теперь любой консорциум университетов или даже сообщество энтузиастов может собрать конкурентоспособную модель. Уже есть слухи о проекте на 140B параметров.
Новый виток гонки архитектур: Когда обучение дешевеет на порядок, можно экспериментировать. Будут воскрешены идеи, которые считались слишком рискованными из-за стоимости прогона. Гибридные нейро-символические подходы, как в этом гайде, получают второй шанс.
Проблема для регуляторов: Как контролировать модель, у которой нет владельца? Обучение которой распределено по сотням юрисдикций? Вопросы безопасности и выравнивания (где уже правит GRPO) становятся головной болью.

И да, это удар по бизнес-модели облачных провайдеров. Зачем арендовать кластер за $200 в час, если можно мобилизовать сообщество? (Хотя для отладки и тонкой настройки Amazon SageMaker или его аналоги еще пригодятся).

А что же тонкая настройка?

SparseLoco решает задачу предварительного обучения. Но для того чтобы модель заговорила нужным тоном, ее нужно выровнять и дообучить. Здесь децентрализация пока отстает.

Методы вроде DPO (и его наследника GRPO) требуют качественных, зачастую конфиденциальных данных предпочтений. Как собирать их децентрализованно, не нарушая приватность? Пока ответа нет. А без этого мы получим сырую, потенциально опасную модель.

И даже если вы получите веса Covenant-72B, для ее эффективного запуска вам могут понадобиться кастомные CUDA ядра и знание о том, как избежать «зоны убийства» здравого смысла при дообучении.

💡

Совет: Не гонитесь за модным децентрализованным обучением для вашего следующего коммерческого проекта. Для задач, где важны скорость и предсказуемость, старый добрый централизованный кластер (как предлагает Hugging Face) пока надежнее. Но если вы строите open-source модель-кандидата или проводите исследование — SparseLoco и ему подобные методы ваш билет в будущее.

Covenant-72B не идеальна. Она немного «шумная» в своих ответах. Но она существует. И ее появление доказывает: эра, когда создание гигантских ИИ-моделей было уделом избранных, заканчивается на наших глазах.

Следующие 12 месяцев покажут, сможет ли сообщество не только обучить модель, но и безопасно ее выровнять. Если да — нас ждет новая, куда более хаотичная и интересная экосистема ИИ.

Подписаться на канал

Covenant-72B и SparseLoco: как обучать гигантские ИИ-модели на видеокартах геймеров

Конец эпохи суперкомпьютеров?

Магия SparseLoco: синхронизация без синхронизации

Covenant-72B: первая ласточка

Что это меняет? Всё

А что же тонкая настройка?

Подписывайтесь на наш канал!