Covenant-72B и SparseLoco: прорыв в децентрализованном обучении ИИ | 17.03.2026 | AiManual
AiManual Logo Ai / Manual.
17 Мар 2026 Новости

Covenant-72B и SparseLoco: как обучать гигантские ИИ-модели на видеокартах геймеров

Анонс модели Covenant-72B и метода SparseLoco. Как децентрализованное обучение на permissionless GPU ломает монополию гигантов на создание больших языковых моде

Конец эпохи суперкомпьютеров?

Обучение модели на 72 миллиарда параметров сегодня требует либо кластера из тысяч H100, либо бюджета небольшой страны. Covenant-72B только что поставила на этом крест. Ее обучили на разрозненных GPU по всему миру — от дата-центров до, возможно, вашего соседа с тремя RTX 5090. И сделали это с помощью метода под названием SparseLoco.

Звучит как фантастика. Но на 17 марта 2026 года это уже реальность. Технологический переворот, который может демократизировать создание ИИ сильнее, чем что-либо до этого.

Контекст: SparseLoco — это эволюция подхода DiLoCo (Distributed Low-Communication), представленного Google в 2024 году. Но если DiLoCo все еще требовал относительно стабильной сети между узлами, то SparseLoco работает в условиях, когда пинг между участниками может быть 200 мс, а доступность — 70%. Именно это позволяет использовать truly permissionless сеть.

Магия SparseLoco: синхронизация без синхронизации

Как заставить тысячу независимых видеокарт учить одну модель, не утонув в обмене градиентами? Классический федеративный learning здесь не работает — коммуникационные затраты съедят все.

SparseLoco делает три вещи, каждая из которых в отдельности звучит безумно:

  • Локальные эпохи в вакууме: Каждый узел обучается на своем чанке данных десятки, а то и сотни шагов, совершенно независимо. Представьте, что 1000 моделей начинают расходиться в разные стороны.
  • Разреженный синтез: Вместо того чтобы слать все градиенты, узлы обмениваются крошечными, критически важными обновлениями — обычно меньше 0.1% от полного размера. Это похоже на DroPE-хак, но примененный к процессу обучения, а не инференсу.
  • Асинхронное усреднение «когда получится»: Центрального сервера нет. Есть пиринговая сеть, где обновления путешествуют как сплетни — медленно, но неотвратимо.

Результат? Модель сходится. Медленнее, чем на кластере Nvidia. Но в 10-15 раз дешевле. И главное — без единого точки контроля.

💡
Для экспертов: SparseLoco — это не просто федеративный learning. Это гибрид локального SGD с динамическим разреженным зондированием (dynamic sparse probing) и gossip-протоколами. Метод особенно эффективен с современными архитектурами, где многие параметры избыточны, что подтверждается экспериментами с гибридными подходами, как в Genesis-152M-Instruct.

Covenant-72B: первая ласточка

Сама модель — это плотно оптимизированный LLaMA 3.2-подобный декодер на 72B параметров. Никаких архитектурных сюрпризов. Весь фокус в том, как ее обучали.

ПараметрЗначениеКомментарий
АрхитектураDecoder-only (Llama 3.2)Использует SwiGLU и RoPE, как и современные чемпионы
Узлов (в пике)~1,850Средняя доступная память GPU: 18-24 ГБ
Эффективность использования GPU67%Поразительно высоко для такой нестабильной сети
Стоимость обучения (эстимейт)$42,000Для сравнения: централизованный аналог — $500,000+

На тестах MMLU, HellaSwag и HumanEval Covenant-72B показывает результаты в пределах 2-3% от централизованно обученной LLaMA 3.1 70B. Недостаток восполняется продвинутыми техниками инференса и последующей тонкой настройкой.

Предупреждение: Децентрализованное обучение — это ад для отладки. Вы не можете просто подключиться к TensorBoard и посмотреть кривые потерь в реальном времени. Если узел с 5% критически важных градиентов упадет — вся система будет болеть часами. Это не для слабонервных.

Что это меняет? Всё

Технические детали интересны. Но последствия — взрывные.

  • Конец монополии на вычисления: OpenAI, Anthropic, Google владеют суперкомпьютерами. Теперь любой консорциум университетов или даже сообщество энтузиастов может собрать конкурентоспособную модель. Уже есть слухи о проекте на 140B параметров.
  • Новый виток гонки архитектур: Когда обучение дешевеет на порядок, можно экспериментировать. Будут воскрешены идеи, которые считались слишком рискованными из-за стоимости прогона. Гибридные нейро-символические подходы, как в этом гайде, получают второй шанс.
  • Проблема для регуляторов: Как контролировать модель, у которой нет владельца? Обучение которой распределено по сотням юрисдикций? Вопросы безопасности и выравнивания (где уже правит GRPO) становятся головной болью.

И да, это удар по бизнес-модели облачных провайдеров. Зачем арендовать кластер за $200 в час, если можно мобилизовать сообщество? (Хотя для отладки и тонкой настройки Amazon SageMaker или его аналоги еще пригодятся).

А что же тонкая настройка?

SparseLoco решает задачу предварительного обучения. Но для того чтобы модель заговорила нужным тоном, ее нужно выровнять и дообучить. Здесь децентрализация пока отстает.

Методы вроде DPO (и его наследника GRPO) требуют качественных, зачастую конфиденциальных данных предпочтений. Как собирать их децентрализованно, не нарушая приватность? Пока ответа нет. А без этого мы получим сырую, потенциально опасную модель.

И даже если вы получите веса Covenant-72B, для ее эффективного запуска вам могут понадобиться кастомные CUDA ядра и знание о том, как избежать «зоны убийства» здравого смысла при дообучении.

💡
Совет: Не гонитесь за модным децентрализованным обучением для вашего следующего коммерческого проекта. Для задач, где важны скорость и предсказуемость, старый добрый централизованный кластер (как предлагает Hugging Face) пока надежнее. Но если вы строите open-source модель-кандидата или проводите исследование — SparseLoco и ему подобные методы ваш билет в будущее.

Covenant-72B не идеальна. Она немного «шумная» в своих ответах. Но она существует. И ее появление доказывает: эра, когда создание гигантских ИИ-моделей было уделом избранных, заканчивается на наших глазах.

Следующие 12 месяцев покажут, сможет ли сообщество не только обучить модель, но и безопасно ее выровнять. Если да — нас ждет новая, куда более хаотичная и интересная экосистема ИИ.

Подписаться на канал