Конец эпохи суперкомпьютеров?
Обучение модели на 72 миллиарда параметров сегодня требует либо кластера из тысяч H100, либо бюджета небольшой страны. Covenant-72B только что поставила на этом крест. Ее обучили на разрозненных GPU по всему миру — от дата-центров до, возможно, вашего соседа с тремя RTX 5090. И сделали это с помощью метода под названием SparseLoco.
Звучит как фантастика. Но на 17 марта 2026 года это уже реальность. Технологический переворот, который может демократизировать создание ИИ сильнее, чем что-либо до этого.
Контекст: SparseLoco — это эволюция подхода DiLoCo (Distributed Low-Communication), представленного Google в 2024 году. Но если DiLoCo все еще требовал относительно стабильной сети между узлами, то SparseLoco работает в условиях, когда пинг между участниками может быть 200 мс, а доступность — 70%. Именно это позволяет использовать truly permissionless сеть.
Магия SparseLoco: синхронизация без синхронизации
Как заставить тысячу независимых видеокарт учить одну модель, не утонув в обмене градиентами? Классический федеративный learning здесь не работает — коммуникационные затраты съедят все.
SparseLoco делает три вещи, каждая из которых в отдельности звучит безумно:
- Локальные эпохи в вакууме: Каждый узел обучается на своем чанке данных десятки, а то и сотни шагов, совершенно независимо. Представьте, что 1000 моделей начинают расходиться в разные стороны.
- Разреженный синтез: Вместо того чтобы слать все градиенты, узлы обмениваются крошечными, критически важными обновлениями — обычно меньше 0.1% от полного размера. Это похоже на DroPE-хак, но примененный к процессу обучения, а не инференсу.
- Асинхронное усреднение «когда получится»: Центрального сервера нет. Есть пиринговая сеть, где обновления путешествуют как сплетни — медленно, но неотвратимо.
Результат? Модель сходится. Медленнее, чем на кластере Nvidia. Но в 10-15 раз дешевле. И главное — без единого точки контроля.
Covenant-72B: первая ласточка
Сама модель — это плотно оптимизированный LLaMA 3.2-подобный декодер на 72B параметров. Никаких архитектурных сюрпризов. Весь фокус в том, как ее обучали.
| Параметр | Значение | Комментарий |
|---|---|---|
| Архитектура | Decoder-only (Llama 3.2) | Использует SwiGLU и RoPE, как и современные чемпионы |
| Узлов (в пике) | ~1,850 | Средняя доступная память GPU: 18-24 ГБ |
| Эффективность использования GPU | 67% | Поразительно высоко для такой нестабильной сети |
| Стоимость обучения (эстимейт) | $42,000 | Для сравнения: централизованный аналог — $500,000+ |
На тестах MMLU, HellaSwag и HumanEval Covenant-72B показывает результаты в пределах 2-3% от централизованно обученной LLaMA 3.1 70B. Недостаток восполняется продвинутыми техниками инференса и последующей тонкой настройкой.
Предупреждение: Децентрализованное обучение — это ад для отладки. Вы не можете просто подключиться к TensorBoard и посмотреть кривые потерь в реальном времени. Если узел с 5% критически важных градиентов упадет — вся система будет болеть часами. Это не для слабонервных.
Что это меняет? Всё
Технические детали интересны. Но последствия — взрывные.
- Конец монополии на вычисления: OpenAI, Anthropic, Google владеют суперкомпьютерами. Теперь любой консорциум университетов или даже сообщество энтузиастов может собрать конкурентоспособную модель. Уже есть слухи о проекте на 140B параметров.
- Новый виток гонки архитектур: Когда обучение дешевеет на порядок, можно экспериментировать. Будут воскрешены идеи, которые считались слишком рискованными из-за стоимости прогона. Гибридные нейро-символические подходы, как в этом гайде, получают второй шанс.
- Проблема для регуляторов: Как контролировать модель, у которой нет владельца? Обучение которой распределено по сотням юрисдикций? Вопросы безопасности и выравнивания (где уже правит GRPO) становятся головной болью.
И да, это удар по бизнес-модели облачных провайдеров. Зачем арендовать кластер за $200 в час, если можно мобилизовать сообщество? (Хотя для отладки и тонкой настройки Amazon SageMaker или его аналоги еще пригодятся).
А что же тонкая настройка?
SparseLoco решает задачу предварительного обучения. Но для того чтобы модель заговорила нужным тоном, ее нужно выровнять и дообучить. Здесь децентрализация пока отстает.
Методы вроде DPO (и его наследника GRPO) требуют качественных, зачастую конфиденциальных данных предпочтений. Как собирать их децентрализованно, не нарушая приватность? Пока ответа нет. А без этого мы получим сырую, потенциально опасную модель.
И даже если вы получите веса Covenant-72B, для ее эффективного запуска вам могут понадобиться кастомные CUDA ядра и знание о том, как избежать «зоны убийства» здравого смысла при дообучении.
Covenant-72B не идеальна. Она немного «шумная» в своих ответах. Но она существует. И ее появление доказывает: эра, когда создание гигантских ИИ-моделей было уделом избранных, заканчивается на наших глазах.
Следующие 12 месяцев покажут, сможет ли сообщество не только обучить модель, но и безопасно ее выровнять. Если да — нас ждет новая, куда более хаотичная и интересная экосистема ИИ.