Утечка Seedance 2.0: 96 GB VRAM и квантование | Новости AI 2026

Слив на форуме: как 800 гигабайт секретов выложили в общий доступ

Еще вчера Seedance 2.0 была мифом, ходячим слухом в узких кругах. Ее называли "инструктабельным Claude Code", но на стероидах. А сегодня, 25 февраля 2026, кто-то под ником "tensor_leaker" вывалил на приватный форум 4chan полный дамп весов. Все 800 гигабайт в формате безопасных тензоров (safetensors). Архив разлетелся по торрентам за три часа.

Никакой корпорации за моделью не стоит. Точнее, не стояло. Судя по структуре кода и стилю документов, Seedance 2.0 - продукт закрытой исследовательской группы, финансируемой через офшоры. Они работали над ней почти год. Модель оказалась гибридной: 530 миллиардов параметров, архитектура MoE (Mixture of Experts) с 16 экспертами, каждый - плотная сеть на 60B. Контекст - 256 тысяч токенов. И все это обучено на синтетических данных, сгенерированных другими ИИ.

Важно: На момент публикации (26.02.2026) официального подтверждения от создателей Seedance 2.0 нет. Использование слитых весов может нарушать лицензионные соглашения, которых, впрочем, никто не видел.

96 GB VRAM или ничего: почему ваш RTX 5090 - теперь костыль

Первые же попытки запустить модель уперлись в жестокую реальность. Даже с последними оптимизациями в llama.cpp версии 0.14.2 (релиз от февраля 2026), для загрузки Seedance 2.0 в формате FP16 требуется примерно 96 гигабайт видеопамяти. Не оперативной. Именно VRAM.

Вот что это значит на практике:

Две топовые RTX 5090 с 48 GB каждая в режиме NVLink - это только стартовая конфигурация.
Одна профессиональная карта типа NVIDIA B200 (120 GB) справится, но ее цена сравнима с бюджетом небольшой страны.
Большинство энтузиастов, которые радовались запуску "средних" 70B-моделей на своих системах, оказались за бортом. Наша статья про модели 20-80B теперь выглядит как инструкция для каменного века.

💡

Почему так много? Архитектура MoE хоть и эффективна при инференсе (активны только 2-4 эксперта из 16), но все эксперты должны быть загружены в память для мгновенного переключения. Это как иметь 16 разных моделей под капотом одной.

Квантование в режиме аврала: сообщество против физики

Как только стало ясно, что в "чистом" виде модель мертва для 99.9% пользователей, началась гонка. Цель - ужать Seedance 2.0 до размеров, которые потянет хотя бы одна карта с 24 GB VRAM.

Основные методы, которые тестируют прямо сейчас:

Метод квантования	Целевой размер VRAM	Потери качества (предварительно)	Статус на 26.02.2026
FP16 (оригинал)	~96 GB	0%	Работает на B200 / 2x5090
GPTQ до 3-бит (новый алгоритм)	~36 GB	Заметные на коде	Тестируется, есть артефакты
AWQ до 4-бит	~48 GB	Минимальные	Самый стабильный вариант
GGUF Q2_K (через llama.cpp)	~24 GB	Значительные, модель "тупеет"	Работает, но зачем?

Проблема в том, что стандартные инструменты квантования, вроде AutoGPTQ, заточены под плотные архитектуры. Seedance 2.0 с ее MoE ломает шаблоны. Первые конвертированные версии либо не запускаются, либо выдают бред, либо падают с ошибками выделения памяти. Особенно страдают эксперты, отвечающие за математику и рассуждения.

Опытные калибровщики моделей советуют пока смотреть в сторону облачных решений. Аренда инстанса с B200 на час обойдется примерно в $12-15. Дешевле, чем покупать железо. Но это убивает всю идею локальности.

Что делать, если у вас нет дата-центра в гараже?

Пока гении квантуют гиганта, обычные пользователи могут сделать вот что:

Во-первых, не пытайтесь запустить это на чем попало. 96 GB VRAM - это не шутка. Если у вас система с "всего лишь" 48 GB, как у многих после апгрейда на 4090, даже не думайте. Вы получите ошибку `CUDA out of memory` быстрее, чем успеете прочитать этот абзац. У нас есть отдельный разбор этой боли для владельцев таких систем: Когда 48GB VRAM не хватает.

Во-вторых, присмотритесь к другим мощным, но более умеренным моделям. Тот же Nemotron 3 Nano 30B MoE дает фантастическое качество кода и помещается в 24 GB. Или вспомните про модели, которые мы называли "на конец света" - они проверены, стабильны и не требуют жертвоприношения видеокарты.

В-третьих, если очень хочется поиграть с архитектурой MoE, но без экстремальных требований, есть вариант с оффлоадом слоев на RAM. Да, это медленно. Но работает. Правда, для Seedance 2.0 даже с оффлоадом понадобится около 200 GB оперативной памяти. Настройка - адский квест, похожий на оптимизацию DeepSeek-V3.2, только в десять раз сложнее.

Прогноз от инсайдеров: первые более-менее стабильные квантованные версии Seedance 2.0 в формате AWQ 4-бит появятся через 5-7 дней. Они будут требовать 48-64 GB VRAM и, скорее всего, будут торрентиться с пометкой "experts_merged" - где все 16 экспертов сольют в 4 более крупных блока. Качество? Гадать рано.

Ирония в том, что утечка весов, которая должна была демократизировать доступ к супер-модели, на деле только подчеркнула пропасть между обладателями enterprise-железа и всеми остальными. Seedance 2.0 стала самым дорогим подарком, который невозможно использовать. Пока сообщество ломает голову над квантованием, создатели оригинальной модели, вероятно, просто пожимают плечами. Их следующий шаг - Seedance 3.0, который, если верить слухам, будет требовать HBM4e и 240 GB памяти. Надеюсь, к тому времени у нас хотя бы разберутся с текущим гигантом.

P.S. Если вы все же решитесь на авантюру и попробуете запустить Seedance 2.0 на потребительском железе, приготовьтесь к ошибкам вроде `'Unable to allocate ROCm0 buffer'`. Решения ищем здесь. Удачи. Она вам понадобится.

Подписаться на канал

Утечка весов Seedance 2.0: 96 GB VRAM и безумная гонка за квантованием

Слив на форуме: как 800 гигабайт секретов выложили в общий доступ

96 GB VRAM или ничего: почему ваш RTX 5090 - теперь костыль

Квантование в режиме аврала: сообщество против физики

Что делать, если у вас нет дата-центра в гараже?

Подписывайтесь на наш канал!