Пока все ждут Sora, китайцы готовят свой удар
Февраль 2026-го. OpenAI до сих пор держит Sora в закрытом бета-тестировании, как будто это ядерные коды. Runway с Veo 3.1 пытается занять нишу вертикального видео, но их Ingredients to Video работает через раз. А сообщество уже устало ждать и спрашивает: где же локальные альтернативы? Где тот самый Qwen Video, который Alibaba обещала еще в 2024-м?
На 5 февраля 2026 года Qwen Video все еще не выпущен. Никаких официальных релизов, только тизеры на конференциях и слухи в китайских tech-чатах.
Что мы знаем наверняка (и это мало)
Alibaba не дураки. Они смотрят на успех Qwen-Image-2512 - их open-source монстра, который реально догоняет Midjourney по качеству картинок. Логика простая: если получилось с изображениями, почему не получится с видео?
Но видео - это другая лига. Совсем другая. Генерация 5-секундного ролика в 4K требует в 100-500 раз больше вычислений, чем одна картинка. И это если не считать консистентности между кадрами, физики движения, звука...
Пока Qwen молчит, другие уже пробуют
Китайский Yume1.5 показывает 12 FPS на A100 и бесконечные миры с WASD-управлением. Это не совсем генерация видео из текста, но близко. Проблема в том, что Yume требует специализированного пайплайна и не умеет в сложные сцены.
Еще есть MOVA - открытый мультимодальный монстр, который генерирует видео и звук одновременно. Звучит круто, пока не попробуешь запустить на своем RTX 4090 и не получишь слайд-шоу из артефактов.
| Модель | Статус на 05.02.2026 | Локальный запуск | Качество |
|---|---|---|---|
| Qwen Video | В разработке | Планируется | Неизвестно |
| MOVA | Открытая | Да, но тяжело | Среднее |
| Yume1.5 | Открытая | Требует A100/H100 | Хорошее для игр |
| Waypoint-1 | Открытая | Да | Интерактивное видео |
Почему все так медленно? (Спойлер: железо)
Представьте, что вы хотите запустить Sora локально. Вам понадобится:
- 8x H100 (или 16x A100) - это около $500,000 только за видеокарты
- 1.5-2 TB видеопамяти в сумме
- Мощный CPU и тонны оперативки
- Систему охлаждения, которая не расплавит ваш дом
Даже если Alibaba сделает Qwen Video эффективнее (а они умеют, смотрите на Qwen3-Coder-Next), все равно потребуется минимум 2-4 топовые карты. Для домашнего использования - нереально.
А что с другими компаниями?
Meta молчит. Google с их Imagen Video тоже не спешит в open-source. Stability AI обещали что-то видео-ориентированное, но пока только демки.
Китайские стартапы активнее. Помимо Alibaba, есть слухи, что DeepSeek готовит новый флагман с видео-возможностями. Но это именно слухи - официальных анонсов нет.
Интересный тренд: вместо генерации видео с нуля, многие идут по пути Waypoint-1 - интерактивная генерация на основе существующего контента. Дешевле, быстрее, и уже работает локально.
Когда ждать прорыва? Мой прогноз
Смотрю на развитие мультимодальных моделей для локального запуска и вижу паттерн:
- Сначала появляется закрытая модель от OpenAI/Google (Sora/Veo)
- Через 6-12 месяцев китайские компании делают open-source аналог
- Еще через 3-6 месяцев появляются оптимизированные версии для локального запуска
Sora анонсировали в феврале 2024. Значит, по этой логике, Qwen Video должен был выйти в конце 2024 - начале 2025. Но не вышел.
Почему? Думаю, Alibaba столкнулась с двумя проблемами:
- Технической - видео-генерация оказалась сложнее, чем думали
- Бизнес-логикой - зачем выпускать open-source монстра, если можно лицензировать технологию китайским компаниям?
Что делать, пока ждем?
Не сидеть сложа руки. Есть рабочие альтернативы, пусть и с ограничениями:
Для коротких роликов (до 3 секунд) - MOVA. Для игрового и интерактивного контента - Waypoint-1. Для исследований - Yume1.5, если есть доступ к серверным картам.
И следить за новыми uncensored-моделями на Hugging Face - там иногда всплывают интересные видео-эксперименты.
Главный совет: не верьте хайпу. Когда выйдет Qwen Video (если выйдет), он потребует железо уровня small datacenter. Домашние RTX 5090/6090 не спасут.
Итог: ждать до конца 2026
Мой прогноз на основе того, что вижу: Qwen Video выйдет во второй половине 2026 года. Сначала как API для разработчиков, потом (возможно) как open-source модель с урезанными возможностями.
Локальный запуск на потребительском железе? Забудьте до 2027-2028. Разве что появятся специализированные AI-ускорители, которые удешевят вычисления в 10-20 раз.
А пока смотрите на World Models от Runway - это другое направление, но возможно, более перспективное. Генерация целых миров вместо отдельных видео - звучит как следующая большая вещь.
P.S. Если увидите анонс Qwen Video - проверьте требования к железу. Если там меньше 4x H100 - это фейк. Если больше - готовьте $200,000+ на оборудование. Или ищите облачный провайдер, который не обанкротится от ваших счетов.