Четыре шага вместо пятидесяти – и видео готово
Пока весь мир обсуждает, сколько GPU нужно Sora, чтобы склеить минуту хоть сколько-нибудь связного ролика, индийский стартап Avataar AI тихо сделал то, что должно было случиться ещё год назад. Они взяли открытую модель Wan 2.2 (которая сама по себе монстр на 1.5B параметров), прогнали через дистилляцию и получили Varya. Результат: 45 секунд на генерацию на одном NVIDIA H200 вместо 20 минут у оригинала. Цена — $0,005 за секунду видео. Это не опечатка.
Varya — это не новая архитектура. Это тот же Wan 2.2, но сжатый через knowledge distillation так, что для вывода нужно всего 4 шага вместо 50. Без потери качества — на глаз отличить невозможно.
Что такого особенного в дистилляции Wan 2.2?
Дистилляция — не новость. Её используют в LLM (вспомните LLaVA-OV-2, где мультимодальную модель учили смотреть видео через кодек). Но в генеративном видео всё сложнее: каждый шаг diffusion — это дорогой просчёт всего латентного пространства. У Wan 2.2 — 50 шагов. Varya берёт «учителя» (Wan 2.2) и «студента» (лёгкую версию с 4 шагами), и тренирует студента повторять выход учителя на каждом шаге, но в 12 раз быстрее.
Технический секрет — в выборе «истинного» тракта. Вместо того чтобы минимизировать MSE между пикселями, Avataar использовали perceptual loss + adversarial loss. Поэтому артефакты не накапливаются, а динамика движения остаётся плавной. Если вы когда-нибудь запускали FlashMotion с 50-кратным ускорением, то знаете, как трудно сохранить качество при радикальном сокращении шагов. Varya справляется за счёт того, что дистиллируют не весь diffusion process, а только его последние стадии, где формируется текстура.
Сравнение с конкурентами: таблица цифр
| Модель | Время на 5 секунд (H200) | Стоимость за секунду | Шагов inference |
|---|---|---|---|
| Wan 2.2 (original) | ~1230 с | $0,12 | 50 |
| Sora (OpenAI) | ~900 с (оценка) | $0,10 (субскрипция) | ~30-40 |
| Kling 1.5 Pro | ~300 с | $0,04 | 25 |
| Varya (Avataar AI) | 45 с | $0,005 | 4 |
Цифры говорят сами за себя. Varya не просто быстрее — она на порядок дешевле. Для стартапов, которые хотят генерировать тысячи роликов для локальной рекламы, это меняет экономику.
Где Varya выигрывает, а где пока уступает
На коротких роликах (до 10 секунд) Varya почти не отличима от Wan 2.2. Но если нужно длинное видео с непрерывным сюжетом, дистиллированная модель может «забывать» контекст после 15-20 секунд. Это плата за скорость — NVIDIA в LongLive 2.0 пошли другим путём: квантовали веса в NVFP4, ускорив генерацию в 2 раза без потери длины. У Varya длина пока ограничена.
Зато Varya идеально адаптирована под локальные особенности. Avataar AI натренировал модель на индийских датасетах: цвет кожи, одежда, архитектура, жесты. Если попросить «женщина в сари готовит чапати на кухне» — Varya выдаст реалистичную картинку, тогда как Wan 2.2 или Sora часто генерируют стереотипные «индийские» сцены из фильмов.
Сравнение с конкурентами в контексте кастомизации я разбирал в LTX-2 против Kling/Veo3 — там выбор упирается в гибкость инструментов, а у Varya гибкость ограничена, но цена убивает.
Кому стоит присмотреться к Varya
- Локальные рекламные студии. Если вам нужно быстро нагенерить 100 вариантов одного ролика с разными моделями/фонами — Varya окупится за неделю.
- Образовательные платформы в Южной Азии. Создание учебных видео на местных языках с реалистичными персонажами.
- Инди-игры. Процедурная генерация кат-сцен и трейлеров — бюджетные проекты теперь могут позволить себе качественную графику.
- Все, кто устал ждать. Если вам нужно видео «здесь и сейчас» для презентации или поста в соцсетях — Varya выдаст результат за минуту.
Предупреждение: Varya пока не умеет корректно генерировать текст в кадре (вывески, субтитры). Если в сценарии важны надписи — придётся добавлять их постфактум или использовать другие решения, вроде специализированных моделей для рендеринга шрифтов.
Практический пример: как за 45 секунд получить рекламный ролик
Допустим, вы хотите протестировать Varya для локального магазина одежды. Промпт: «Женщина 25 лет в синем платье с цветочным принтом идет по рынку в Мумбаи, дневной свет, 5 секунд, 1080p».
На Wan 2.2 такой запрос обрабатывался бы >20 минут. На Varya — 45 секунд. После генерации можно сразу делать нейросетевой апскейлинг до 4K и публиковать. Весь цикл — меньше 2 минут.
Если нужно серию роликов с разными платьями — прогоняете 50 промптов, получаете 50 уникальных роликов за 40 минут. Стоимость: 50×5×0,005 = $1,25. За такие деньги Sora не даст даже один ролик.
Что дальше: эра дистиллированных моделей
Varya — не уникальный случай. Весь 2026 год идёт тренд на сжатие diffusion моделей. Wan-Move и Kling 1.5 Pro уже показывают, что контроль движения можно получить без гигантских вычислительных затрат. А Varya доказывает: дистилляция — не компромисс, а новый стандарт.
Следующий шаг — дистилляция 4K-видео. Сейчас Varya работает в 720p. Но если перенести ту же технику на NVILA-8B-HD-Video с 19-кратным сокращением латенции, то уже в конце лета мы увидим «студента», который генерирует 4K-видео за 10-15 секунд. Ждать осталось недолго.
Совет: если вы собираете локальную AI-станцию для генерации видео — посмотрите в сторону H200 или хотя бы A100. На домашней видеокарте Varya пока не запускается, но для облачных инстансов её цена (около $0,3 за час работы H200) делает её самой выгодной опцией на рынке. Сборка AI-станции за $1500 для Varya не подойдёт — нужно минимум 24 ГБ VRAM. Но для облака это не проблема.