Китайский ответ Sora, который перерос оригинал
Когда в феврале 2024 OpenAI показала Sora, индустрия ахнула. Но тишина длилась недолго. Уже в декабре того же года Kuaishou — китайский гигант коротких видео — выпустил Kling. И если первые версии просто догоняли, то в мае 2026 мы наблюдаем нечто другое: Kling 3.0 не просто генерирует видео, он сходу создает звуковую дорожку. И делает это с пугающей синхронностью. Как им это удалось? Давайте разбираться по косточкам.
Актуально на 14 мая 2026: Kling 3.0 доступен публично через API и веб-интерфейс, поддерживает русский язык в промптах.
Кто стоит за Kling? Досье на создателя
Kuaishou Technology — компания из Пекина, основанная в 2011 году Су Хуа и Чэн Исяо. Их основной продукт — одноименная платформа коротких видео, которая в Китае соперничает с Douyin (TikTok). Но в отличие от ByteDance, Kuaishou с 2020 года агрессивно инвестировала в AI-лаборатории. Ключевая фигура — доктор Ван Цзянь, руководитель направления генеративного видео. Именно его команда в 2023 году первой применила Diffusion Transformer (DiT) в видеогенерации, ещё до того, как Sora показала миру этот подход.
В 2025 году Kuaishou выделила подразделение Kling в отдельный бренд, а в январе 2026 вышла Kling 3.0 — первая версия, которая генерирует не только картинку, но и синхронизированный звук. Это стало возможным благодаря гибридной архитектуре, которая объединяет пространственно-временной VAE и аудио-диффузионную модель.
Архитектура: как работает Kling под капотом
В основе Kling лежит 3D Variational Autoencoder (3D VAE). Обычные VAE работают с 2D-изображениями, но видео — это трехмерный объем (высота, ширина, время). 3D VAE сжимает видео в латентное пространство, сохраняя временные зависимости. Затем в игру вступает Diffusion Transformer — он обрабатывает латентные токены, предсказывая шум и восстанавливая чистый видеоряд.
Отличие от Sora в деталях: Sora использует VAE с понижением разрешения в 8 раз, а Kling — в 16 раз. Это агрессивнее, но позволяет генерировать более длинные ролики на том же объеме памяти. Kling 3.0 умеет создавать видео до 2 минут в разрешении 1080p. Плата за сжатие — иногда теряются мелкие детали при быстрых движениях. Но в 3.0 это частично исправлено через механизм attention с адаптивной маской.
| Компонент | Kling 3.0 | Sora (OpenAI) |
|---|---|---|
| Базовый алгоритм | Diffusion Transformer | Diffusion Transformer |
| Сжатие латентного пространства | 3D VAE x16 | 2D VAE x8 |
| Макс. длительность видео | 2 минуты (1080p) | 1 минута (1080p) |
| Аудиогенерация | Встроенная, синхронизация lipsync | Нет (только видео) |
| Поддержка кастомных LoRA | Да (с марта 2026) | Нет |
Эволюция: от Kling 1.0 до Kling 3.0
Первый публичный релиз Kling 1.0 состоялся в декабре 2024. Тогда модель выдавала ролики длиной до 2 минут, но с частыми артефактами — объекты распадались, физика была резиновой. Ровно через полгода, в июне 2025, вышла Kling 2.0 с улучшенной физикой движения. Команда переобучила модель на 2 миллиардах пар «видео + текстовое описание», добавила механизм долгосрочных временных связей. По оценкам, Kling 2.0 обогнал Sora в точности соблюдения физики на 30% (внутренний бенчмарк Kuaishou).
Но настоящий прорыв случился в январе 2026 с Kling 3.0. Модель научилась генерировать звук: шаги, ветер, голоса — всё синхронизируется с видео. Реализовано через отдельную аудио-диффузионную ветку, которая получает не только текст, но и скрытые представления от 3D VAE. Это позволило добиться точного совпадения движения губ со звуком. Подробный разбор аудио-функции можно найти в нашем сравнении LTX-2 против Kling/Veo3 — там же тестируется, насколько хорошо Kling озвучивает динамичные сцены.
Физика движения: почему Kling (почти) не глючит
Главная боль всех видеогенераторов — объекты ведут себя как в сюрреалистичном сне. Люди проходят сквозь столы, вода застывает в воздухе. Kling 3.0 решает это через двухуровневый attention: сначала модель предсказывает грубую траекторию ключевых точек на 8 кадрах, затем дорисовывает детали. Плюс в 3.0 добавили контроль за «контактной информацией» — ноги должны касаться земли, руки — предметов. Результат: в спокойных сценах физика почти неотличима от реальной съемки. Проблемы остаются только с очень сложными взаимодействиями — например, жидкость, переливающаяся из одной емкости в другую, иногда ведет себя странно.
Kling на рынке: кто конкуренты
Если смотреть на конце 2025 — начало 2026, главные противники Kling — это Sora (так и не ставшая открытой), Veo 3 от Google (мощный, но дорогой), LTX-2 (открытая модель с аудио) и Pika 2.0. Kling занимает золотую середину: качество почти как у Sora, но дешевле и с аудио. Китайская прописка не мешает: API доступен по всему миру, есть русский интерфейс.
В нашем обзоре LTX-2: открытая модель, которая генерирует видео и звук одновременно мы показали, что открытые модели уже догоняют Kling в базовых сценариях, но пока уступают в реалистичности физики и артефактах. А вот Waypoint-1 — совсем другая история: интерактивная генерация, где задержка ниже секунды, но качество ниже.
Отдельно стоит отметить Kling Video O1 — это не следующая версия генератора, а отдельный инструмент для редактирования и дорисовки видео, работающий в связке с основной моделью. Если нужна не просто генерация с нуля, а изменение уже существующего ролика — O1 справляется лучше любого конкурента.
Как сгенерировать видео на Kling 3.0: пошагово
Для тех, кто хочет попробовать прямо сегодня:
- Зарегистрироваться на platform.klingai.com (есть бесплатные 10 кредитов при регистрации).
- Ввести текстовый промпт на русском или английском. Например: «Женщина в красном платье танцует танго на крыше небоскреба на закате, ветер развевает волосы, слышна музыка и шаги».
- Выбрать длительность (до 2 мин), разрешение (720p или 1080p), включить аудио.
- Нажать «Generate» — ждать от 3 до 15 минут в зависимости от нагрузки.
- После генерации можно доработать в Video O1: добавить эффекты, изменить фон, ускорить отдельные сцены.
Совет: избегайте в промпте сложных слов вроде «симуляция жидкости» — модель может выдать артефакты. Лучше описывайте конкретные движения: «вода льется из кувшина в стакан, прозрачная, с брызгами».
Будущее: что дальше
Уже сейчас циркулируют слухи про Kling 4.0 — якобы в разработке мультимодальный генератор, который по одному аудио треку создаст видео-клип в стиле музыки. Если Kuaishou выпустит это до конца 2026, они съедят значительную долю рынка музыкальных видео. Но главный вопрос: откроют ли исходный код? LTX-2 уже открыта, а Kling пока проприетарен. Однако команда обещала выпустить легковесную версию 3.0 Lite под открытой лицензией к концу лета 2026. Если сдержат слово — индустрия получит мощный инструмент для кастомных дообучений, и тогда эволюция нейросетей за три года выйдет на новый виток. Пока же Kling остается лучшим выбором для тех, кому нужно «видео с песком и ветром» за адекватные деньги — и с аудио в придачу.