Ты просто говоришь: «Убери этот стул, сделай цветокоррекцию как в Blade Runner, и добавь драматическую музыку на 15-й секунде». ИИ делает это за секунды. Это не магия — это Gemini Omni Flash.
Честно? Я не поверил, пока не попробовал. Google снова переписал правила игры. 24 мая 2026 года — день, когда видеомонтаж перестал быть уделом гиков с Premiere Pro и DaVinci Resolve. Теперь достаточно естественного языка.
Что такое Gemini Omni Flash и почему о нём говорят все
Это не просто очередное обновление. Gemini Omni Flash — мультимодальная модель, которая на лету понимает и изменяет видео, сохраняя консистентность кадра, света, даже движения объектов. В отличие от прошлых версий, где нужно было писать сложные промпты, здесь ты просто описываешь желаемый результат. Хочешь убрать прохожего из кадра? Скажи. Хочешь заменить закат на ночной город? Легко.
В основе лежит новая архитектура, объединившая темпоральное понимание видео и продвинутый референсный синтез. Модель анализирует каждый кадр в контексте всего клипа, а не работает по принципу «кадр-за-кадром».
Помните, как мы сравнивали Qwen3.5 Omni Plus с Gemini? Тогда отрыв по мультимодальности был минимальным. Теперь Google ушёл в отрыв с такой скоростью, что Alibaba, похоже, придётся догонять.
Как это меняет реальный рабочий процесс — примеры из беты
Я получил доступ к бете пару недель назад. Моя первая мысль: «Где подвох?». Подвох нашёлся не сразу, но о нём позже. Сначала — что реально работает.
- Удаление объектов. Пишу: «Убрать микрофон из правого верхнего угла на всём протяжении видео». Модель дорисовывает фон у естественно, без артефактов — я не нашёл glitch'ей ни в одном кадре.
- Глобальная цветокоррекция. «Сделай тон как в фильме „Бегущий по лезвию 2049“ — холодный сине-оранжевый, но лица пусть остаются натуральными». Результат — будто я потратил час в Color Grading панели. Модель понимает семантику сцены.
- Замена фона. «Замени эту стену на космос с туманностями, сохрани моё освещение». ИИ анализирует источник света и перерисовывает фон, не создавая эффекта «плохой greenscreen».
Особенно впечатлило, как модель сохраняет консистентность: если на первом кадре удалили стул, на всех остальных он исчезает, а пол оказывается реконструирован. Раньше это требовало покадровой обработки с помощью нейросетей по типу Ebsynth.
Но есть и ограничение: Gemini Omni Flash пока не умеет дорисовывать сложную геометрию за пределами кадра. Если объект двигался и частично выходил из кадра, AI может «потерять» цельную картину. Google обещает исправить это в следующем патче.
Интеграция с Google Flow и YouTube Shorts — экосистемное оружие
Самое интересное — как модель встраивается в экосистему. Google Flow (аналог Make/N8N от Google, основанный на Gemini) теперь имеет модуль «Видеоредактор через диалог». Ты просто кидаешь видео в триггер, описываешь изменения, и на выходе получаешь готовый ролик без единой строчки кода.
А для YouTube Shorts — отдельная радость: платформа использует Gemini 3 Flash для агентных workflow, но именно Omni Flash отвечает за визуальное редактирование. Можно голосом сказать: «Сделай из этого влога 15-секундную нарезку с субтитрами и эмодзи», — и Shorts готов.
Кстати, о субтитрах: функция «нейронного шёпота», которую мы описали в статье про Deep Think в Gemini App, теперь доступна в видеоредакторе. AI думает вслух, рассуждает, какие правки внести, и показывает процесс — вместо того чтобы выдавать «чёрный ящик».
Live translation прямо в видео — убийца дубляжа
Ещё одна фишка, от которой у меня дрогнули руки. Живой перевод речи на видео. Ты загружаешь русскоязычный ролик, говоришь «переведи на английский, синхронизируй губы с новой речью», и через 20 секунд получаешь видео, где персонаж говорит с идеальным accent'ом, а артикуляция совпадает. Без трека! Это не дубляж — это ретрансляция.
Мы уже видели намёки на это в бета-тесте живого перевода в наушниках, но теперь это полноценная функция. Звучит как научная фантастика, но работает.
А как же конкуренты? Pika, Runway, CapCut?
Да, Pika и Runway научились генерировать и редактировать видео по тексту. Но они либо работают с очень короткими клипами (до 20 секунд), либо требуют миллион итераций. Gemini Omni Flash справляется с 5-минутными роликами за один проход.
CapCut от ByteDance — ближайший конкурент: он тоже редактирует видео по тексту. Но там всё завязано на шаблоны, а не на полное понимание сцены. Если вам нужно нестандартное изменение — CapCut пасует.
Google же сделал ставку на семантическое понимание пространства. Я могу сказать: «Пусть трава на поле станет более зелёной, но небо оставь прежним, а тени сделай мягче». И модель понимает, что «трава» — это не просто пиксели, а семантическая область.
Ограничения: где подвох (и он есть)
Без ложки дёгтя не обошлось. Gemini Omni Flash пока доступен только через API и веб-интерфейс для Gemini Advanced. В мобильном приложении редактирование ограничено короткими клипами (до 2 минут). Google обещает полноценный десктопный редактор к августу 2026.
Кроме того, модель требует немало ресурсов. Средняя обработка минуты видео занимает около 30 секунд на сервере — вроде быстро, но это если у вас стабильный интернет. На медленных каналах — ждать дольше.
И последнее: AI может «перестараться». Один раз я попросил «усилить драматизм», и модель перекрасила весь ролик в глубокий красный, сделав лица зомби-подобными. Хорошо, что есть функция отката.
Что дальше? Прогноз на полгода
Судя по темпу, к осени мы увидим Gemini Omni Flash в каждом смартфоне Pixel и Samsung Galaxy. Google явно готовит революцию не только для профессионалов, но и для масс. Станет ли CapCut бесполезным? Не сразу. Но если ты блогер, которому лень учить Davinci Resolve — 24 мая 2026 года твой личный праздник.
Лично я уже удалил половину плагинов для Premiere. Зачем они нужны, если можно просто сказать: «Сделай круто»?