Китайский всеядный монстр против западного левиафана
Alibaba Cloud на этой неделе тихо выкатила Qwen3.5 Omni Plus — самую мощную мультимодальную модель в своей линейке. Не просто апгрейд, а заявка на войну. В презентации прямо говорят: превосходит Gemini 3 Pro в задачах анализа видео и аудио. Мы взяли ранний доступ к API и устроили лобовой тест.
Заявки громкие. Модель понимает и генерирует текст, изображения, аудио, видео — всё нативно, без костылей из отдельных модулей. Фишка — технология Audio-Visual Vibe Coding. Звучит как маркетинговая абракадабра, но на деле это попытка закодировать «атмосферу» сцены: эмоции в голосе, движение камеры, даже саундтрек. В теории, это должно давать невероятный контекст для генерации.
Audio-Visual Vibe Coding — это не магия, а очень сложная математика
Объясняют просто: модель учится связывать визуальные паттерны с аудиоволнами в едином скрытом пространстве. Видит, как герой в кадре размахивает руками, и связывает это с нарастающим громким звуком — значит, ссора. Слышит тихую фортепианную мелодию и статичный кадр — значит, грусть.
На практике это означает, что вы можете загрузить 10-секундный клип из фильма и попросить: «Опиши эмоциональную дугу персонажа». Или дать скриншот интерфейса и сказать: «Сгенерируй код для этой кнопки, но добавь анимацию, как в том видео с презентацией Apple». И модель должна понять, какая именно анимация имеется в виду.
Тест на разрыв: от скриншота до работающего веб-приложения
Мы начали с классической задачи screenshot-to-code. Дали обеим моделям (Qwen3.5 Omni Plus и Gemini 3 Pro) идентичный скриншот минималистичного дашборда из Figma. Запрос: «Напиши React-компонент с Tailwind CSS, который реализует этот интерфейс».
| Критерий | Qwen3.5 Omni Plus | Gemini 3 Pro |
|---|---|---|
| Семантическая верстка | Отлично, использует semantic tags | Хорошо, но иногда div-суп |
| Точность стилей (Tailwind) | ~95%, ошибки в отступах | ~90%, путает flex и grid |
| Интерактивность (JSX) | Генерирует базовый useState хук | Часто забывает обработчики событий |
| Скорость ответа (средняя) | 3.2 секунды | 4.1 секунды |
Qwen выиграл этот раунд, но с небольшим отрывом. Интересно, что в более раннем подробном бенчмарке по screenshot-to-code разница между предшественниками была более заметной. Omni Plus явно училась на ошибках Qwen 3.5.
Главный бой: видео как контекст для генерации кода
Вот где началась настоящая магия (или её отсутствие). Мы загрузили 5-секундное видео, где круглая кнопка плавно увеличивается при наведении (мягкий bounce-эффект). Запрос для моделей был одинаковый: «Создай код этой анимации на CSS». Никаких дополнительных пояснений.
Gemini 3 Pro выдал корректный, но абсолютно generic код CSS transform: scale(). Никакого bounce. Когда мы уточнили: «Сделай точь-в-точь как в видео», модель попросила более детального текстового описания анимации. То есть, видео как контекст она проигнорировала.
Qwen3.5 Omni Plus сделал именно то, что мы хотели. Сгенерировал ключевые кадры (keyframes) с анимацией bounce, почти идеально повторив динамику из ролика. Это и есть пресловутый Audio-Visual Vibe Coding в действии — модель «поняла» характер движения.
Однако, не всё гладко. Когда мы попросили на основе этого же видео «дописать JavaScript для обработки клика с таким же feeling», Qwen сгенерировал код с debounce, но само событие сделало примитивно. Модель уловила «вибрацию» визуала, но не перенесла её на логику. Gemini в аналогичной ситуации просто отказался, сославшись на неоднозначность запроса.
Где спотыкается новый король?
Мультимодальность — не панацея. В чисто текстовых reasoning-задачах, особенно на логику и математику, Omni Plus всё еще отстает от Gemini 3 Pro. Мы дали несколько задач из набора AIME 2025 — Gemini решил 7 из 10, Qwen — только 4.
Ещё большая проблема — доступ. API Qwen3.5 Omni Plus пока работает только через Alibaba Cloud и для китайских разработчиков (или тех, у кого есть местный бизнес-аккаунт). Попробовать модель в деле так просто не получится. Google же открыл Gemini 3 Pro и Flash для всех через AI Studio и Vertex AI еще в конце 2025 года.
И последнее — цена. Alibaba не раскрывает тарифы, но инсайдеры говорят, что стоимость вызова Omni Plus в 1.5-2 раза выше, чем у Gemini 3 Pro за тот же объем токенов. За уникальную технологию придётся платить.
И что в итоге? Выбор зависит от вашей боли
Если ваша работа завязана на анализе или генерации видео-контента, и вам критично понимать контекст, а не просто объекты в кадре — Qwen3.5 Omni Plus это единственный реальный выбор. Audio-Visual Vibe Coding — не маркетинг, а работающая фича, которая опережает всё, что есть у Google.
Если же вам нужна стабильная, всесторонне развитая модель для текста, кода, изображений и базового анализа видео — Gemini 3 Pro остаётся безопасным и более доступным вариантом. Его reasoning-способности, как показали 40 лайфхаков для Gemini 3, можно выжать до предела.
Битва гигантов в 2026 году смещается с количества параметров в качество мультимодального понимания. Alibaba сделала рискованный, но сильный ход. Google теперь придётся отвечать не просто более крупной моделью, а новой архитектурой, которая сможет «чувствовать» медиа. А пока — мы наблюдаем разделение: Запад доминирует в reasoning, Восток — в эмоциональном интеллекте для AI.
Совет? Не зацикливайтесь на одном вендоре. Для скриншот-ту-кода берите Gemini Flash (дешево и быстро). Для сложного анализа видео снимайте ранний доступ к Qwen, как только он откроется глобально. А для локального экспериментирования присмотритесь к квантованным Qwen2.5 на своей видеокарте. Будущее — за ансамблем узкоспециализированных моделей, а не за одним универсальным, но компромиссным монстром.