Представьте, что вам нужно вырезать кота из фотографии, отделить небо от гор, а текст логотипа от фона. В Photoshop это часы кропотливой работы с волшебной палочкой и пером. Китайские разработчики из Alibaba Cloud в 2025 году выпустили инструмент, который обещает сделать это за секунды. Qwen-Image-Layered — это не очередной генератор картинок, а специализированный хирург для изображений.
Что это за зверь и как он работает
Qwen-Image-Layered — это дочерняя модель в огромном семействе Qwen. Если Qwen-Image-2512 генерирует картинки, то эта — разбирает их на запчасти. Технически это Vision-Language Model (VLM), обученная на миллионах размеченных изображений, где каждый пиксель принадлежит к определенному семантическому классу (небо, человек, машина, текст).
Модель не просто находит границы объектов. Она понимает контекст. Дерево перед домом и дерево в лесу — это разные слои с разной сложностью выделения. В этом ее главная фишка.
Чем не угодил старый добрый Segment Anything?
Когда в 2023 году Meta выпустила SAM (Segment Anything Model), все ахнули. Но к 2026 году стало ясно — SAM отлично выделяет что угодно, но не понимает зачем. Он даст вам 100 масок для одного объекта, но не скажет, что это «задний план» или «основной товар».
| Инструмент | Сильная сторона | Слабая сторона | Идеальный кейс |
|---|---|---|---|
| Qwen-Image-Layered | Семантическое понимание, работа со слоями | Требует четких промптов | Подготовка макетов для дизайна |
| SAM (Segment Anything) | Выделение любого объекта по точке | Нет понимания контекста | Быстрое прототипирование |
| Photoshop Select Subject | Интеграция в рабочий процесс | Плохо работает со сложным фоном | Быстрое редактирование фото |
| GLM-Image | Генерация и редактирование | Сегментация — второстепенная функция | Создание контента с нуля |
Qwen-Image-Layered создан для production. Вам не нужно тыкать в каждый объект. Вы говорите: «Раздели изображение на фон, основные объекты и текст» — и получаете три чистых слоя в PNG. Звучит как магия? Почти.
Тест-драйв на живых примерах
Я загрузил в демо-версию модели три типа изображений: стоковую фотографию, цифровую иллюстрацию и скриншот интерфейса. Вот что получилось.
1 Фотография уличного кафе
Промпт: «Выдели здание, людей, уличную мебель и растительность отдельными слоями».
Результат: Модель справилась на 4 из 5. Здание, столы, деревья — идеально. Но с двумя людьми, сидящими близко, она сделала один общий слой. Пришлось уточнять: «Раздели людей на отдельные слои». После уточнения — все получилось. Это показывает важность точных инструкций.
2 Детская книжная иллюстрация
Промпт: «Создай слои для персонажа, фона и декоративных элементов».
Результат: Здесь Qwen-Image-Layered показал себя блестяще. Иллюстрация с мягкими границами и текстурными фонами была разобрана на 7 четких слоев. Даже полупрозрачные крылья феи были выделены с сохранением альфа-канала. Для иллюстраторов это спасение. Вместо дней работы — минуты.
3 Скриншот веб-страницы
Промпт: «Отделить текст, кнопки, изображения и фоновую сетку».
Результат: Полный провал. Модель перепутала текст и фоновые блоки, создала кашу из слоев. Видимо, обучение на натуральных изображениях не подготовило ее к интерфейсам. Для таких задач лучше подходят специализированные инструменты, о которых мы писали в статье про VLM и сканы.
Главный вывод: модель работает отлично на фотографиях и иллюстрациях с четкими семантическими объектами. Но для синтетических изображений, скриншотов или документов она не годится. Не ждите от нее чуда.
Под капотом: почему это работает быстрее вашего дизайнера
Архитектура модели основана на том же принципе, что и у Qwen-Image-2512, но с упором на сегментацию. Энкодер преобразует изображение в набор фич, а декодер генерирует маски для каждого запрошенного класса. Ключевое улучшение 2025-2026 годов — использование техники внимания только к релевантным областям, что ускоряет обработку в 3 раза по сравнению с первыми версиями.
Если вы захотите запустить модель локально, вам пригодятся советы из руководства по квантованию Qwen-3-VL. Без квантования на обычной видеокарте будет туго.
Кому стоит попробовать Qwen-Image-Layered прямо сейчас
- Дизайнерам-фрилансерам, которые устали от рутинного вырезания объектов. Модель сэкономит вам 20-30 часов в месяц. Серьезно.
- Контент-менеджерам, которым нужно быстро готовить картинки для статей. Загрузил фото — получил объект на прозрачном фоне.
- Художникам, работающим с коллажами. Модель разберет исходники на слои лучше, чем любой автоматический инструмент в графических редакторах.
- Разработчикам игр, которым нужно выделять спрайты из сложных изображений. Но только если это натурные изображения, а не пиксель-арт.
А вот маркетологам, которые работают со скриншотами приложений, или архивистам, оцифровывающим документы, эта модель не поможет. Им лучше посмотреть в сторону DeepEyesV2 или других специализированных инструментов.
Будущее, где слои создаются по взмаху руки
Qwen-Image-Layered — это не идеальный инструмент. Это узкий специалист. Но именно такие специалисты меняют индустрию. К 2027 году, я уверен, подобные модели будут встроены прямо в Photoshop и Figma как стандартная функция. А пока вы можете опробовать демо на официальном сайте Alibaba Cloud или поискать open-source реализации на Hugging Face.
Совет напоследок: если ваша работа связана с обработкой однотипных изображений (например, товаров для интернет-магазина), потратьте день на то, чтобы обучить модель на своих данных. Интегрируйте ее в свой пайплайн через API. Экономия времени окупится через месяц. Если же вам нужно разово вырезать кота из фотографии — возможно, проще сделать это вручную. ИИ еще не заменил здравый смысл.