Представьте, что вам нужно вырезать кота из фотографии, отделить небо от гор, а текст логотипа от фона. В Photoshop это часы кропотливой работы с волшебной палочкой и пером. Китайские разработчики из Alibaba Cloud в 2025 году выпустили инструмент, который обещает сделать это за секунды. Qwen-Image-Layered — это не очередной генератор картинок, а специализированный хирург для изображений.

Что это за зверь и как он работает

Qwen-Image-Layered — это дочерняя модель в огромном семействе Qwen. Если Qwen-Image-2512 генерирует картинки, то эта — разбирает их на запчасти. Технически это Vision-Language Model (VLM), обученная на миллионах размеченных изображений, где каждый пиксель принадлежит к определенному семантическому классу (небо, человек, машина, текст).

💡

На 09.02.2026 актуальной является версия модели, построенная на архитектуре Qwen-3-VL. Она использует улучшенный энкодер для изображений и более точный декодер для маскирования объектов.

Модель не просто находит границы объектов. Она понимает контекст. Дерево перед домом и дерево в лесу — это разные слои с разной сложностью выделения. В этом ее главная фишка.

Чем не угодил старый добрый Segment Anything?

Когда в 2023 году Meta выпустила SAM (Segment Anything Model), все ахнули. Но к 2026 году стало ясно — SAM отлично выделяет что угодно, но не понимает зачем. Он даст вам 100 масок для одного объекта, но не скажет, что это «задний план» или «основной товар».

Инструмент	Сильная сторона	Слабая сторона	Идеальный кейс
Qwen-Image-Layered	Семантическое понимание, работа со слоями	Требует четких промптов	Подготовка макетов для дизайна
SAM (Segment Anything)	Выделение любого объекта по точке	Нет понимания контекста	Быстрое прототипирование
Photoshop Select Subject	Интеграция в рабочий процесс	Плохо работает со сложным фоном	Быстрое редактирование фото
GLM-Image	Генерация и редактирование	Сегментация — второстепенная функция	Создание контента с нуля

Qwen-Image-Layered создан для production. Вам не нужно тыкать в каждый объект. Вы говорите: «Раздели изображение на фон, основные объекты и текст» — и получаете три чистых слоя в PNG. Звучит как магия? Почти.

Тест-драйв на живых примерах

Я загрузил в демо-версию модели три типа изображений: стоковую фотографию, цифровую иллюстрацию и скриншот интерфейса. Вот что получилось.

1 Фотография уличного кафе

Промпт: «Выдели здание, людей, уличную мебель и растительность отдельными слоями».

Результат: Модель справилась на 4 из 5. Здание, столы, деревья — идеально. Но с двумя людьми, сидящими близко, она сделала один общий слой. Пришлось уточнять: «Раздели людей на отдельные слои». После уточнения — все получилось. Это показывает важность точных инструкций.

2 Детская книжная иллюстрация

Промпт: «Создай слои для персонажа, фона и декоративных элементов».

Результат: Здесь Qwen-Image-Layered показал себя блестяще. Иллюстрация с мягкими границами и текстурными фонами была разобрана на 7 четких слоев. Даже полупрозрачные крылья феи были выделены с сохранением альфа-канала. Для иллюстраторов это спасение. Вместо дней работы — минуты.

3 Скриншот веб-страницы

Промпт: «Отделить текст, кнопки, изображения и фоновую сетку».

Результат: Полный провал. Модель перепутала текст и фоновые блоки, создала кашу из слоев. Видимо, обучение на натуральных изображениях не подготовило ее к интерфейсам. Для таких задач лучше подходят специализированные инструменты, о которых мы писали в статье про VLM и сканы.

Главный вывод: модель работает отлично на фотографиях и иллюстрациях с четкими семантическими объектами. Но для синтетических изображений, скриншотов или документов она не годится. Не ждите от нее чуда.

Под капотом: почему это работает быстрее вашего дизайнера

Архитектура модели основана на том же принципе, что и у Qwen-Image-2512, но с упором на сегментацию. Энкодер преобразует изображение в набор фич, а декодер генерирует маски для каждого запрошенного класса. Ключевое улучшение 2025-2026 годов — использование техники внимания только к релевантным областям, что ускоряет обработку в 3 раза по сравнению с первыми версиями.

Если вы захотите запустить модель локально, вам пригодятся советы из руководства по квантованию Qwen-3-VL. Без квантования на обычной видеокарте будет туго.

Кому стоит попробовать Qwen-Image-Layered прямо сейчас

Дизайнерам-фрилансерам, которые устали от рутинного вырезания объектов. Модель сэкономит вам 20-30 часов в месяц. Серьезно.
Контент-менеджерам, которым нужно быстро готовить картинки для статей. Загрузил фото — получил объект на прозрачном фоне.
Художникам, работающим с коллажами. Модель разберет исходники на слои лучше, чем любой автоматический инструмент в графических редакторах.
Разработчикам игр, которым нужно выделять спрайты из сложных изображений. Но только если это натурные изображения, а не пиксель-арт.

А вот маркетологам, которые работают со скриншотами приложений, или архивистам, оцифровывающим документы, эта модель не поможет. Им лучше посмотреть в сторону DeepEyesV2 или других специализированных инструментов.

Будущее, где слои создаются по взмаху руки

Qwen-Image-Layered — это не идеальный инструмент. Это узкий специалист. Но именно такие специалисты меняют индустрию. К 2027 году, я уверен, подобные модели будут встроены прямо в Photoshop и Figma как стандартная функция. А пока вы можете опробовать демо на официальном сайте Alibaba Cloud или поискать open-source реализации на Hugging Face.

Совет напоследок: если ваша работа связана с обработкой однотипных изображений (например, товаров для интернет-магазина), потратьте день на то, чтобы обучить модель на своих данных. Интегрируйте ее в свой пайплайн через API. Экономия времени окупится через месяц. Если же вам нужно разово вырезать кота из фотографии — возможно, проще сделать это вручную. ИИ еще не заменил здравый смысл.

Qwen-Image-Layered: ИИ, который режет картинки как Photoshop, но без ваших нервов