Модель, которая помещается в карман (точнее, в видеопамять)

В мире, где каждый второй стартап пытается сделать свою виртуальную примерку одежды, появилась модель, которая реально работает. И не просто работает - она помещается в 8 ГБ видеопамяти. FASHN VTON v1.5 - это не очередной пережаренный Stable Diffusion с контролнерами. Это специализированная архитектура MMDiT (Multi-Modal Diffusion Transformer), заточенная именно под задачу VTON.

На 28.01.2026 это одна из немногих открытых моделей виртуальной примерки с полными весами под лицензией Apache-2.0. Можно качать, модифицировать, коммерциализировать - без юридических головных болей.

Что умеет эта штука?

Берёте фотографию человека (желательно в полный рост на белом фоне, но это не обязательно). Берёте изображение одежды (тоже лучше на белом фоне). Нажимаете кнопку. Получаете фотореалистичное изображение человека в этой одежде. Звучит просто? Технически это адски сложно.

1 Пиксельная магия вместо VAE

Большинство диффузионных моделей используют VAE (Variational Autoencoder) для сжатия изображений в латентное пространство. FASHN VTON v1.5 работает напрямую с пикселями. Это даёт два преимущества: меньше артефактов при генерации и более точное сохранение деталей одежды. Особенно важно для текстур ткани.

2 Архитектура MMDiT - 972 миллиона параметров

MMDiT расшифровывается как Multi-Modal Diffusion Transformer. По сути, это трансформер, который одновременно обрабатывает несколько модальностей: изображение человека, изображение одежды и текстовое описание (опционально). Все 972 миллиона параметров упакованы так, чтобы работать на относительно скромном железе.

Параметр	Значение
Параметры модели	972 млн
Минимальная VRAM	8 ГБ (FP16)
Размерность изображения	768×1024
Архитектура	MMDiT (пиксельный диффузион)
Лицензия	Apache-2.0

С чем сравнивать? (Спойлер: почти не с чем)

На рынке виртуальной примерки три типа решений:

Коробочные SaaS-сервисы (Typology, Revery.AI) - удобно, но дорого и закрыто
Самопальные сборки на Stable Diffusion + ControlNet - дёшево, но криво и требует танцев с бубном
Специализированные открытые модели вроде FASHN VTON - золотая середина

Основной конкурент - IDM-VTON, но он требует 12+ ГБ VRAM и сложнее в настройке. Если у вас RTX 4060 Ti 16GB или RTX 5060 Ti 16GB - можно выбирать любую модель. Для владельцев карт с 8 ГБ памяти выбор очевиден.

Запускаем за 10 минут (если не считать скачивание весов)

Внимание: веса модели весят около 4 ГБ. Убедитесь, что у вас есть достаточно места на диске и стабильное интернет-соединение.

1 Установка зависимостей

Создаём виртуальное окружение и ставим PyTorch с поддержкой CUDA. На 28.01.2026 актуальная версия PyTorch - 2.5.1 с поддержкой CUDA 12.4.

# Создаём виртуальное окружение
python -m venv vton_env
source vton_env/bin/activate  # Для Windows: vton_env\Scripts\activate

# Устанавливаем PyTorch с CUDA
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

# Клонируем репозиторий
git clone https://github.com/FASHN-TECH/FASHN-VTON.git
cd FASHN-VTON

# Устанавливаем зависимости
pip install -r requirements.txt

2 Скачивание весов

Веса лежат на Hugging Face. Можно скачать через скрипт или вручную. Я предпочитаю вручную - меньше шансов, что что-то сломается.

# Создаём папку для весов
mkdir -p models/fashn_vton_v1_5

# Скачиваем основной чекпоинт
# На 28.01.2026 актуальная версия v1.5
# Ссылка на Hugging Face: huggingface.co/FASHN-TECH/FASHN-VTON-v1.5

3 Запуск инференса

Самый простой способ - использовать готовый скрипт из репозитория. Но сначала нужно подготовить изображения.

💡

Лайфхак: модель лучше всего работает с фотографиями на белом фоне в полный рост. Если фон сложный, можно использовать любой сегментатор (например, U2Net) для создания маски.

# Пример минимального скрипта для запуска
import torch
from fashn_vton import FASHNVTONPipeline

# Загружаем пайплайн
pipe = FASHNVTONPipeline.from_pretrained(
    "models/fashn_vton_v1_5",
    torch_dtype=torch.float16,  # Используем FP16 для экономии памяти
    device="cuda"
)

# Готовим входные данные
person_image = load_image("person.jpg")  # Фото человека
cloth_image = load_image("dress.jpg")    # Изображение одежды
mask = load_mask("mask.png")             # Маска (опционально)

# Генерируем результат
result = pipe(
    person_image=person_image,
    cloth_image=cloth_image,
    mask=mask,                           # Если нет маски - None
    guidance_scale=7.5,
    num_inference_steps=30,
    height=1024,
    width=768
)

# Сохраняем результат
result.save("output.jpg")

Оптимизация под 8 ГБ VRAM

Теория говорит, что модель влезает в 8 ГБ. Практика показывает, что нужно немного помочь ей.

Используйте torch.float16 - это обязательно. FP32 съест всю память.
Включите attention slicing - делит attention механизмы на части.
Ограничьте batch size - только одна картинка за раз.
Используйте xformers - если установлена соответствующая версия CUDA.

# Оптимизированная конфигурация для 8 ГБ VRAM
pipe = FASHNVTONPipeline.from_pretrained(
    "models/fashn_vton_v1_5",
    torch_dtype=torch.float16,
    device="cuda",
    use_safetensors=True,
    variant="fp16"
)

# Включаем оптимизации памяти
pipe.enable_attention_slicing(slice_size=1)
pipe.enable_vae_slicing()

# Если установлен xformers
# pipe.enable_xformers_memory_efficient_attention()

Кому это нужно? (Кроме очевидных)

Да, интернет-магазинам одежды это интересно. Но есть менее очевидные применения:

Дизайнеры одежды - можно быстро примерить прототип на разных моделях без физического пошива. Особенно актуально для тех, кто осваивает цифровую моду в программах вроде Clo 3D.
Геймдев - генерация скинов для персонажей. Особенно для казуальных проектов, где не нужна супер-детализация.
AR-приложения - локальная обработка на мобильных устройствах с хорошими видеокартами.
Контент-мейкеры - блогеры могут "примерять" одежду для обзоров без покупки.

Чего ждать от v2.0?

На момент 28.01.2026 команда FASHN-TECH анонсировала разработку v2.0. Обещают:

Поддержку более сложных поз (не только фронтальных)
Улучшенную работу с прозрачными тканями и сложными текстурами
Снижение требований к VRAM до 6 ГБ
Интеграцию с популярными e-commerce платформами

А если карта слабее 8 ГБ?

Есть несколько вариантов:

CPU-режим - будет медленно (очень медленно), но работать будет
Квантование в INT8 - экспериментальная фича, может сломаться
Аренда облака

Если у вас совсем мало VRAM (4 ГБ или меньше), посмотрите статью про запуск моделей на 4 ГБ VRAM. Там есть общие принципы оптимизации, которые можно попробовать применить и к FASHN VTON.

Главный подвох (он всегда есть)

Модель тренирована на определённом датасете. Если дать ей фотографию человека в нестандартной позе или одежду с очень сложным узором - результат может быть странным. Особенно страдают:

Платья с воланами и рюшами
Прозрачные ткани
Очень тёмная или очень светлая кожа (датасетные bias)
Нестандартные позы (сидя, лёжа, в движении)

⚠️

Важный момент: модель не идеальна в сохранении лиц. Иногда может немного искажать черты. Для коммерческого использования лучше дорабатывать результат в фотошопе или через face restoration модели.

Что дальше?

FASHN VTON v1.5 - не панацея, но отличный инструмент в арсенале. Особенно если нужно быстро развернуть прототип или сделать демо для клиента. Лицензия Apache-2.0 позволяет интегрировать её в коммерческие продукты без страха получить иск от правообладателей.

Если вы работаете в fashion-индустрии и ещё не пробовали цифровые инструменты для создания одежды - самое время начать. Цифровая мода на подъёме, и те, кто освоит эти технологии сейчас, будут иметь фору через пару лет.

А если нужна более мощная модель для серьёзных проектов - сохраните статью про запуск моделей на 24 ГБ VRAM. Там есть варианты и покрупнее.

FASHN VTON v1.5: Запускаем виртуальную примерку на домашней видеокарте с 8 ГБ памяти