Модель, которая помещается в карман (точнее, в видеопамять)
В мире, где каждый второй стартап пытается сделать свою виртуальную примерку одежды, появилась модель, которая реально работает. И не просто работает - она помещается в 8 ГБ видеопамяти. FASHN VTON v1.5 - это не очередной пережаренный Stable Diffusion с контролнерами. Это специализированная архитектура MMDiT (Multi-Modal Diffusion Transformer), заточенная именно под задачу VTON.
На 28.01.2026 это одна из немногих открытых моделей виртуальной примерки с полными весами под лицензией Apache-2.0. Можно качать, модифицировать, коммерциализировать - без юридических головных болей.
Что умеет эта штука?
Берёте фотографию человека (желательно в полный рост на белом фоне, но это не обязательно). Берёте изображение одежды (тоже лучше на белом фоне). Нажимаете кнопку. Получаете фотореалистичное изображение человека в этой одежде. Звучит просто? Технически это адски сложно.
1 Пиксельная магия вместо VAE
Большинство диффузионных моделей используют VAE (Variational Autoencoder) для сжатия изображений в латентное пространство. FASHN VTON v1.5 работает напрямую с пикселями. Это даёт два преимущества: меньше артефактов при генерации и более точное сохранение деталей одежды. Особенно важно для текстур ткани.
2 Архитектура MMDiT - 972 миллиона параметров
MMDiT расшифровывается как Multi-Modal Diffusion Transformer. По сути, это трансформер, который одновременно обрабатывает несколько модальностей: изображение человека, изображение одежды и текстовое описание (опционально). Все 972 миллиона параметров упакованы так, чтобы работать на относительно скромном железе.
| Параметр | Значение |
|---|---|
| Параметры модели | 972 млн |
| Минимальная VRAM | 8 ГБ (FP16) |
| Размерность изображения | 768×1024 |
| Архитектура | MMDiT (пиксельный диффузион) |
| Лицензия | Apache-2.0 |
С чем сравнивать? (Спойлер: почти не с чем)
На рынке виртуальной примерки три типа решений:
- Коробочные SaaS-сервисы (Typology, Revery.AI) - удобно, но дорого и закрыто
- Самопальные сборки на Stable Diffusion + ControlNet - дёшево, но криво и требует танцев с бубном
- Специализированные открытые модели вроде FASHN VTON - золотая середина
Основной конкурент - IDM-VTON, но он требует 12+ ГБ VRAM и сложнее в настройке. Если у вас RTX 4060 Ti 16GB или RTX 5060 Ti 16GB - можно выбирать любую модель. Для владельцев карт с 8 ГБ памяти выбор очевиден.
Запускаем за 10 минут (если не считать скачивание весов)
Внимание: веса модели весят около 4 ГБ. Убедитесь, что у вас есть достаточно места на диске и стабильное интернет-соединение.
1 Установка зависимостей
Создаём виртуальное окружение и ставим PyTorch с поддержкой CUDA. На 28.01.2026 актуальная версия PyTorch - 2.5.1 с поддержкой CUDA 12.4.
# Создаём виртуальное окружение
python -m venv vton_env
source vton_env/bin/activate # Для Windows: vton_env\Scripts\activate
# Устанавливаем PyTorch с CUDA
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
# Клонируем репозиторий
git clone https://github.com/FASHN-TECH/FASHN-VTON.git
cd FASHN-VTON
# Устанавливаем зависимости
pip install -r requirements.txt
2 Скачивание весов
Веса лежат на Hugging Face. Можно скачать через скрипт или вручную. Я предпочитаю вручную - меньше шансов, что что-то сломается.
# Создаём папку для весов
mkdir -p models/fashn_vton_v1_5
# Скачиваем основной чекпоинт
# На 28.01.2026 актуальная версия v1.5
# Ссылка на Hugging Face: huggingface.co/FASHN-TECH/FASHN-VTON-v1.5
3 Запуск инференса
Самый простой способ - использовать готовый скрипт из репозитория. Но сначала нужно подготовить изображения.
# Пример минимального скрипта для запуска
import torch
from fashn_vton import FASHNVTONPipeline
# Загружаем пайплайн
pipe = FASHNVTONPipeline.from_pretrained(
"models/fashn_vton_v1_5",
torch_dtype=torch.float16, # Используем FP16 для экономии памяти
device="cuda"
)
# Готовим входные данные
person_image = load_image("person.jpg") # Фото человека
cloth_image = load_image("dress.jpg") # Изображение одежды
mask = load_mask("mask.png") # Маска (опционально)
# Генерируем результат
result = pipe(
person_image=person_image,
cloth_image=cloth_image,
mask=mask, # Если нет маски - None
guidance_scale=7.5,
num_inference_steps=30,
height=1024,
width=768
)
# Сохраняем результат
result.save("output.jpg")
Оптимизация под 8 ГБ VRAM
Теория говорит, что модель влезает в 8 ГБ. Практика показывает, что нужно немного помочь ей.
- Используйте torch.float16 - это обязательно. FP32 съест всю память.
- Включите attention slicing - делит attention механизмы на части.
- Ограничьте batch size - только одна картинка за раз.
- Используйте xformers - если установлена соответствующая версия CUDA.
# Оптимизированная конфигурация для 8 ГБ VRAM
pipe = FASHNVTONPipeline.from_pretrained(
"models/fashn_vton_v1_5",
torch_dtype=torch.float16,
device="cuda",
use_safetensors=True,
variant="fp16"
)
# Включаем оптимизации памяти
pipe.enable_attention_slicing(slice_size=1)
pipe.enable_vae_slicing()
# Если установлен xformers
# pipe.enable_xformers_memory_efficient_attention()
Кому это нужно? (Кроме очевидных)
Да, интернет-магазинам одежды это интересно. Но есть менее очевидные применения:
- Дизайнеры одежды - можно быстро примерить прототип на разных моделях без физического пошива. Особенно актуально для тех, кто осваивает цифровую моду в программах вроде Clo 3D.
- Геймдев - генерация скинов для персонажей. Особенно для казуальных проектов, где не нужна супер-детализация.
- AR-приложения - локальная обработка на мобильных устройствах с хорошими видеокартами.
- Контент-мейкеры - блогеры могут "примерять" одежду для обзоров без покупки.
Чего ждать от v2.0?
На момент 28.01.2026 команда FASHN-TECH анонсировала разработку v2.0. Обещают:
- Поддержку более сложных поз (не только фронтальных)
- Улучшенную работу с прозрачными тканями и сложными текстурами
- Снижение требований к VRAM до 6 ГБ
- Интеграцию с популярными e-commerce платформами
А если карта слабее 8 ГБ?
Есть несколько вариантов:
- CPU-режим - будет медленно (очень медленно), но работать будет
- Квантование в INT8 - экспериментальная фича, может сломаться
- Аренда облака
Если у вас совсем мало VRAM (4 ГБ или меньше), посмотрите статью про запуск моделей на 4 ГБ VRAM. Там есть общие принципы оптимизации, которые можно попробовать применить и к FASHN VTON.
Главный подвох (он всегда есть)
Модель тренирована на определённом датасете. Если дать ей фотографию человека в нестандартной позе или одежду с очень сложным узором - результат может быть странным. Особенно страдают:
- Платья с воланами и рюшами
- Прозрачные ткани
- Очень тёмная или очень светлая кожа (датасетные bias)
- Нестандартные позы (сидя, лёжа, в движении)
Что дальше?
FASHN VTON v1.5 - не панацея, но отличный инструмент в арсенале. Особенно если нужно быстро развернуть прототип или сделать демо для клиента. Лицензия Apache-2.0 позволяет интегрировать её в коммерческие продукты без страха получить иск от правообладателей.
Если вы работаете в fashion-индустрии и ещё не пробовали цифровые инструменты для создания одежды - самое время начать. Цифровая мода на подъёме, и те, кто освоит эти технологии сейчас, будут иметь фору через пару лет.
А если нужна более мощная модель для серьёзных проектов - сохраните статью про запуск моделей на 24 ГБ VRAM. Там есть варианты и покрупнее.