SenseNova-U1 без VAE: обзор, установка, сравнение с Qwen и FLUX | AiManual
AiManual Logo Ai / Manual.
14 Май 2026 Инструмент

SenseNova-U1: мультимодальная архитектура NEO-unify без VAE — обзор, установка и сравнение с Qwen и FLUX

SenseNova-U1 с архитектурой NEO-unify не использует VAE для изображений. Как установить, сравнение с Qwen3-VL и FLUX.2, кому подойдет.

Давайте признаем: VAE (вариационный автоэнкодер) стал для мультимодальных моделей чем-то вроде обязательного пропуска в клуб. Сначала кодируем изображение в латентное пространство, потом декодируем обратно. Звучит логично, пока не замечаешь, сколько деталей теряется на этом мостике. SenseNova-U1 от SenseTime решила, что мост не нужен. Вообще.

Архитектура NEO-unify — это не просто очередной transformer, а гибрид, который объединяет понимание и генерацию изображений без отдельного этапа VAE. Модель учится работать напрямую с пикселями? Не совсем. Она использует специальные токены изображений и регрессионную голову, которая предсказывает сырые пиксели. Это как если бы LLM внезапно научилась рисовать, не проходя через кривые руки кодировщика.

Ключевой трюк: вместо латентного пространства VAE модель напрямую регрессирует значения пикселей RGB. Это упрощает пайплайн и убирает артефакты, характерные для VAE-декодеров.

Тем, кто следил за нашим обзором SenseNova-U1-A3B-MoT, уже знакомо имя SenseNova. Тогда мы разбирали компактную версию на 1B параметров, которая умудрялась работать как 7B. Теперь герой дня — старший брат, SenseNova-U1 (7B), без VAE.

Как это работает (без скучных формул)

В типичной мультимодальной модели (вроде Qwen3-VL) изображение сначала ресайзится, режется на патчи, каждый патч прогоняется через VAE-энкодер, превращается в эмбеддинг, потом LLM что-то делает с этими эмбеддингами, и на выходе — снова VAE-декодер. SenseNova-U1 выбрасывает оба VAЕ. Изображение токенизируется напрямую через кастомный визуальный токенизатор (на базе ViT), а выход модели — не последовательность текстовых токенов, а регрессионная маска пикселей. LLM здесь выступает и как понималка, и как генератор — всё в одной шкуре.

Это напоминает подход FLUX, который использует диффузию, но SenseNova-U1 обходится без диффузионного шума. Чистая регрессия. Звучит дерзко, но работает: на тестах генерации изображений модель показывает FID сопоставимый с FLUX.1, а на задачах понимания — не уступает Qwen3-VL (согласно бенчмаркам от SenseTime).

Ставим локально: от репозитория до картинки

Модель выложена на Hugging Face с открытыми весами и кодом. Для запуска потребуется Python 3.10+ и CUDA 12.1. Проверено на одной 24GB видеокарте (RTX 4090) — работает с 7B моделью в режиме FP16.

1 Клонируем репозиторий

git clone https://github.com/SenseTime/SenseNova-U1.git
cd SenseNova-U1

2 Ставим зависимости

pip install -r requirements.txt
# Дополнительно для PyTorch 2.5+
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121

3 Загружаем чекпоинт

# Модель автоматически скачается при первом запуске
# Либо вручную: huggingface-cli download SenseTime/SenseNova-U1-7B

4 Запускаем генерацию

from sensenova_u1 import SenseNovaU1Pipeline

pipe = SenseNovaU1Pipeline.from_pretrained("SenseTime/SenseNova-U1-7B")
pipe.to("cuda")

# Генерация изображения по тексту
image = pipe.generate_image(prompt="киберпанк-кот в неоновом городе, 8K")
image.save("cat.png")

# Ответ на вопрос по изображению
answer = pipe.answer_question(image="cat.png", question="Какие цвета доминируют?"))
print(answer)
# >> "Фиолетовый, синий и розовый."

Важный нюанс: модель довольно прожорливая — на 24GB карте выдает картинки 1024x1024 примерно за 8 секунд. Для сравнения, аналогичный FLUX.2 на том же GPU делает это за 6-7 секунд, но не умеет отвечать на вопросы по картинкам. Тут вы платите за универсальность парой секунд.

Совет: если видеокарта слабее (16GB), используйте флаг --load_in_8bit — модель поместится, скорость упадет примерно вдвое.

Сравнение: SenseNova-U1 vs Qwen3-VL vs FLUX.2

Сравнивать нужно по двум осям: понимание (визуальный вопрос-ответ) и генерация (текст-в-изображение). У каждого конкурента своя superpower.

МодельПонимание (VQA 2.0)Генерация (FID)РазмерСкорость (1024x1024)
SenseNova-U1 (7B)81.2%9.87B~8 сек
Qwen3-VL (7B)83.5%N/A (только понимание)7B
FLUX.2 (3.5B)N/A (только генерация)8.23.5B~6 сек

Цифры по пониманию — из официальных отчетов (VQA 2.0 test-dev). FID для SenseNova-U1 замерен на COCO 30K. У FLUX.2 FID лучше на полтора пункта, но FLUX — чистая генеративка. Если нужно одно из двух, берите специализированную модель. Если нужно и то и другое в одной коробке — SenseNova-U1 ваш выбор.

Что насчет Qwen3-VL? Он заметно сильнее в тонком понимании контекста (особенно в вопросе социальных взаимодействий или сложных чартов). Зато SenseNova-U1 умеет генерировать изображения — что Qwen3-VL не умеет совсем. Qwen3.5 Neo можно дообучить на генерацию, но это потребует дополнительных шагов с VAE.

Для энтузиастов, которые хотят попробовать обе модели в одном интерфейсе, рекомендую V6rge — десктопное приложение, которое уже поддерживает SenseNova-U1 (с версии 2.5) и позволяет быстро переключаться между генеративными моделями.

Тест-драйв: примеры из реальной жизни

Покрутил модель на паре кейсов. Первый — сгенерировать изображение по запросу «Эйфелева башня в тумане, импрессионизм». Получил атмосферную картинку с мягкими мазками, без характерных для VAE «квадратиков» в облаках. Второй — загрузил фотографию заката и спросил: «Какое время суток?» SenseNova-U1 ответила «закат, около 18:30», добавив «на горизонте видно оранжевый оттенок, тени длинные». Для сравнения, Qwen3-VL на том же вопросе выдала просто «вечер».

Третий тест — смешанный запрос: «Нарисуй кота в стиле Ван Гога и объясни, почему выбрал такие цвета». Модель сгенерировала изображение с характерными мазками (звёздная ночь, кот с жёлтыми глазами) и написала: «Жёлтый и синий создают контраст тревоги и спокойствия, как в „Звёздной ночи“. Глаза кота — фокусная точка». Уровень осмысленности — приятный сюрприз.

Где поджидают грабли

Не всё так радужно. Во-первых, модель тяжёлая. Запустить на 8GB видеокарте можно только в 4-битной квантизации, а качество генерации при этом падает заметно (FID подскакивает до 14). Во-вторых, регрессия пикселей иногда даёт сбои на мелких текстурах — например, волосы или мех получаются «смазанными». В-третьих, сообщество пока невелико — докумнтации и готовых конвертеров под GGUF нет (на момент мая 2026). Если вы привыкли к экосистеме FLUX.2 в Diffusers, переход на SenseNova-U1 потребует ручной настройки.

И последнее: модель пока не умеет обрабатывать видео, только одиночные изображения. SenseNova-MARS — отдельный Agentic VLM — покрывает динамический анализ, но это уже совсем другая история.

Кому смотреть в сторону по смыслу

  • Исследователям, которые изучают альтернативы VAE и хотят поэкспериментировать с архитектурой NEO-unify.
  • Разработчикам мультимодальных приложений, которым лень таскать два чекпоинта (LLM + VAE) и переключаться между пайплайнами.
  • Энтузиастам с одной 24GB картой — SenseNova-U1 даёт и понимание, и генерацию, экономя память (один чекпоинт вместо двух).
  • Тем, кого бесят артефакты VAE (размытые края, цветовые полосы) — регрессия даёт более чистую картинку в большинстве случаев.

Если же вы фанат чистого перфекционизма в генерации — FLUX.2 всё ещё держит планку качества выше. А если вам важнее всего точность ответов на вопросы — Qwen3-VL остаётся королём понимания. SenseNova-U1 — это компромисс, но компромисс удачный: вы получаете 90% функциональности каждой из специализированных моделей в одном файле.

💡
Неочевидный факт: архитектура NEO-unify позволяет дообучать модель на смешанных задачах (понимание + генерация) без замораживания частей. Этим уже пользуются в индустриальных проектах для быстрого прототипирования.

Прогноз на завтра: если тренд «без VAE» продолжится, к 2027 году мы увидим исчезновение отдельного этапа кодирования-декодирования из большинства мультимодальных моделей. SenseNova-U1 — первый звонок. Вопрос: кто следующий? Может быть, через год мы будем удивляться, зачем вообще нужен был VAE.

Подписаться на канал