Одна картинка — готовый ассет. Минута — и ты владелец
Признайся: когда ты в последний раз вручную лепил 3D-модель? Не в Blender-е, а «с нуля» — полигон за полигоном. Если ты не профессиональный моделлер с десятилетним стажем, ответ скорее всего «никогда». Потому что это адски долго, трудоёмко и требует навыков, которых у большинства нет. Именно поэтому весь мир ждал, когда же AI научится делать из фотографии не просто кубик с текстурой, а настоящий игровой ассет. И вот — TRELLIS.2 от Microsoft.
Предыдущая версия, TRELLIS, уже умела неплохо генерировать объёмные формы, но финальный результат часто напоминал пластилиновую поделку: геометрия есть, а детализация и материалы — из 2010-го. Вторая версия превращает эту пластилиновую заготовку в объект, который не стыдно загрузить в Unreal Engine. И вот что стоит за этим апгрейдом.
Ключевое открытие: TRELLIS.2 использует новый тип 3D VAE (вариационный автоэнкодер), который сжимает разрешение объёмных данных в 16 раз — с 1536³ до 384³ токенов. Это позволяет нейросети обрабатывать огромные области без потери качества и генерировать сложные детали.
4 миллиарда параметров — это перебор или необходимость?
Давай посмотрим правде в глаза: 4B параметров — это не просто цифра для пресс-релиза. Это в 2–3 раза больше, чем у ближайших open-source конкурентов. Например, популярный Hunyuan3D 2 Mini оперирует примерно 1–1.5B параметров. Больше параметров — больше способность модели запоминать паттерны реальных объектов: фактуры дерева, ржавчины, хромированного металла. Но есть и обратная сторона: такие сети сложнее обучать и запускать. Microsoft, по слухам, тренировала TRELLIS.2 на нескольких кластерах A100 в течение месяцев. Но пользователю об этом думать не надо — инференс на одном A100 занимает около 40–60 секунд. Для любительского сегмента, где GPU скромнее, придётся использовать облачные инстансы или довольствоваться упрощённой версией.
PBR — это не просто буквы, а спасение для продакшена
Фишка, из-за которой геймдев-команды должны немедленно заинтересоваться: TRELLIS.2 генерирует PBR-материалы (Physically Based Rendering) — переводит: roughness, metallic, normal map, ambient occlusion. Все, кто хоть раз пытался получить из AI картинку «металлического робота» и потом вручную совмещать шейдеры, знают, как это бесит. Здесь же нейросеть сразу выдаёт раздельные каналы. Достаточно одного изображения — и на выходе готовый к импорту ассет с физически корректным освещением, который не поплывёт в движке.
Сравните с подходами, где сначала генерировали карту высот или нормал-мап из картинки — это было шаманство с фильтрами и пятнистыми артефактами. TRELLIS.2 делает это за один проход. Это не эволюция — это революция для 3D VAE.
Как не надо генерировать 3D: опыт ошибок
До TRELLIS.2 open-source Image-to-3D напоминал лотерею. Модели вроде Point-E от OpenAI давали облака точек — не меш, а просто «примерное расположение». Потом появились TripoSG и Modly, но они требовали 2–3 ракурса и всё равно ошибались в симметрии. Часто на выходе была «булка» с натянутым материалом. TRELLIS.2 же использует диффузию в латентном пространстве, а не просто регрессию — это даёт более качественную геометрию и избегает эффекта «сдутого шара».
Три сценария, где TRELLIS.2 уже сейчас меняет правила
1 Инди-геймдев: прототипирование за час
Вам нужен персонаж или предмет интерьера — накидываете скетч в GLM-Image или Qwen-Image, получаете картинку, скормиваете TRELLIS.2 — и вуаля, готовый меш с картами. Не нужно нанимать моделлера для прототипа.
2 E-commerce и каталоги: 3D-версии товаров из одного фото
Сфотографировали кроссовок — модель готова для AR-примера. PBR-материалы позволяют менять цвет и текстуру на лету. Раньше это делали руками, тратя по 2–3 дня на объект.
3 3D-печать: от картинки к физическому объекту без Blender
Помните полный цикл создания 3D-игрушки с помощью ИИ? С TRELLIS.2 этот цикл сокращается до пары кликов: картинка → меш → экспорт STL. Конечно, геометрию нужно будет немного почистить, но база — гораздо лучше, чем раньше.
Альтернативы: кто ещё дышит в спину
| Модель | Параметры | PBR | Разрешение меша | Лицензия |
|---|---|---|---|---|
| TRELLIS.2 | 4B | Да | 1536³ | MIT |
| Hunyuan3D 2 | ~1.5B | Нет | 1024³ | CC BY-NC |
| TripoSG | ~2B | Частично | 1024³ | MIT |
| Point-E | ~1B | Нет | Только точки | MIT |
Пока звание «лучший open-source Image-to-3D» остаётся за TRELLIS.2. Но Hunyuan3D и TripoSG не дремлют — возможно, к лету выйдут конкуренты. Однако PBR-материалы дают Microsoft значительное преимущество для продакшена.
Технический сок: как работает магия 16x сжатия
TRELLIS.2 основан на диффузионной модели, которая работает в латентном пространстве 3D VAE. Обычный 3D-кодировщик (например, Oktree) захлебнулся бы на 1536³ вокселях. Но новый VAE сжимает объём в 16 раз — до 384³ латентных векторов. Это позволяет обрабатывать десятки миллионов точек без взрыва памяти. К тому же VAE обучали на смеси синтетических и реальных данных, что дало робастность к разным стилям картинок.
Кстати, если сравнивать с LLaMA 3.1, генерирующей 3D-мебель, то там модель работает через автокодировщик текстовых описаний — это более грубый метод. TRELLIS.2 понимает «изображение» напрямую, что даёт детальность на уровне фото.
Кому я НЕ советую пробовать прямо сейчас
Если у вас GTX 1060 и ноутбук на 16 ГБ ОЗУ — забудьте. TRELLIS.2 требует минимум 24 ГБ видеопамяти для полной версии. Есть облегчённая версия (TRELLIS.2-Lite) с 2B параметров, которая влезает в 16 ГБ, но качество текстур там заметно хуже. Идеальный сценарий: инференс на облачном инстансе с A100 через Gradio-интерфейс. Для локального запуска можно использовать решения вроде Modly.
Важно: модель пока не стабильно генерирует лица и сложные анатомические формы. Для персонажей лучше дорабатывать вручную или использовать специализированные решения.
Будущее: 3D-генерация перестанет быть наказанием
К концу 2026 года, скорее всего, все крупные игроки (NVIDIA, OpenAI, Google) тоже выкатят свои Image-to-3D с PBR. Но Microsoft сейчас задала такую планку, что догонять придётся долго. TRELLIS.2 стал первым open-source инструментом, который решает проблему «качество-скорость-цена» без компромиссов. Мой совет: закиньте в закладки репозиторий, подпишитесь на обновления и при первой же возможности протестируйте модель на своей задаче. Потому что ручное моделирование из 2024-го — это как чистить картошку ножом, когда есть овощерезка.
А если вы всё ещё думаете, что «нейросети не умеют 3D», попробуйте запустить TRELLIS.2 сами — ваше мнение изменится через минуту.