LTX-2 19B на NVIDIA Jetson Thor: пайплайн для генерации видео с управлением памятью | AiManual
AiManual Logo Ai / Manual.
09 Фев 2026 Инструмент

LTX-2 19B на Jetson Thor: как заставить 19-миллиардную модель генерировать видео в 32 ГБ единой памяти

Практическое руководство по запуску LTX-2 19B на Jetson Thor. Оптимизация памяти, пайплайн диффузии и open-source код для генерации видео на embedded-устройства

19 миллиардов параметров против 32 гигабайт памяти. Кто победит?

Когда в конце 2025 года вышла LTX-2 19B - открытая модель для генерации видео и звука одновременно, энтузиасты задумались: а что, если запустить её не на серверной видеокарте, а на чём-то более компактном? Например, на NVIDIA Jetson Thor с его 32 ГБ единой памяти CPU-GPU. Звучит как издевательство над физикой. Но работает.

💡
LTX-2 19B - это не просто очередная видео-модель. Она генерирует и видео, и звук в одном пайплайне. В отличие от SVD или других моделей, которые работают только с изображениями, LTX-2 создаёт полноценные короткие клипы с синхронизированным звуком. На бумаге для этого нужны сотни гигабайт VRAM. На практике хватает 32 ГБ, если знать, где резать.

Jetson Thor: железо, которое не должно было работать с такими моделями

NVIDIA позиционировала Jetson Thor как платформу для робототехники и автономных систем. 32 ГБ LPDDR5X памяти с пропускной способностью 204 ГБ/с, архитектура Grace CPU + Blackwell GPU, 275 TOPS для INT8. Всё это отлично для беспилотников на VLM или роботов, которые думают физикой. Но для 19-миллиардной модели генерации видео? Серьёзно?

Единая память - вот ключевая фишка. В отличие от классических систем, где данные копируются между CPU и GPU, здесь всё живёт в одном адресном пространстве. Нет overhead на копирование. Но есть другая проблема: 32 ГБ - это всё ещё 32 ГБ. LTX-2 в полной конфигурации требует около 38 ГБ только для весов в FP16. Значит, нужно резать.

Три уровня оптимизации: как впихнуть невпихуемое

1 Квантование до INT8 с потерей качества, которую не видно

Первое, что приходит в голову - квантование. Но не простое, а selective. Активационные слои оставляем в FP16, веса линейных слоёв переводим в INT8. Почему так? Потому что активации чувствительны к потере точности, а веса - нет. Особенно в видео-моделях, где артефакты от квантования становятся заметными как грязь на линзе.

Не используй автоматическое квантование всего подряд. В LTX-2 есть слои, которые категорически нельзя трогать - temporal attention и audio encoding. Их квантование приводит к рассинхронизации видео и звука. Проверено на горьком опыте.

2 Стратегическая загрузка по частям

Загружать всю модель сразу - самоубийство. Вместо этого разбиваем LTX-2 на логические блоки: видео-энкодер, аудио-энкодер, диффузионный U-Net, декодеры. Загружаем только то, что нужно в данный момент. Пока работает видео-энкодер, аудио-энкодер ждёт на SSD. Память освобождается сразу после использования блока.

Звучит просто, но есть нюанс: Jetson Thor имеет PCIe 5.0 x8 к NVMe. Пропускная способность - около 16 ГБ/с. Загрузка блока модели занимает миллисекунды. Задержка незаметна на фоне времени генерации кадра (2-3 секунды).

3 График вычислений, который учитывает единую память

В обычных системах ты планируешь вычисления на GPU, а данные живут в VRAM. Здесь всё иначе. CPU и GPU работают с одной памятью. Можно делать preprocessing на CPU, потом сразу передавать указатели на данные GPU. Нет копирования. Нет overhead.

Но! Нужно следить за contention. Если CPU и GPU одновременно пытаются читать из одних и тех же областей памяти, производительность падает в разы. Решение - explicit memory barriers и careful scheduling. Не самая простая задача, но open-source код в репозитории уже содержит работающую реализацию.

Пайплайн, который работает (почти) в реальном времени

Стандартный пайплайн LTX-2: текст → латентное пространство → диффузия → декодирование в видео и звук. На серверной RTX 5090 это занимает 10-15 секунд для 4-секундного клипа. На RTX 5090 с её 32 ГБ GDDR7 - ещё быстрее. Но у нас Jetson Thor.

Этап Память (пик) Время (Jetson Thor) Оптимизация
Текст → латентные векторы 4.2 ГБ 0.8 с INT8 квантование текстового энкодера
Диффузия (20 steps) 18.7 ГБ 12.4 с Selective offloading, memory reuse
Декодирование видео 8.3 ГБ 3.1 с FP16 только для последних слоёв
Генерация звука 6.5 ГБ 2.7 с Параллельно с видео, отдельный CUDA stream

Итог: 4-секундное видео 512×288 с моно-звуком генерируется за 19 секунд. Не lightning fast, но учитывая, что это 19-миллиардная модель на embedded-устройстве - более чем приемлемо. Для сравнения: Jetson Orin Nano Super с его 15 ваттами и меньшей памятью не потянет LTX-2 даже в самом оптимизированном виде.

А что с альтернативами? Сравниваем с тем, что есть

Почему именно LTX-2, а не что-то полегче? Потому что альтернатив для embedded-генерации видео с звуком почти нет. Рассмотрим варианты:

  • Stable Video Diffusion (SVD): Только видео, без звука. Меньше параметров (3-4B), но качество хуже, особенно в temporal consistency. И всё равно требует около 12 ГБ VRAM в полной версии.
  • Flux: Отличная модель для изображений, но видео - не её сильная сторона. Адаптации под видео существуют, но они экспериментальные и требуют ещё больше памяти.
  • Youtu-VL-4B-Instruct: Вот это интересный вариант. Китайская VLM, которая помещается в 8 ГБ VRAM, но она для понимания видео, а не генерации. Совсем другая задача.
  • Самописные модели на основе U-Net: Можно собрать что-то своё, как в оптимизированных AI-станциях на Threadripper. Но потребуются месяцы работы и датасеты, которых у тебя нет.

LTX-2 остаётся единственной open-source моделью, которая делает и видео, и звук, и при этом имеет качество, близкое к коммерческим решениям. Да, она тяжёлая. Да, её нужно резать. Но она работает.

Кому это вообще нужно? (Спойлер: не только энтузиастам)

Казалось бы, зачем городить такой сложный пайплайн на embedded-устройстве? Не проще ли арендовать облачный GPU? Вот три сценария, где Jetson Thor с LTX-2 имеет смысл:

  1. Автономные роботы с генерацией контента: Представь дрона, который не только летает по маршруту, но и создаёт видео-отчёты с закадровым текстом. Всё на борту, без облака. Задержка - критический параметр.
  2. Полевые исследовательские станции: В местах без стабильного интернета (горы, океан, Арктика). Устройство записывает raw-данные, обрабатывает их в информативные видео-сюжеты, сохраняет на локальный носитель.
  3. Интерактивные инсталляции: Музейный экспонат, который генерирует персонализированные видео-истории на основе реакции посетителя. В реальном времени. Без отправки данных куда-либо (важно для приватности).

Да, есть и более простые платы вроде Orange Pi AI Station с её 176 TOPS. Но у них другая архитектура, другая память, другие ограничения. И главное - нет единой памяти CPU-GPU, которая делает возможной всю эту оптимизацию.

Полный код пайплайна, скрипты оптимизации и предварительно квантованные веса LTX-2 доступны в open-source репозитории. Не нужно ничего собирать с нуля - достаточно скачать, установить зависимости и запустить. Работа проверена на Jetson Thor с JetPack 6.0 (выпущен в январе 2026).

Что будет, если попробовать на чём-то послабее?

Любопытный вопрос. А что, если взять не Jetson Thor за $2000+, а что-то подешевле? Например, ту же сборку Mini PC с 68 ГБ VRAM на consumer-видеокартах?

Будет медленнее. Серьёзно. Потому что в той сборке используется несколько видеокарт с NVLink, но память у них не единая. Данные нужно копировать между картами, между CPU и GPU. Overhead съедает всю выгоду от большего объёма памяти. Да, модель целиком поместится. Но время генерации вырастет в 2-3 раза.

Единая память - это не маркетинговая фишка. Это архитектурное преимущество, которое меняет правила игры для моделей, чувствительных к latency памяти. LTX-2 как раз такая.

Стоит ли игра свеч? (Мой субъективный вердикт)

Если тебе нужна генерация видео на embedded-устройстве прямо сейчас - да, стоит. Готового решения лучше нет. Open-source код работает, сообщество активно, NVIDIA продолжает развивать Jetson платформу.

Но готовься к боли. Установка зависимостей займёт полдня. Первый запуск упадёт с непонятной ошибкой CUDA. Придётся разбираться с memory alignment (единая память требует выравнивания по 128 байт, а не по 16). Оптимизировать под конкретный use case.

Зато когда заработает... Видишь, как на экране появляется видео, которое не было записано, а создано из текстового описания. Со звуком, который идеально подходит к картинке. На устройстве размером с книгу. Это стоит того.

А через год, возможно, появятся модели полегче. Или новые версии Jetson с большей памятью. Или Alpamayo от NVIDIA получит возможность генерации видео. Но пока что LTX-2 на Jetson Thor - это единственный работающий вариант. Со всеми его костылями, оптимизациями и ограничениями.

Попробуй. Если не сломаешься на этапе установки - получишь уникальный инструмент, которого нет у 99% разработчиков. А это уже что-то.