19 миллиардов параметров против 32 гигабайт памяти. Кто победит?
Когда в конце 2025 года вышла LTX-2 19B - открытая модель для генерации видео и звука одновременно, энтузиасты задумались: а что, если запустить её не на серверной видеокарте, а на чём-то более компактном? Например, на NVIDIA Jetson Thor с его 32 ГБ единой памяти CPU-GPU. Звучит как издевательство над физикой. Но работает.
Jetson Thor: железо, которое не должно было работать с такими моделями
NVIDIA позиционировала Jetson Thor как платформу для робототехники и автономных систем. 32 ГБ LPDDR5X памяти с пропускной способностью 204 ГБ/с, архитектура Grace CPU + Blackwell GPU, 275 TOPS для INT8. Всё это отлично для беспилотников на VLM или роботов, которые думают физикой. Но для 19-миллиардной модели генерации видео? Серьёзно?
Единая память - вот ключевая фишка. В отличие от классических систем, где данные копируются между CPU и GPU, здесь всё живёт в одном адресном пространстве. Нет overhead на копирование. Но есть другая проблема: 32 ГБ - это всё ещё 32 ГБ. LTX-2 в полной конфигурации требует около 38 ГБ только для весов в FP16. Значит, нужно резать.
Три уровня оптимизации: как впихнуть невпихуемое
1 Квантование до INT8 с потерей качества, которую не видно
Первое, что приходит в голову - квантование. Но не простое, а selective. Активационные слои оставляем в FP16, веса линейных слоёв переводим в INT8. Почему так? Потому что активации чувствительны к потере точности, а веса - нет. Особенно в видео-моделях, где артефакты от квантования становятся заметными как грязь на линзе.
Не используй автоматическое квантование всего подряд. В LTX-2 есть слои, которые категорически нельзя трогать - temporal attention и audio encoding. Их квантование приводит к рассинхронизации видео и звука. Проверено на горьком опыте.
2 Стратегическая загрузка по частям
Загружать всю модель сразу - самоубийство. Вместо этого разбиваем LTX-2 на логические блоки: видео-энкодер, аудио-энкодер, диффузионный U-Net, декодеры. Загружаем только то, что нужно в данный момент. Пока работает видео-энкодер, аудио-энкодер ждёт на SSD. Память освобождается сразу после использования блока.
Звучит просто, но есть нюанс: Jetson Thor имеет PCIe 5.0 x8 к NVMe. Пропускная способность - около 16 ГБ/с. Загрузка блока модели занимает миллисекунды. Задержка незаметна на фоне времени генерации кадра (2-3 секунды).
3 График вычислений, который учитывает единую память
В обычных системах ты планируешь вычисления на GPU, а данные живут в VRAM. Здесь всё иначе. CPU и GPU работают с одной памятью. Можно делать preprocessing на CPU, потом сразу передавать указатели на данные GPU. Нет копирования. Нет overhead.
Но! Нужно следить за contention. Если CPU и GPU одновременно пытаются читать из одних и тех же областей памяти, производительность падает в разы. Решение - explicit memory barriers и careful scheduling. Не самая простая задача, но open-source код в репозитории уже содержит работающую реализацию.
Пайплайн, который работает (почти) в реальном времени
Стандартный пайплайн LTX-2: текст → латентное пространство → диффузия → декодирование в видео и звук. На серверной RTX 5090 это занимает 10-15 секунд для 4-секундного клипа. На RTX 5090 с её 32 ГБ GDDR7 - ещё быстрее. Но у нас Jetson Thor.
| Этап | Память (пик) | Время (Jetson Thor) | Оптимизация |
|---|---|---|---|
| Текст → латентные векторы | 4.2 ГБ | 0.8 с | INT8 квантование текстового энкодера |
| Диффузия (20 steps) | 18.7 ГБ | 12.4 с | Selective offloading, memory reuse |
| Декодирование видео | 8.3 ГБ | 3.1 с | FP16 только для последних слоёв |
| Генерация звука | 6.5 ГБ | 2.7 с | Параллельно с видео, отдельный CUDA stream |
Итог: 4-секундное видео 512×288 с моно-звуком генерируется за 19 секунд. Не lightning fast, но учитывая, что это 19-миллиардная модель на embedded-устройстве - более чем приемлемо. Для сравнения: Jetson Orin Nano Super с его 15 ваттами и меньшей памятью не потянет LTX-2 даже в самом оптимизированном виде.
А что с альтернативами? Сравниваем с тем, что есть
Почему именно LTX-2, а не что-то полегче? Потому что альтернатив для embedded-генерации видео с звуком почти нет. Рассмотрим варианты:
- Stable Video Diffusion (SVD): Только видео, без звука. Меньше параметров (3-4B), но качество хуже, особенно в temporal consistency. И всё равно требует около 12 ГБ VRAM в полной версии.
- Flux: Отличная модель для изображений, но видео - не её сильная сторона. Адаптации под видео существуют, но они экспериментальные и требуют ещё больше памяти.
- Youtu-VL-4B-Instruct: Вот это интересный вариант. Китайская VLM, которая помещается в 8 ГБ VRAM, но она для понимания видео, а не генерации. Совсем другая задача.
- Самописные модели на основе U-Net: Можно собрать что-то своё, как в оптимизированных AI-станциях на Threadripper. Но потребуются месяцы работы и датасеты, которых у тебя нет.
LTX-2 остаётся единственной open-source моделью, которая делает и видео, и звук, и при этом имеет качество, близкое к коммерческим решениям. Да, она тяжёлая. Да, её нужно резать. Но она работает.
Кому это вообще нужно? (Спойлер: не только энтузиастам)
Казалось бы, зачем городить такой сложный пайплайн на embedded-устройстве? Не проще ли арендовать облачный GPU? Вот три сценария, где Jetson Thor с LTX-2 имеет смысл:
- Автономные роботы с генерацией контента: Представь дрона, который не только летает по маршруту, но и создаёт видео-отчёты с закадровым текстом. Всё на борту, без облака. Задержка - критический параметр.
- Полевые исследовательские станции: В местах без стабильного интернета (горы, океан, Арктика). Устройство записывает raw-данные, обрабатывает их в информативные видео-сюжеты, сохраняет на локальный носитель.
- Интерактивные инсталляции: Музейный экспонат, который генерирует персонализированные видео-истории на основе реакции посетителя. В реальном времени. Без отправки данных куда-либо (важно для приватности).
Да, есть и более простые платы вроде Orange Pi AI Station с её 176 TOPS. Но у них другая архитектура, другая память, другие ограничения. И главное - нет единой памяти CPU-GPU, которая делает возможной всю эту оптимизацию.
Полный код пайплайна, скрипты оптимизации и предварительно квантованные веса LTX-2 доступны в open-source репозитории. Не нужно ничего собирать с нуля - достаточно скачать, установить зависимости и запустить. Работа проверена на Jetson Thor с JetPack 6.0 (выпущен в январе 2026).
Что будет, если попробовать на чём-то послабее?
Любопытный вопрос. А что, если взять не Jetson Thor за $2000+, а что-то подешевле? Например, ту же сборку Mini PC с 68 ГБ VRAM на consumer-видеокартах?
Будет медленнее. Серьёзно. Потому что в той сборке используется несколько видеокарт с NVLink, но память у них не единая. Данные нужно копировать между картами, между CPU и GPU. Overhead съедает всю выгоду от большего объёма памяти. Да, модель целиком поместится. Но время генерации вырастет в 2-3 раза.
Единая память - это не маркетинговая фишка. Это архитектурное преимущество, которое меняет правила игры для моделей, чувствительных к latency памяти. LTX-2 как раз такая.
Стоит ли игра свеч? (Мой субъективный вердикт)
Если тебе нужна генерация видео на embedded-устройстве прямо сейчас - да, стоит. Готового решения лучше нет. Open-source код работает, сообщество активно, NVIDIA продолжает развивать Jetson платформу.
Но готовься к боли. Установка зависимостей займёт полдня. Первый запуск упадёт с непонятной ошибкой CUDA. Придётся разбираться с memory alignment (единая память требует выравнивания по 128 байт, а не по 16). Оптимизировать под конкретный use case.
Зато когда заработает... Видишь, как на экране появляется видео, которое не было записано, а создано из текстового описания. Со звуком, который идеально подходит к картинке. На устройстве размером с книгу. Это стоит того.
А через год, возможно, появятся модели полегче. Или новые версии Jetson с большей памятью. Или Alpamayo от NVIDIA получит возможность генерации видео. Но пока что LTX-2 на Jetson Thor - это единственный работающий вариант. Со всеми его костылями, оптимизациями и ограничениями.
Попробуй. Если не сломаешься на этапе установки - получишь уникальный инструмент, которого нет у 99% разработчиков. А это уже что-то.