314 гигабайт на диске — это не шутка
Открываешь репозиторий MLX-Video на GitHub, читаешь README и видишь цифру: 314 ГБ. Не мегабайт, не гигабайт в разумных пределах, а полноценных триста четырнадцать. Для сравнения — вся операционная система macOS Sonoma занимает около 15 ГБ. LTX-2, модель для генерации видео со звуком, просто не умещается в обычные представления о локальных нейросетях.
Но зачем таскать такой монстр на свой Mac? Всё просто — скорость. Генерация видео в облаке через API — это долго, дорого и ограничено квотами. На своём железе, особенно на свежем Apple Silicon вроде M3 Ultra или M4 Max, процесс идёт в разы быстрее. Если, конечно, модель вообще запустится.
Важно: речь идёт о полной, недеквантованной версии LTX-2. Разработчики из Meta выпустили её в конце 2025 года как open-source проект, и именно её адаптировали под MLX. Вес обусловлен архитектурой — модель учится генерировать и видео, и звук одновременно, что требует огромного количества параметров.
Что такое MLX-Video и зачем он нужен
MLX-Video — это не отдельный фреймворк, а набор скриптов и обёрток, которые адаптируют LTX-2 под MLX. Сам MLX (Machine Learning for Apple Silicon) — это библиотека от Apple, которая позволяет запускать модели PyTorch на GPU и Neural Engine Mac'ов без танцев с бубном. По сути, MLX-Video делает то, что раньше требовало установки CUDA, компиляции ядер и молитв — он просто работает.
Проблема в том, что LTX-2 изначально написана под PyTorch и CUDA. Без MLX она на Mac либо не запустится вообще, либо будет работать через Rosetta 2 с катастрофической потерей производительности. MLX-Video переписывает критические части кода, заменяя CUDA-операции на их MLX-аналоги.
Почему 314 ГБ — это ещё не предел
Цифра 314 ГБ складывается из нескольких компонентов:
- Основные веса модели — около 280 ГБ в формате safetensors
- Кэш токенизатора — 15 ГБ
- Дополнительные конфигурационные файлы и индексы — ещё 19 ГБ
Но самое интересное — это не сам размер, а то, как модель его использует. LTX-2 работает с видео как с последовательностью «патчей» — небольших фрагментов изображения и звука. Каждый такой патч кодируется отдельно, что требует огромного контекстного окна и, соответственно, памяти.
Для Mac с Unified Memory это одновременно и преимущество, и проблема. С одной стороны, не нужно копировать данные между RAM и VRAM — всё в одной памяти. С другой — 314 ГБ даже для Mac Studio M3 Ultra с 192 ГБ памяти — это слишком много. Модель просто не влезет целиком.
1 Решение: деквантование и чанкование
Первый способ уменьшить модель — деквантование. Исходные веса хранятся в формате FP32 (32-битные числа с плавающей точкой). Можно конвертировать их в FP16 (16-битные) или даже INT8 (8-битные целые числа). Качество немного просядет, но размер уменьшится в 2-4 раза.
Второй способ — чанкование. Вместо загрузки всей модели сразу, MLX-Video умеет загружать её по частям. Генерация идёт медленнее (постоянная подгрузка с диска), но хотя бы работает на Mac с 64 или 128 ГБ памяти.
| Тип оптимизации | Размер модели | Качество видео | Скорость генерации |
|---|---|---|---|
| Оригинал (FP32) | 314 ГБ | Эталонное | Очень медленно |
| FP16 | ~157 ГБ | Почти неотличимо | В 1.5-2 раза быстрее |
| INT8 | ~78 ГБ | Заметная деградация | В 3-4 раза быстрее |
| Чанкование + FP16 | 157 ГБ (частями) | Как FP16 | Зависит от скорости SSD |
Альтернативы: что делать, если нет 314 ГБ свободного места
Если цифра в 314 ГБ вас пугает (а она должна пугать), есть несколько альтернативных путей:
1. Использовать облачные API
Meta предлагает доступ к LTX-2 через API. Цена — от $0.05 за секунду сгенерированного видео. Для коротких роликов это может быть выгоднее, чем покупать Mac Studio с 1 ТБ SSD. Но есть ограничения: задержки, зависимость от интернета, лимиты на запросы.
2. Более лёгкие модели видео-генерации
LTX-2 — не единственная опция. Есть модели поменьше, которые тоже умеют генерировать видео, пусть и с худшим качеством или без звука:
- VideoCrafter2 — около 15 ГБ, только видео, хорошее качество для коротких клипов
- ModelScope-T2V — 8-12 ГБ, специализируется на анимации
- Stable Video Diffusion — 10-15 ГБ, работает через Diffusers, можно запустить на Mac через MLX с адаптацией
3. Аренда облачного GPU
Если нужно именно локальное выполнение, но своего железа не хватает — арендуйте GPU в облаке. Например, инстанс с 4x A100 и 320 ГБ памяти обойдётся примерно в $15-20 в час. За пару часов можно нагенерировать то, что на Mac будет делаться сутки. Подробнее про сравнение железа читайте в гайде по выбору железа для локальных LLM.
Практика: запускаем LTX-2 на Mac через MLX-Video
Теория — это хорошо, но давайте перейдём к практике. Вот минимальные требования для запуска:
- Mac с Apple Silicon (M2, M3, M4 серии)
- Не менее 64 ГБ Unified Memory (реально нужно 128+ ГБ)
- macOS 15 Sequoia или новее
- Python 3.10+ с установленным MLX 1.0+
- ~350 ГБ свободного места на диске (модель + временные файлы)
2 Установка и настройка
Клонируем репозиторий MLX-Video и устанавливаем зависимости:
git clone https://github.com/mlx-video/mlx-video.git
cd mlx-video
pip install -r requirements.txt
Скачиваем модель. Внимание: это займёт несколько часов даже при быстром интернете:
python download_model.py --model ltx-2 --quantization fp16
Флаг --quantization fp16 скачает версию модели в 16-битном формате — «всего» 157 ГБ вместо 314.
Не пытайтесь скачать модель на MacBook Air или MacBook Pro с 256 ГБ SSD. У вас просто не хватит места. Минимум — 512 ГБ, а лучше 1 ТБ или внешний SSD с Thunderbolt.
3 Запуск генерации
После скачивания можно запустить генерацию. Базовый пример:
python generate.py \
--prompt "A cat playing piano in a jazz club" \
--duration 5 \
--output cat_jazz.mp4 \
--chunk_size 4 \
--use_chunked_loading
Ключевые параметры здесь:
--duration 5— длина видео в секундах (максимум 10 для LTX-2)--chunk_size 4— сколько секунд генерировать за один проход--use_chunked_loading— использовать чанкованную загрузку модели
На Mac Studio M3 Ultra с 192 ГБ памяти генерация 5-секундного видео занимает около 15-20 минут. На MacBook Pro M4 Max с 96 ГБ — уже 40-60 минут из-за постоянной подгрузки чанков.
Кому подходит MLX-Video с LTX-2
Не каждому. Эта связка — инструмент для специфических задач:
Исследователи и разработчики
Если вы экспериментируете с видео-генерацией и хотите полный контроль над процессом — локальный запуск через MLX-Video даёт эту возможность. Можно модифицировать код, менять параметры генерации, дебажить каждый этап. В облаке такого уровня контроля нет.
Студии с большим бюджетом на железо
Для профессиональной работы, где нужно генерировать много контента, покупка Mac Studio M3 Ultra с максимальной памятью может окупиться за несколько месяцев по сравнению с облачными API. Особенно если генерировать видео постоянно.
Энтузиасты с топовыми Mac
Если у вас уже есть Mac Pro или Mac Studio с 192+ ГБ памяти — почему бы не попробовать? Это один из самых впечатляющих демо-примеров возможностей Apple Silicon.
Что дальше: оптимизация или специализация?
Вопрос на 314 миллиардов байт: что будет с такими огромными моделями? Два пути:
Первый — дальнейшая оптимизация. Meta уже анонсировала LTX-2.5, которая должна быть на 30% меньше при том же качестве. Плюс идут работы над более эффективными форматами хранения весов.
Второй — специализация. Вместо одной монструозной модели делать множество маленьких, каждая для своей задачи: одна генерирует только лица, другая — только природу, третья — только анимацию. Как в VL-JEPA для понимания изображений, только для видео.
Мой прогноз: к концу 2026 года мы увидим видео-модели размером 50-70 ГБ с качеством, сравнимым с сегодняшней LTX-2. А ещё через год — 20-30 ГБ. Железо тоже не стоит на месте: к тому времени у нас будут Mac с 256 или даже 512 ГБ Unified Memory по разумной цене.
А пока что LTX-2 через MLX-Video остаётся экзотикой для тех, у кого есть топовое железо и много свободного места на диске. Но именно такие проекты показывают, куда движется локальный ИИ — к полной независимости от облаков, даже для самых сложных задач.
Если же вы ищете более практичные варианты для локального ИИ на Mac, посмотрите гайд по Apple Foundation Models или подборку LLM для Mac Studio M4 Max. Там модели помельче, но пользы — не меньше.