YumCut: полный гайд по настройке open-source генератора faceless-видео | AiManual
AiManual Logo Ai / Manual.
18 Фев 2026 Гайд

YumCut: как заменить дорогие SaaS подписки на open-source фабрику faceless-видео

Пошаговая инструкция по развертыванию YumCut — бесплатной альтернативы дорогим SaaS для создания вертикальных видео с озвучкой. Настройка, ошибки, автоматизация

Почему все платят за то, что можно сделать бесплатно

Смотришь на эти сервисы вроде InVideo, Pictory или Loom? 30-50 долларов в месяц за возможность склеить картинки с текстом и озвучкой. Звучит как шутка, пока не понимаешь, что сам платишь. Faceless-видео — это не магия, это обычный FFmpeg, пара Python-скриптов и TTS API. Ровно то, что сделал разработчик YumCut и выложил на GitHub.

Важный контекст на 18 февраля 2026: тренд на faceless-контент не просто жив — он доминирует. Платформы вроде TikTok и YouTube Shorts алгоритмически продвигают вертикальные видео без лиц. Это низкий порог входа и высокая монетизация. Но инструменты для создания остаются искусственно дорогими.

Что такое YumCut и почему он работает

YumCut — это набор скриптов на Python, который делает одну простую вещь: берет текст, нарезает его на фразы, генерирует для каждой фразы картинку (через Stable Diffusion или DALL-E), озвучивает текст через TTS (ElevenLabs, Google или Edge), собирает все в вертикальное видео с субтитрами и фоновой музыкой. Никакого UI, только консоль и конфиг. Идеально для автоматизации.

Автор проекта, Дэвид, запустил канал с такими видео и набрал 90 тысяч просмотров за несколько месяцев. Доказательство концепции, которое работает. Код на GitHub, лицензия MIT — бери и используй.

Подготовка: что нужно перед запуском

Не пугайся списка зависимостей. По факту, это стандартный стек для любого, кто работал с медиа.

  • Python 3.11+ — актуальная версия на начало 2026. Не пытайся запускать на 3.8, будут проблемы с асинхронностью.
  • FFmpeg — установи через пакетный менеджер (apt, brew, choco). Без него ничего не соберется.
  • API ключи — нужен хотя бы один сервис для генерации изображений и один для озвучки. Бесплатные варианты есть.
  • 8 ГБ ОЗУ минимум. Генерация изображений жрет память.
💡
Если не хочешь платить за генерацию изображений, посмотри в сторону локальных моделей. В статье про Youtu-VL-4B-Instruct есть варианты, которые работают даже на слабом железе. Для faceless-видео качество картинок не должно быть идеальным — они мелькают по 3-5 секунд.

1 Клонируем и настраиваем окружение

git clone https://github.com/davidteather/YumCut.git
cd YumCut
python -m venv venv
source venv/bin/activate  # На Windows: venv\Scripts\activate
pip install -r requirements.txt

Тут первая засада: файл requirements.txt может содержать устаревшие версии пакетов. Особенно это касается библиотек для работы с AI API. Проверь версии вручную.

Ошибка №1: Не обновляй все пакеты слепо командой pip install --upgrade. Некоторые версии в проекте зафиксированы не просто так. Если столкнешься с проблемами совместимости, создай отдельное виртуальное окружение только для YumCut.

2 Настраиваем конфигурационный файл

В корне проекта есть config.json. Это мозг всей операции. Открываешь его и видишь кучу полей. Не паникуй, 80% из них можно оставить по умолчанию.

{
  "text": "Твой текст для видео. Каждый абзац — отдельный слайд.",
  "background_music": "path/to/music.mp3",
  "image_generator": "dalle", // Или "stable_diffusion", "leonardo"
  "tts_provider": "edge", // Или "google", "elevenlabs"
  "api_keys": {
    "openai": "sk-...",
    "elevenlabs": "..."
  },
  "output": {
    "resolution": "1080x1920",
    "fps": 30
  }
}

Самое важное здесь — выбор провайдеров. На 2026 год Edge TTS (от Microsoft) все еще бесплатен и дает качество, неотличимое от человеческого для коротких фраз. Для изображений, если нет бюджета, используй Stable Diffusion через локальную установку или бесплатные API вроде Stable Diffusion API с ограничениями.

3 Запускаем генерацию и ловим первые ошибки

python main.py --config config.json

Если все настроено правильно, увидишь лог: генерация изображений, синтез речи, наложение субтитров, сборка видео. На практике с первого раза никогда не работает.

Ошибка Причина Решение
ModuleNotFoundError: No module named 'openai' Пакет не установился или установилась другая версия pip install openai==1.12.0 (проверь актуальную версию)
FFmpeg error: Invalid data found Путь к музыке содержит кириллицу или спецсимволы Используй абсолютные пути и только латинские символы
API rate limit exceeded Бесплатный лимит исчерпан Переключись на другого провайдера или используй локальную модель

Автоматизация: как превратить скрипт в конвейер

Запускать вручную каждый раз — терять время. YumCut создан для пайплайнов.

Вариант 1: Кроны и скрипты-обертки. Раз в день берешь RSS новостной ленты, пропускаешь через LLM для суммаризации, подаешь в YumCut, загружаешь на YouTube через API.

# Пример скрипта-оркестратора
import subprocess
import json
from datetime import datetime

# 1. Получить текст (например, из файла или API)
with open('today_news.txt', 'r') as f:
    news_text = f.read()

# 2. Обновить конфиг
with open('config.json', 'r') as f:
    config = json.load(f)
config['text'] = news_text
config['output']['filename'] = f"video_{datetime.now().strftime('%Y%m%d')}.mp4"

with open('config_auto.json', 'w') as f:
    json.dump(config, f)

# 3. Запустить YumCut
result = subprocess.run(['python', 'main.py', '--config', 'config_auto.json'], capture_output=True, text=True)
if result.returncode == 0:
    print("Видео сгенерировано")
    # 4. Можно добавить автоматическую загрузку в соцсети
else:
    print("Ошибка:", result.stderr)

Вариант 2: Использовать локальный стек наподобие NotebookLM для подготовки контента. Загружаешь PDF с отчетом, модель выдает краткое изложение, которое сразу идет на генерацию видео. Полная приватность, ноль подписок.

Где брать контент для видео, если сам писать лень

Фабрика настроена, но чем ее кормить? Текст — это 80% успеха faceless-видео.

  • Новостные агрегаторы с API — Reddit, Hacker News, RSS популярных блогов. Берешь топовые посты, пропускаешь через GPT-4o или локальную LLM для перефразирования.
  • Нишевые форумы и сообщества — вопросы и ответы из Stack Overflow, обсуждения на Product Hunt. Люди уже сформулировали проблему и решение, тебе осталось только визуализировать.
  • Собственные заметки и документы — конвертируй внутреннюю документацию в публичный контент. Один техдок на 10 страниц = 20 коротких видео.
💡
Не пытайся генерировать текст целиком через AI. Алгоритмы платформ в 2026 году легко определяют синтетический контент и понижают его в выдаче. Используй AI только для обработки и адаптации реальных человеческих текстов.

А что насчет качества? Сравниваем с платными аналогами

Сгенерируем один и тот же скрипт в YumCut и в популярном SaaS за $49/месяц.

Критерий YumCut (локальный) SaaS сервис
Время генерации (1 мин видео) 3-5 минут (зависит от API) 1-2 минуты
Качество озвучки Идентично (тот же ElevenLabs) Идентично
Качество изображений Можно использовать DALL-E 3, SDXL Часто урезанная библиотека стоков
Гибкость настройки Полная (меняешь код как хочешь) Ограничена интерфейсом
Стоимость (100 видео) ~$10-50 (только за API вызовы) $49/месяц (лимит на ролики)
Приватность данных Полная (все локально) Нулевая (все на серверах SaaS)

Разница в 2 минуты времени генерации не стоит $600 в год. Особенно когда ты контролируешь каждый этап процесса.

Куда развивать проект дальше: форки и модификации

Базовый YumCut хорош, но скучен. Вот что делают в своих форках:

  • Интеграция с моделями генерации видео — вместо статичных картинок вставлять короткие клипы, сгенерированные Veo 3.1 от Google или аналогами. Дорого, но эффектно.
  • Динамические субтитры с эмоциями — синхронизация появления текста не просто по таймингу, а с учетом интонации TTS. Сложно, но сильно повышает вовлеченность.
  • Генерация говорящих аватаров — комбинируй с технологиями вроде Lemon Slice-2, чтобы добавить в видео цифрового ведущего. Переход от faceless к face-without-actual-face.
  • Локальный стек без интернета — замена всех API на локальные модели: Stable Diffusion для изображений, локальные TTS. Полная автономность.

Код на GitHub — это не финальный продукт, а отправная точка. Самый ценный форк будет тем, кто добавит интеллектуальную подборку визуала не просто по ключевым словам, а по смыслу текста, как это делают продвинутые VLM.

Прогноз на 2026-2027: рынок инструментов для создания видео разделится на две ниши. Дорогие enterprise-решения с полным циклом AI и миллионы микросервисов вроде YumCut, которые решают одну конкретную задачу, но делают это бесплатно и прозрачно. Умение настроить и модифицировать такие open-source инструменты станет базовым навыком для контент-мейкеров.

Главный вопрос: а оно того стоит?

Потратить день на настройку, ковыряние с ошибками и написание скриптов-оберток, чтобы сэкономить $50 в месяц? С точки зрения чистой математики — нет, не стоит. Если ты фрилансер и время = деньги, проще заплатить.

Но если ты создаешь контентную фабрику, где каждый день должны выходить десятки видео, если тебе важна приватность исходных текстов, если хочешь полностью контролировать пайплайн и не зависеть от капризов SaaS-провайдера (помнишь, как в 2024 году резко выросли цены у всех?), тогда YumCut — это не экономия, это стратегическая независимость.

И самое главное: навык, который получаешь, разбирая такие проекты, стоит дороже любой подписки. Понимание, как работают медиапайплайны, как интегрируются AI-сервисы, как автоматизируется контент — это знание, которое не устареет, когда появится следующий «революционный» сервис за $99/месяц.

Запускай, модифицируй, делится форками. И когда в следующий раз увидишь рекламу «Создавайте профессиональные видео за минуты!», просто улыбнись — ты знаешь, что под капотом, и у тебя есть свой собственный движок.