Когда видео становится учебником: как AI-конвейер убивает рутину
Вы записали разбор олимпиадной задачи IMC. Час объяснений, маркерная доска, пара графиков. Потом неделя — пересматривать, записывать ключевые моменты, рисовать иллюстрации, верстать. А если таких видео — десяток? Рутина съедает время, которое могло уйти на новые задачи и живое общение с учениками.
В 2026 году эту проблему решают не героическим ручным трудом, а конвейером AI-агентов. Концепция проста: бросьте видео на вход — получите на выходе готовый PDF-учебник. Никаких посредников, никаких «отправить стенографистке». Внутри — цепочка специализированных нейросетей, каждая делает свою часть. И работает это не «когда‑нибудь», а прямо сейчас.
Разберём такой конвейер на примере задач IMC — того самого International Mathematics Competition, где студенты соревнуются в решении нетривиальных матзадач. Почему именно IMC? Потому что математические выкладки и формулы — лакмусовая бумажка для любой автоматизации. Если конвейер справляется с ними, с гуманитарными текстами справится тем более.
Конвейер разобран: от MP4 до PDF за 15 минут
Визуализируем цепочку. На входе — видео (MP4, 1080p, 30 минут разбора задачи). На выходе — аккуратный PDF с текстом, формулами, поясняющими иллюстрациями и ссылками на первоисточник. Внутри — четыре агента, каждый со своим промптом.
1 Транскрибатор (Whisper v3 + донастройка на математический контекст)
Аудиодорожка извлекается, прогоняется через Whisper в режиме large-v3. Чтобы он не путал «f(x)» с «eff of ex», в промпт подмешивается словарь математических терминов. На выходе — чистый SRT-файл с разбивкой по секундам.
Без этого шага всё остальное — пустое. Если транскрипция кривая, дальше только мусор. Как превратить рутину в автономного агента — ровно про это: дискретизация задачи, назначение промпта, запуск. Полный гайд есть в статье «Запись и дискретизация: как превратить любую рутину в AI-агента за 15 минут».
2 Структуризатор (LLM с ролью редактора)
Транскрипт делится на смысловые блоки: условие задачи, разбор, леммы, вывод. Для этого используется LLM — например, Claude 4.5 или GPT-5, которые уже показали отличное понимание математической логики. Промпт содержит правила: «Выдели каждую лемму в отдельный раздел, формулы запиши в LaTeX, добавь ссылки на временные метки видео».
На этом этапе конвейер превращает поток речи в структурированный outline. Именно здесь часто ломаются «коробочные» решения — они не знают, что в IMC задачах важно отделять доказательство от комментария. А обученный агент — знает.
3 Иллюстратор (Stable Diffusion 3.5 + ControlNet)
Для каждой ключевой идеи генерируется поясняющий рисунок. Промпт строится из описания из транскрипта — «график функции, пересечение кривых, подписи осей». ControlNet с позой (если речь о геометрии) гарантирует, что линии не «поплывут». Латеховские формулы накладываются слоем поверх картинки.
Звучит сложно, но на деле — просто: скрипт забирает из структуризатора фрагмент текста, вычленяет ключевые сущности, формирует промпт для изображения и запускает генерацию. Чтобы понимать, как такие цепочки строятся, стоит изучить «От простого бота к самообучающемуся агенту: пошаговый гайд с кодом для бизнеса» — там показана схема, которую можно адаптировать под свой домен.
4 Верстальщик (LaTeX + pandoc + шаблон)
Финальный агент принимает структурированный текст (в формате Markdown с LaTeX-вставками), список путей к изображениям и метаданные (автор, дата, название курса). Компилирует в PDF через lualatex. Шаблон кастомизируется: колонтитулы, стиль теорем, оформление примеров.
Выходной PDF уже можно загружать на LMS (Moodle, Notion, Google Classroom) или отправлять в типографию. Никакой ручной вёрстки.
Почему IMC-задачи — идеальный тест для конвейера
Обычные тексты AI-агенты переваривают без проблем. Сложности начинаются, когда в дело вступают символы, дроби, интегралы, ссылки на прошлые утверждения. IMC-задачи — это экстремальный челлендж:
- В видео постоянно мелькают формулы — их нужно корректно распознать, не потерять индексы.
- Логика доказательства многошаговая — если агент «забудет» промежуточную лемму, весь учебник станет бессмысленным.
- Иллюстрации должны быть математически точными — Stable Diffusion без ControlNet рисует красивые, но геометрически некорректные картинки.
Конвейер, описанный выше, проходит этот тест на 90%+ (зависит от чёткости дикции и освещения на видео). Единственное узкое место — рукописные формулы на доске. Тут пока помогает либо отдельный OCR для математики (InftyReader), либо требование к лектору использовать презентацию.
Важно: Промпты для каждого агента — половина успеха. Например, промпт для иллюстратора с ControlNet должен явно указывать: «Не добавляй текст на изображение, кроме подписей осей», иначе модель напишет абракадабру. Я выложил набор рабочих промптов в гайде по 24hr-research-agent — оттуда можно взять структуру и адаптировать под свои задачи.
Сравнение: AI-конвейер vs ручной труд + альтернативы
| Параметр | Ручное создание | Otter.ai + ручная доработка | AI-конвейер (предлагаемый) |
|---|---|---|---|
| Время на 30 мин видео | 6–10 часов | 3–4 часа | 15–25 минут |
| Формулы | Вручную (LaTeX) | Только текст, формулы вставляются отдельно | Автоматически (Whisper+LLM) |
| Иллюстрации | Рисунок от руки или скриншоты | Нет | Генерация по описанию |
| Стоимость (на одно пособие) | 0 руб. (если ваш труд) | 15$ (подписка+токены) | ~5$ (Whisper + API LLM + генерация) |
| Точность для IMC-задач | 100% (человек) | ~40% (нуждается в правках) | ~85% (ошибки на сложных фрагментах) |
Как видите, конвейер выигрывает по скорости и цене, проигрывая только в точности на редких сложных сценариях. Но эти 15% ошибок — проблемы с распознаванием рукописного текста или нестандартной нотации, которые легко править «полуавтоматом»: прошёлся по PDF-файлу, поправил 10 формул — готово. А 4 часа ручной работы экономится.
Как запустить такой конвейер самому — рецепт
Допустим, у вас есть видео с разбором IMC-задачи. Вы хотите учебное пособие. Вот минимальный код, который запускает первую часть — транскрипцию и структуризацию. Остальное (генерация картинок, вёрстка) добавляется по аналогии, модулями.
# Упрощённый пайплайн: видео -> структурированный текст
import whisper
from openai import OpenAI
# 1. Транскрипция
model = whisper.load_model("large-v3")
result = model.transcribe("lecture.mp4", language="en")
transcript = result["text"]
# 2. Структуризация через LLM (используем GPT-5 API)
client = OpenAI(api_key="sk-...")
prompt = f"""Ты методист-математик. Извлеки из текста:
- условие задачи (если есть)
- пошаговое решение
- ключевые леммы и теоремы
- сложные моменты (маркер: 'внимание')
Запиши всё в Markdown, формулы в LaTeX.
Текст:
{transcript}
"""
response = client.chat.completions.create(
model="gpt-5",
messages=[{"role": "user", "content": prompt}]
)
structured = response.choices[0].message.content
with open("output.md", "w") as f:
f.write(structured)
Это — основа. Дальше можно обернуть в LangChain, добавить проверку на галлюцинации (гляньте статью «Контекстная слепота агентов» — там как раз про сбои в передаче контекста между шагами).
Предупреждение: Не пытайтесь прогнать через один LLM всё сразу — видео в 30 минут может сломать контекстное окно даже у GPT-5. Дробите на чанки по 2000 токенов и зашивайте временные метки. Иначе получите «сжатую версию», где половина доказательств потеряна.
Кому это нужно (и кому нет)
Конвейер для создания учебников из видео — не универсальный молоток. Давайте честно: кому он реально облегчит жизнь, а для кого окажется дорогой игрушкой.
Идеальные пользователи
- Преподаватели онлайн-школ. Записали вебинар — получили конспект для студентов. Особенно актуально для курсов по математике, физике, программированию.
- Авторы учебных пособий. Нужно быстро выпустить брошюру с разбором типовых задач IMC — пара видео, и PDF готов к редактуре.
- Тьюторы. Подготовка индивидуальных материалов по запросу ученика — конвейер перерабатывает запись zoom-занятия в персонализированный конспект.
Кому не подойдёт
- Создателям контента, где важна эстетика каждой страницы. AI-вёрстка пока не дотягивает до дизайнера-человека.
- Тем, кто работает с узкоспециализированными нотациями (теория категорий, гомотопическая теория) — LLM часто путают символы.
- Кто боится тонкой настройки промптов. Без качественного промпта конвейер выдаёт кашу. Придётся провести пару вечеров с документацией.
Если вы узнали себя в первой группе — рекомендую начать с малого: сконвертировать одно 10-минутное видео, потрогать результат, понять, какие правки нужны. Через пару таких итераций вы натренируете свои промпты и сможете масштабировать до целого курса.
Кстати, для тех, кто хочет глубже погрузиться в тему AI-агентов для образования, есть хорошая подборка из двух статей: бесплатный курс-бестселлер от Kaggle и Google и практическое руководство по внедрению агентов в бизнесе. Хотя второй про бизнес, принцип «агент как конвейер» тот же.
Неочевидный совет напоследок
Не пытайтесь заменить весь процесс одним «суперагентом». Разделение на 3-4 специализированных LLM с жёсткими границами намного надёжнее, чем монолитная система. Почему? Потому что когда агент-транскрибатор ошибается, он не «заражает» своей ошибкой генерацию картинок — контекст изолирован. И вы можете дебажить каждый блок отдельно.
Второй парадоксальный вывод: не пытайтесь добиться 100% точности на первых запусках. Лучше выпустить «черновик» за 15 минут, потом поправить 10 формул за час, чем вылизывать пайплайн месяц. Поверьте, ученикам нужен работающий учебник, а не иллюзия совершенной автоматизации.
Если захотите докрутить конвейер до профессионального уровня — обратите внимание на курс «AI-креатор: создаём контент с помощью нейросетей» — там есть модуль по созданию обучающих материалов. Он как раз про то, как перейти от «я написал скрипт» к «у меня production-ready система».