Когда LLM забывает начало истории к середине главы

Заставьте современную LLM написать роман. Получите блестящую первую главу, неплохую вторую, третью где-то теряется нить сюжета, а к пятой персонажи меняют имена и мотивацию. Классическая проблема генерации длинных текстов - модели не умеют держать в голове сложную структуру на сотнях страниц.

LongPage решает это радикально: 6357 полнотекстовых романов с расписанными reasoning traces - иерархическими планами, которые показывают, как автор строил повествование от замысла к деталям.

💡

Reasoning traces в LongPage - это не просто "оглавление". Это многоуровневые деревья решений: верхний уровень - сюжетные арки, средний - главы и сцены, нижний - конкретные диалоги и описания. Как если бы вы заглянули в черновик автора с пометками "зачем эта сцена" и "как она ведет к развязке".

Что внутри и почему это работает лучше BookCorpus

Открываете LongPage на Hugging Face и видите структуру, которая вызывает зависть у всех, кто пытался обучать LLM на сырых текстах:

Поле	Что содержит	Зачем нужно
full_text	Полный текст романа	Целевая последовательность для обучения
reasoning_traces	Иерархический план (JSON)	Обучение планированию текста
metadata	Жанр, эпоха, стиль	Контролируемая генерация по атрибутам
summary_hierarchy	Аннотации разного уровня детализации	Мультимасштабное понимание сюжета

Сравните с BookCorpus или Project Gutenberg: там просто тексты. Модель должна сама догадаться о структуре. В LongPage структура дана явно - как в Reasoning-v1, но для нарратива, а не логических задач.

Важный нюанс: reasoning traces в LongPage созданы не вручную, а с помощью каскада LLM (GPT-4o и Claude 3.5 Sonnet на момент создания). Авторы взяли текст, заставили модели реконструировать авторский замысел, затем проверили и отфильтровали. Получился синтетический, но качественный датасет reasoning.

"Собери свой LoRA для романов" - практическое применение

Допустим, вы хотите дообучить Mistral-Neural-22B или Qwen2.5-32B писать длинные связные истории. Без LongPage вам пришлось бы:

Собирать датасет романов (см. "Где брать данные для обучения")
Придумывать, как научить модель планированию
Ручками размечать структуру или надеяться на чудо

С LongPage процесс упрощается до:

1 Загрузите датасет и создайте промпты с reasoning

Формат обучения: "Сначала план, потом текст". Промпт выглядит как:

instruction = "Напиши роман в жанре научная фантастика"
reasoning = data["reasoning_traces"]  # иерархический план
output = data["full_text"]  # полный текст

2 Настройте loss-функцию на multi-task learning

Обучаете модель предсказывать не только следующий токен текста, но и элементы плана. Практический трюк: добавьте отдельные классификационные головы для предсказания уровня детализации следующего фрагмента.

3 Используйте иерархию для контроля генерации

Во время инференса сначала генерируете reasoning trace (план), затем разворачиваете его в текст. Это как семантический пайплайн для LLM, но специализированный под нарратив.

Чем LongPage отличается от других датасетов для сторителлинга

В 2026 году есть выбор. Но каждый вариант решает свою проблему:

Датасет	Фокус	Недостаток для длинных текстов
LongPage	Иерархическое планирование полных романов	Только английский, синтетические reasoning traces
"Девять тысяч страниц интимного перевода"	Билингвальный стиль, эмоциональная насыщенность	Нет явных структурных разметок
WritingPrompts	Короткие истории по промптам	Не учит длинной композиции
LoRA-датасеты для историй	Специализированные мелкие датасеты	Масштабирование на романы не работает

LongPage выигрывает в одном: он явно учит разбивать большой текст на управляемые куски с сохранением связей. Модель понимает, что диалог на странице 150 должен отсылать к событию на странице 30.

Кому действительно нужен LongPage (а кому хватит WritingPrompts)

Если вы делаете:

AI-соавтора для писателей - который помогает не с одной сценой, а с архитектурой всего романа
Генератор длинного контента - технической документации, учебников, сценариев (да, reasoning traces работают и для non-fiction)
Исследовательскую модель для изучения композиции текста - тут датасет бесценен

Если же вам нужен бот для коротких историй в Discord или генератор постов - LongPage избыточен. Возьмите специализированный LoRA-датасет и не усложняйте.

Техническое ограничение: reasoning traces созданы LLM, а не людьми. Это означает потенциальные артефакты - иногда "план" слишком шаблонный или не совсем соответствует тексту. Авторы фильтровали датасет, но идеального соответствия нет. Помните об этом при интерпретации результатов.

Совместите с другими техниками - получите монстра

LongPage не существует в вакууме. Комбинируйте его с:

Дистилляцией знаний - обучите большую модель на LongPage, затем дистиллируйте в меньшую для локального использования (см. туториал по дистилляции)
RAG для factual grounding - reasoning traces плюс поиск по базам знаний для исторических романов или технических текстов
Мультимодальным расширением - добавьте к reasoning traces описания визуальных элементов для сценариев или комиксов

Ирония в том, что сам LongPage создан с помощью каскада LLM. Мы используем модели, чтобы создать данные для обучения... следующих моделей. Циклическая зависимость, которая работает.

Что будет, если обучить на этом датасете модель с 1T параметров

Спекуляция, но основанная на трендах 2026 года. Модель, обученная на LongPage + TimeCapsuleLLM + мультиязычных литературных корпусах, сможет:

Генерировать роман с сохранением стиля на 500 страницах без потери сюжета
Адаптировать уровень детализации под жанр (лаконично для триллера, подробно для исторической прозы)
Создавать spin-off'ы с сохранением характеров персонажей

Риск: такие модели усилят "эффект Манделы" в ИИ - будут генерировать убедительные, но вымышленные детали в исторических контекстах. Reasoning traces не защищают от галлюцинаций, они лишь организуют их в стройную структуру.

LongPage - не панацея, а специализированный инструмент. Как скальпель в руках хирурга: бесполезен для нарезки хлеба, но незаменим для точной работы. Если ваша задача - научить LLM не терять нить повествования на сотой странице, этот датасет того стоит.

LongPage: датасет из 6 тысяч романов, который учит LLM не терять сюжет на 100-й странице