Когда LLM забывает начало истории к середине главы
Заставьте современную LLM написать роман. Получите блестящую первую главу, неплохую вторую, третью где-то теряется нить сюжета, а к пятой персонажи меняют имена и мотивацию. Классическая проблема генерации длинных текстов - модели не умеют держать в голове сложную структуру на сотнях страниц.
LongPage решает это радикально: 6357 полнотекстовых романов с расписанными reasoning traces - иерархическими планами, которые показывают, как автор строил повествование от замысла к деталям.
Что внутри и почему это работает лучше BookCorpus
Открываете LongPage на Hugging Face и видите структуру, которая вызывает зависть у всех, кто пытался обучать LLM на сырых текстах:
| Поле | Что содержит | Зачем нужно |
|---|---|---|
| full_text | Полный текст романа | Целевая последовательность для обучения |
| reasoning_traces | Иерархический план (JSON) | Обучение планированию текста |
| metadata | Жанр, эпоха, стиль | Контролируемая генерация по атрибутам |
| summary_hierarchy | Аннотации разного уровня детализации | Мультимасштабное понимание сюжета |
Сравните с BookCorpus или Project Gutenberg: там просто тексты. Модель должна сама догадаться о структуре. В LongPage структура дана явно - как в Reasoning-v1, но для нарратива, а не логических задач.
Важный нюанс: reasoning traces в LongPage созданы не вручную, а с помощью каскада LLM (GPT-4o и Claude 3.5 Sonnet на момент создания). Авторы взяли текст, заставили модели реконструировать авторский замысел, затем проверили и отфильтровали. Получился синтетический, но качественный датасет reasoning.
"Собери свой LoRA для романов" - практическое применение
Допустим, вы хотите дообучить Mistral-Neural-22B или Qwen2.5-32B писать длинные связные истории. Без LongPage вам пришлось бы:
- Собирать датасет романов (см. "Где брать данные для обучения")
- Придумывать, как научить модель планированию
- Ручками размечать структуру или надеяться на чудо
С LongPage процесс упрощается до:
1 Загрузите датасет и создайте промпты с reasoning
Формат обучения: "Сначала план, потом текст". Промпт выглядит как:
instruction = "Напиши роман в жанре научная фантастика"
reasoning = data["reasoning_traces"] # иерархический план
output = data["full_text"] # полный текст
2 Настройте loss-функцию на multi-task learning
Обучаете модель предсказывать не только следующий токен текста, но и элементы плана. Практический трюк: добавьте отдельные классификационные головы для предсказания уровня детализации следующего фрагмента.
3 Используйте иерархию для контроля генерации
Во время инференса сначала генерируете reasoning trace (план), затем разворачиваете его в текст. Это как семантический пайплайн для LLM, но специализированный под нарратив.
Чем LongPage отличается от других датасетов для сторителлинга
В 2026 году есть выбор. Но каждый вариант решает свою проблему:
| Датасет | Фокус | Недостаток для длинных текстов |
|---|---|---|
| LongPage | Иерархическое планирование полных романов | Только английский, синтетические reasoning traces |
| "Девять тысяч страниц интимного перевода" | Билингвальный стиль, эмоциональная насыщенность | Нет явных структурных разметок |
| WritingPrompts | Короткие истории по промптам | Не учит длинной композиции |
| LoRA-датасеты для историй | Специализированные мелкие датасеты | Масштабирование на романы не работает |
LongPage выигрывает в одном: он явно учит разбивать большой текст на управляемые куски с сохранением связей. Модель понимает, что диалог на странице 150 должен отсылать к событию на странице 30.
Кому действительно нужен LongPage (а кому хватит WritingPrompts)
Если вы делаете:
- AI-соавтора для писателей - который помогает не с одной сценой, а с архитектурой всего романа
- Генератор длинного контента - технической документации, учебников, сценариев (да, reasoning traces работают и для non-fiction)
- Исследовательскую модель для изучения композиции текста - тут датасет бесценен
Если же вам нужен бот для коротких историй в Discord или генератор постов - LongPage избыточен. Возьмите специализированный LoRA-датасет и не усложняйте.
Техническое ограничение: reasoning traces созданы LLM, а не людьми. Это означает потенциальные артефакты - иногда "план" слишком шаблонный или не совсем соответствует тексту. Авторы фильтровали датасет, но идеального соответствия нет. Помните об этом при интерпретации результатов.
Совместите с другими техниками - получите монстра
LongPage не существует в вакууме. Комбинируйте его с:
- Дистилляцией знаний - обучите большую модель на LongPage, затем дистиллируйте в меньшую для локального использования (см. туториал по дистилляции)
- RAG для factual grounding - reasoning traces плюс поиск по базам знаний для исторических романов или технических текстов
- Мультимодальным расширением - добавьте к reasoning traces описания визуальных элементов для сценариев или комиксов
Ирония в том, что сам LongPage создан с помощью каскада LLM. Мы используем модели, чтобы создать данные для обучения... следующих моделей. Циклическая зависимость, которая работает.
Что будет, если обучить на этом датасете модель с 1T параметров
Спекуляция, но основанная на трендах 2026 года. Модель, обученная на LongPage + TimeCapsuleLLM + мультиязычных литературных корпусах, сможет:
- Генерировать роман с сохранением стиля на 500 страницах без потери сюжета
- Адаптировать уровень детализации под жанр (лаконично для триллера, подробно для исторической прозы)
- Создавать spin-off'ы с сохранением характеров персонажей
Риск: такие модели усилят "эффект Манделы" в ИИ - будут генерировать убедительные, но вымышленные детали в исторических контекстах. Reasoning traces не защищают от галлюцинаций, они лишь организуют их в стройную структуру.
LongPage - не панацея, а специализированный инструмент. Как скальпель в руках хирурга: бесполезен для нарезки хлеба, но незаменим для точной работы. Если ваша задача - научить LLM не терять нить повествования на сотой странице, этот датасет того стоит.