SciGraph: построение графа знаний из научных статей и метрики F1 | AiManual
AiManual Logo Ai / Manual.
20 Май 2026 Инструмент

SciGraph: как построить граф знаний из научных статей и оценить качество извлечения сущностей

Обзор SciGraph — open-source инструмента для извлечения сущностей из PDF, построения графа знаний и оценки качества с помощью F1. Сравнение с альтернативами и п

Каждый год выходит больше 3 миллионов научных статей. Читать их все — задача для супермена с эйдетической памятью. Обычному исследователю приходится полагаться на поиск по ключевым словам, рефераты и — в лучшем случае — обзорные статьи. Но что, если бы машина сама вытаскивала из текста сущности: методы, датасеты, метрики, авторов, — и связывала их в единый граф? SciGraph — open-source инструмент, который именно это и делает. И, что важнее, — честно оценивает, насколько качественно он это делает.

В отличие от классических графов знаний, которые строятся вручную или полуавтоматически, SciGraph заточен под научную литературу: умеет парсить PDF, распознавать заголовки, секции, ссылки, а главное — извлекать реляционные утверждения (например, «модель X превзошла Y на датасете Z»). Именно такие утверждения чаще всего интересуют того, кто пишет survey или ищет базу для собственного эксперимента.

Ключевая фишка: SciGraph не просто строит граф, а сразу считает метрики качества извлечения — precision, recall и F1. Вы видите, насколько можно доверять построенным связям.

Как работает SciGraph

В основе — пайплайн из нескольких этапов. Сначала инструмент извлекает текст из PDF (с помощью PyMuPDF или Science Parse). Затем запускает NER-модель (можно BERT, SciSpacy или даже локальную LLM) для поиска именованных сущностей: названия моделей, датасетов, метрик, имён авторов. Дальше — реляционное извлечение: модель пытается понять, как эти сущности связаны. Например: «модель BERT — используется в — задача Sentiment Analysis — достигает — Accuracy 92.3%». Все это ложится в граф (Neo4j или просто NetworkX).

Но самое интересное — модуль оценки. SciGraph сравнивает извлечённые тройки (субъект-предикат-объект) с заранее размеченным золотым стандартом. F1-мера считается для каждого типа сущности отдельно. Это позволяет быстро найти слабые места: например, если для метрик F1 = 0.72, а для названий датасетов — 0.91, значит, стоит дообучить модель на метриках.

Предупреждение: извлечение сложных утверждений (типа «в отличие от предыдущих работ, наш метод показывает лучшие результаты на тестовом наборе при условии...») даёт F1 около 0.55–0.60. Не надейтесь, что инструмент идеально поймет контекст. SciGraph честно показывает, где он врет.

Сравнение с альтернативами

На рынке есть несколько подходов к построению графов знаний из текстов, но SciGraph занимает нишу исследовательской оценки. Посмотрим, чем он отличается от популярных решений.

Инструмент Фокус Оценка качества Научные статьи
SciGraph Пайплайн + оценка F1 из коробки Встроенная (precision, recall, F1) Да, с парсингом PDF
Microsoft GraphRAG + Ollama Построение графа для RAG с LLM Косвенная (через ответы) Не специализирован
SciSpacy + вручную NER, нет реляций Отсутствует Да, но без PDF-парсера
Knowledge Graphs для агентов Инфраструктура для AI-агентов Нет встроенной оценки Не специализирован
LightRAG Граф + векторный поиск для RAG Только лог-метрики RAG Нет научного фокуса

RAG-системы часто врут, особенно если граф построен плохо. SciGraph даёт инструмент для верификации: вы можете заранее оценить, насколько точны извлечённые связи, и только потом отправлять их в RAG-пайплайн. Это экономит часы отладки.

Практический пример: разбираем статью про Attention Is All You Need

Допустим, у нас есть PDF оригинальной статьи про Transformer. Запускаем SciGraph и смотрим, что получится. Сначала установка:

pip install scigraph
scigraph-cli --pdf attention.pdf --output graph.json --evaluate gold_standard.json

SciGraph извлечёт сущности: модель (Transformer), датасет (WMT 2014, BLEU), метрики (BLEU, PPL), авторов (Vaswani et al.), методы (multi-head attention, position encoding). Затем построит граф и выведет метрики:

{
  "entities": {
    "model": {"precision": 0.95, "recall": 0.88, "f1": 0.91},
    "dataset": {"precision": 0.85, "recall": 0.78, "f1": 0.81},
    "metric": {"precision": 0.72, "recall": 0.65, "f1": 0.68}
  }
}

Видно, что метрики извлекаются хуже всего. SciGraph даже подсветит конкретные пропущенные утверждения: например, модель не увидела, что «Transformer достигает BLEU 28.4 на тестовом наборе WMT 2014 En-De». Можно тут же скорректировать модель — добавить больше примеров в обучающую выборку для метрик.

💡
Хотите применить такой же подход, но к юридическим документам? Почитайте наш опыт с юридическим RAG — механика похожая, но доменная специфика сильно влияет на выбор модели NER.

Сценарии, в которых SciGraph незаменим

  • Автоматическое реферирование литературы. Вместо того чтобы читать 100 статей, можно построить граф и увидеть, какие методы чаще всего сравнивают между собой.
  • Оценка качества NER-модели. SciGraph даёт готовый бенчмарк на научных текстах. Если ваша модель показывает F1 > 0.8 по всем сущностям — вы молодец.
  • Подготовка данных для GraphRAG. После того как GraphRAG построил граф, можно использовать SciGraph для верификации извлечённых фактов.
  • Бенчмаркинг научных claim'ов. Например, отследить, как менялась заявленная точность какой-нибудь модели от года к году.

Кстати, если вам интересно, как HippoRAG 2 решает проблему логических выводов, SciGraph можно использовать как источник структурированных фактов для такого RAG-фреймворка.

Кому стоит попробовать SciGraph прямо сейчас

В первую очередь — аспирантам и научным сотрудникам, которые пишут обзоры литературы. Вместо того чтобы мучительно выписывать на карточки «модель X — датасет Y — метрика Z», можно скормить папку PDF SciGraph и получить готовый граф. Во вторую — инженерам, которые разрабатывают RAG-системы для научных доменов: проверка качества извлечения сэкономит месяцы итераций.

Не советовал бы использовать SciGraph как black-box решение для принятия важных решений. F1 = 0.7 по метрикам — это всё ещё 30% ошибок. Лучше воспринимать инструмент как ассистента, а не как истину в последней инстанции. Структурированный Chain-of-Thought может улучшить качество, но метрики всё равно стоит перепроверять.

Напоследок один неочевидный совет: используйте SciGraph не только для извлечения, но и для поиска «белых пятен» в своей коллекции статей. Если граф показывает, что некоторые популярные датасеты нигде не упоминаются в ваших PDF — возможно, вы упускаете целое направление исследований. А Rust-графы для AI с эмбеддингами — это вообще отдельный движ, но для быстрого прототипирования SciGraph подходит идеально.

Подписаться на канал