LLM для расшифровки рукописей: кейс архивистов от LeCun до ChatGPT

В подвалах Ватикана, библиотеках монастырей и муниципальных архивах спят миллионы страниц, которые никто не читал столетиями. Не потому что они засекречены — а потому что человеческий глаз (даже тренированный) пасует перед кривыми строчками средневековых писцов, выцветшими чернилами и дурацкой модой на стенографию XIX века. Казалось бы, работа на века — пока в дело не влезли LLM.

Почему OCR здесь бессилен

Обычный оптический распознаватель текста (OCR) пасует перед рукописью. Tesseract, поднятый по тревоге, сдаётся после первого же завитка. Проблема в том, что рукописный текст — это не шрифт, а уникальная траектория пера, которая ещё и меняется у одного автора от строчки к строчке. Традиционные методы машинного обучения (те самые сверточные сети, которые в 90-х пропагандировал Yann LeCun) умели распознавать отдельные символы, но теряли контекст. Слово могло быть похоже на "лошадь", а на самом деле значило "договор" — и понять это можно только по соседним строкам.

Кстати: LeCun ещё в 1998 году экспериментировал с распознаванием рукописных чеков через LeNet. Но тогда модель видела только букву за буквой. LLM пошли дальше — они видят документ целиком.

Как ChatGPT читает, что написано куриной лапой

Современный подход — гибрид. Сначала грубый OCR (можно даже GLiNER прикрутить для размеченных полей), который выдаёт "сырой" текст с кучей ошибок. А потом этот мусор отправляют LLM — например, ChatGPT-5 (последняя версия на май 2026) с контекстом в 256К токенов. Модель видит не просто буквы, а всю графику строки, понимает, что предыдущий абзац был про налоги — и исправляет "короа" на "корова" в нужном контексте. Архивисты называют это "интуицией машины", но мы-то знаем: это просто статистика.

Британский архив National Archives в прошлом году отчитался: после внедрения пайплайна ChatGPT + собственные микромодели объём расшифрованных документов вырос в 12 раз. И это не только латынь — иврит, арабская вязь, старофранцузский. Языковой барьер LLM перешибает играючи, если дать ей хотя бы немного примеров правильной редактуры.

💡

В теории LLM может сама себе сделать RAG-систему, подгрузив словарь сокращений эпохи Тюдоров. На практике собрать такой RAG за 15 минут не выйдет — архивные словари бывают объёмом с Библию.

Проклятие галлюцинаций: когда LLM досочиняет историю

Но есть нюанс. Большие языковые модели обожают додумывать. Если в рукописи пятно — LLM аккуратно впишет туда "правильное" слово, которого в оригинале не было. И архивист, который доверился машинному переводу, будет цитировать фальшивку. Delegation Filter тут нужен как воздух: не пускать модель на пайплайн, где ошибка может войти в научный оборот. Обычно вешают детектор уверенности (confidence score) — если модель сомневается, возвращать человеку.

Недавнее исследование показало: 73% архивистов, которые используют LLM, хотя бы раз сталкивались с правкой несуществующих слов. И это не баг, а фича — модель просто работает так. Хотите точности — придётся дообучать на конкретный почерк, но это дорого.

Как не разориться на токенах

Каждая страница рукописи — это тысячи токенов. Если гнать весь фолиант в API ChatGPT, бюджет архива лопнет быстрее, чем монахи перепишут Библию. Поэтому умные ребята сначала режут документ на куски, кладут в векторную базу, потом ищут фрагменты через RAG — и только их отдают LLM. Когда 128К токенов не хватает, приходится дробить реликвию на смысловые куски, что само по себе — искусство. А ещё есть гибридные модели (вроде GLiNER), которые вытаскивают сущности без вызова гигантской LLM — на CPU и за копейки.

«Мы экономим не только деньги, но и время модели. Если нужно просто найти фамилию на странице — зачем теребить GPT-5?» — говорит Питер из отдела цифровых архивов Оксфорда. (И он, чёрт возьми, прав.)

Будущее: от распознавания к интерпретации

Сейчас архивисты не просто расшифровывают — они учат модели понимать контекст эпохи. LLM, обученная на корпусе переписки XVI века, может не только прочесть письмо, но и объяснить, почему автор использовал именно эту подпись — политический намёк или просто устал? ИИ-детекторы терпят крах — а вот исторические гипотезы моделей уже начинают проверять на настоящих фактах. Может, скоро ChatGPT станет соавтором научных статей по медиевистике? В Ватикане уже поговаривают: модель лучше знает, что хотел сказать автор, чем диссертант с 20-летним стажем.

Но есть и обратная сторона: эйфория вокруг LLM заканчивается даже в бизнесе, что уж говорить про консервативных академиков. Если модель ошибётся в дате — фальсифицируется вся хронология событий. Поэтому некоторые архивы принципиально не пускают LLM в «святая святых» — читальные залы. Пока есть люди, которые умеют читать по-латыни, машина остаётся помощником, а не диктатором.

Совет для тех, кто хочет попробовать: не начинайте с Ватикана. Возьмите один дневник прадедушки XIX века, отсканируйте, дайте ChatGPT-5 промпт: «Расшифруй рукописный текст, исправь ошибки, но не додумывай, если не уверен — отметь квадратными скобками». Удивитесь, сколько семейных тайн откроется.

От LeCun до GPT: мостик длиной в 30 лет

Yann LeCun мечтал, чтобы компьютер прочитал почтовые индексы. Он даже не представлял, что через три десятилетия нейросеть будет обсуждать с архивистом, насколько ироничен был тон письма королевы Елизаветы I. Технология перестала быть просто палочкой для распознавания — она стала культурным переводчиком. И хотя модели всё ещё уязвимы к невидимым символам и галлюцинациям, архивисты уже не представляют работы без этого странного симбиоза человека и машины, которая читает быстрее, но иногда сочиняет.

Так что, если вы думали, что LLM нужны только для написания курсовых и генерации котиков — вы сильно недооцениваете их потенциал. Они уже роются в пыльных архивах и вытаскивают на свет божий то, что люди прятали столетиями. Страшно представить, какие секреты модель найдёт завтра. — Только бы она их не придумала.

Подписаться на канал

Расшифровка веков: как архивисты превратили LLM в машину времени