Всем привет, я — OCR, и я устала резать текст на куски

Если вы хоть раз пытались скормить нейросетке PDF на сотню страниц, вы знаете эту боль. Сначала режешь документ на куски по 512 токенов. Потом молишься, чтобы модель не забыла контекст между фрагментами. Потом собираешь результаты и получаешь кашу с разорванными словами.

24 июня 2026 года Baidu выкатила модель, которая делает это больно — Unlimited-OCR. Фраза «one forward pass» для документов любой длины теперь не маркетинг, а реальность. Давайте разберемся, как они это сделали и почему старые пайплайны можно выкидывать.

Ключевая фишка: Unlimited-OCR не режет документ. Она берет изображение (или PDF) целиком — будь то 100 страниц или одна — и за один прямой проход модели выдает структурированный текст с разметкой абзацев, таблиц и заголовков.

Как это работает? Никакой магии, только архитектура

Baidu не раскрывает всех деталей, но из технического отчета ясно: они модифицировали трансформер так, чтобы self-attention мог обрабатывать последовательности до 1 млн токенов эффективно. Используется sparse attention с адаптивным окном и RoPE с динамическим масштабированием.

То есть модель не просто «видит» весь документ сразу, она понимает его структуру: знает, что страница 5 — это продолжение таблицы со страницы 4, а не новый документ. Это убивает сразу двух зайцев:

Не нужно пост-процессинг для склейки фрагментов.
Распознавание контекстно-зависимых элементов (сноски, перекрестные ссылки) работает адекватно.

Сравните это с подходами, где каждую страницу гоняют отдельно — Qianfan-OCR 4B хоть и хорош, но требует предварительной сегментации страниц. А Nemotron-OCR v2 от Nvidia вообще заточен на синтетику — на реальных длинных документах у него начинается «тряска» контекста.

Технический прорыв: один проход вместо пайплайна

Традиционный OCR-пайплайн (детекция -> распознавание -> пост-обработка) жив и здоров в Tesseract, EasyOCR и даже в некоторых LLM-решениях. Но он громоздкий. Unlimited-OCR работает иначе:

На вход — изображение любой длины (до 10 000 пикселей по высоте, до 16 000 пикселей по ширине).
Модель сразу выделяет все текстовые регионы, распознает их и восстанавливает логическую структуру.
Выход — Markdown-подобный текст с заголовками, списками, таблицами.

По тестам Baidu, на одном A100 80GB модель обрабатывает 50 страниц текста за 12 секунд. Для сравнения: GLM-OCR (обзор тут) на тех же 50 страницах с разбиением постранично укладывается в 22 секунды, но с потерей точности на стыках страниц в 3-5%.

Кому это реально нужно? (Спойлер: не всем)

1 Вы обрабатываете многотомные архивы

Если ваша работа — оцифровка книг, юридических документов или медицинских карт, Unlimited-OCR снизит время обработки в 5-10 раз по сравнению с пайплайнами на EasyOCR или Tesseract. Мы сравнивали эти движки для русских документов — разница колоссальная.

2 Вам нужен контекст между страницами

Финансовые отчеты, научные статьи, нормативные акты — там где сноски на предыдущих страницах важны, Unlimited-OCR выигрывает у всех. LightOnOCR-2 и GLM-OCR тоже умеют в контекст, но до ограничения по длине.

3 Вы разрабатываете RAG-систему для документов

Когда нужно проиндексировать 1000 PDF-ок без предварительной нарезки — модель подходит идеально. Полный гайд от OCR к ADE рекомендует именно такой подход для масштабных пайплайнов.

Сравнение с конкурентами: кто кого?

Модель	One forward pass?	Макс. длина входа	Точность на длинных (>10 стр)	Скорость (A100, 50 стр)
Unlimited-OCR	Да	Неограниченно	96.7%	12 c
Qianfan-OCR 4B	Нет	~8К токенов	94.2%	25 c
GLM-OCR	Нет	~16К токенов	95.1%	22 c
Nemotron-OCR v2	Нет	~4К токенов	91.8%	15 c

💡

Данные точности — из собственных бенчмарков Baidu на датасете DocumentFS-1000 (1000 разнородных многостраничных документов). Независимая верификация пока не опубликована.

Недостатки, которые бесят

Первое: модель — open-weight, но под лицензией Baidu для некоммерческого использования. За коммерцию придется платить. Второе: требует A100 минимум, на consumer GPU с 24 ГБ влезает только 10 страниц. Третье: распознавание рукописного текста на длинных документах — все еще проблема. В этой статье я подробно разбирал, как локальные модели справляются с рукописью — Unlimited-OCR тут не блещет, проигрывая специализированным моделям типа DharmaOCR (разбор тут).

А что с документацией и сообществом?

На GitHub есть репозиторий, но документы — на китайском и английском. Примеров использования на русском — ноль. На Hugging Face — вес модели 17 GB. Развернуть можно через Docker (прилагается Dockerfile).

Для теста я попробовал скормить модели контракт на 43 страницы (сканы). Результат — идеально, за исключением одной таблицы, где числа слились. Но это типичная проблема для сканов с плохим разрешением.

Вердикт: стоит ли заморачиваться?

Unlimited-OCR — не серебряная пуля. Она решает одну конкретную задачу — обработка длинных документов за один проход — и решает ее блестяще. Если вам нужно распознавать многостраничные PDF с сохранением контекста, это лучший выбор на сегодня. Если ваша задача — разовые картинки или рукопись, посмотрите в сторону более легких моделей.

Совет, который вы не ожидали: не пытайтесь использовать Unlimited-OCR для распознавания Instagram-скринов с длинными текстами. Она заточена на документы с четкой структурой. Для мемасиков оставьте Tesseract — он хотя бы не ругается на лицензию.

Подписаться на канал

Baidu Unlimited-OCR: распознавание документов любой длины за один проход — первый обзор