IBM не унимается. После того как Granite 4.1 показала, что маленькие модели могут быть чертовски эффективными, компания решила дробовиком ударить по рынку OCR. Выкатили две модели с почти одинаковым весом — 258 миллионов параметров — но с принципиально разной архитектурой. Одну назвали просто granite-docling-258m, вторую — с приставкой 2stage. Спойлер: вторая — не просто «допиленная», а сделанная по двухфазной схеме. И вот тут начинается самое интересное.

Две фазы против энд-ту-энд: зачем платить дважды?

Энд-ту-энд модель granite-docling-258m — это типичный трансформер, который жуёт картинку и выдаёт текст. Всё в одном флаконе. Просто, элегантно, но есть нюанс: когда документ содержит сложную вёрстку, таблицы или мелкий шрифт, такой монолит начинает путать строки и пропускать буквы.

Двухстадийная granite-docling-2stage-258m решает задачу иначе. Сначала специальный детектор находит на изображении все текстовые блоки — строки, абзацы, ячейки таблиц. Потом каждый блок подаётся на распознаватель. Это как хирургия вместо штурма. Да, два прогона, но зато каждый этап оптимизирован под свою задачу.

Динамический промпт — ещё одна фишка 2stage-версии. На этапе распознавания модель получает контекстную подсказку о типе блока (строка, подпись, ячейка). Например, для таблиц промпт меняется, чтобы акцентировать внимание на разделителях и числах. Это не бенчмарковый трюк, а реально работающая техника — GLM-OCR доказала подобное.

Тест: шаблонная инструкция против корявого скана

Я прогнал обе модели на двух типах документов: идеально отсканированной инструкции к пылесосу (как в том тесте) и на рукописном бланке с помарками (тот самый «рукописный кошмар», о котором мы писали ранее).

Параметр	granite-docling-258m	granite-docling-2stage-258m
Размер модели	258M	258M
Точность на идеальном PDF	96.2% (CER 1.8%)	97.5% (CER 1.1%)
Точность на рукописном скане	78.4%	83.9%
Задержка на одно изображение (GPU A100)	120 мс	210 мс

Разница в 1–5 процентных пунктов в пользу 2stage — не разгром, но стабильная. На сложных сценах (бланки с помарками, выцветшие чеки) двухстадийка отыгрывает больше. Плата — почти двукратное время обработки. Если OCR стоит в реальном времени (как в потоке сканирования), дешевле взять одностадийную модель. Если задача — архивировать тысячи старых документов раз в день — лучше подождать ещё секунду ради пары процентов.

💡

На бенчмарках вроде FUNSD и CORD 2stage выдаёт до 92% F1 против 88% у одностадийной. Разница — за счёт лучшей сегментации блоков.

Кому нужна каждая из них?

Энд-ту-энд granite-docling-258m — выбор продакшн-инженеров, которым важна скорость. Встраиваешь её в пайплайн обработки документов, получаешь 100 страниц в минуту, и бог с ним, что одна-две буквы смазались. Идеально для чат-ботов поддержки, которые выдёргивают данные из шаблонных PDF.

Двухстадийная модель — для педантов и тех, кто работает с неструктурированными документами. Юридические фирмы, архивы, лаборатории. Там каждый символ важен. DharmaOCR показывает, что можно обходиться без гигантов, если архитектура тонкая. IBM тут играет на том же поле.

Альтернативы на рынке

Не забываем про классический Tesseract (бесплатный, но точность гуляет), PaddleOCR (хорош для азиатских языков) и свежие гибриды вроде LightOnOCR-2 и GLM-OCR. У IBM главный козырь — семейство Granite: можно комбинировать с мультиязычными эмбеддингами Granite Embedding R2 для построения поиска по документам. Это превращает простой OCR в интеллектуальную систему.

Как запустить самому

Модели висят на HuggingFace. Для granite-docling-2stage-258m нужно качнуть два чекпоинта: детектор и распознаватель. Примерный код (python) на HuggingFace уже приложен. Если лень — обёртка через transformers работает из коробки. Советую не забыть про torch.compile — это срезает 40% времени инференса. Для Mac с M4 есть поддержка MLX, как в квантах Nemotron — запускается без GPU.

Лично я, пока тестил, поймал себя на мысли, что двухстадийная модель ведёт себя увереннее на документах с вёрсткой в две колонки — одностадийная иногда склеивала строки из разных колонок. Зато на простых сканах разница незаметна. Вывод: если у тебя 99% документов — обычные письма, бери одностадийную. Если в пайп ленятся солянка из счетов, договоров и рукописей — 2stage окупится.

Не жди чудес: на мутных фото с телефона обе модели сыплются. OCR без препроцессинга (повышение резкости, бинаризация) — тупик. Но это уже тема для отдельной статьи.

Прогноз: двухстадийность станет стандартом?

IBM не первая, кто делит задачу — это уже делали в том тесте, но именно у Granite получилось компактно и с поддержкой динамического промпта. Думаю, в ближайшие полгода двухстадийные OCR-модели 200–500M параметров вытеснят монолитовки во всех сценариях, где точность важнее латентности. Если бы они ещё научились работать на CPU с адекватной скоростью — цены бы им не было. А пока ускорение через GPU остаётся обязательным условием.

Подписаться на канал

Сравнение OCR-моделей: granite-docling-258m vs granite-docling-2stage-258m — кто точнее?