Диффузионный OCR MinerU-Diffusion: ускорение парсинга PDF в 3 раза | GitHub, MLX | AiManual
AiManual Logo Ai / Manual.
27 Мар 2026 Инструмент

MinerU-Diffusion: как диффузионный OCR ускоряет парсинг PDF в 3 раза (код на GitHub, поддержка MLX)

Обзор MinerU-Diffusion на 27.03.2026: как диффузионный декодирование и поддержка MLX ускоряют OCR для парсинга PDF-файлов. Сравнение с Tesseract, EasyOCR, инстр

Ваш PDF-парсер все еще ползает? Пора менять двигатель

Вы загружаете отчет на 200 страниц, запускаете скрипт, идете за кофе, возвращаетесь... и видите, что прогресс-бар едва переполз за 10%. Знакомо? Классический OCR, будь то Tesseract 5.3.3 или даже свежий PaddleOCR с ppocr-v5, работает по принципу "медленно, но верно". А что, если верно, но в три раза быстрее?

На 27.03.2026 открытый фреймворк MinerU-Diffusion переворачивает представление об оптическом распознавании. Он не улучшает старый алгоритм – он использует диффузионные модели для декодирования текста прямо из визуальных представлений страниц. Результат: скорость обработки PDF вырастает в 2.5-3.2 раза на том же железе.

1Что сжирает время в обычном OCR?

Традиционный пайплайн: найти текст на изображении, сегментировать строки, распознать символы, собрать в слова, исправить ошибки. Каждый этап – отдельная модель или эвристика. Каждая коррекция – дополнительные вычисления. Локальный OCR для MacBook Pro показывает, как это бьет по производительности на потребительском железе.

MinerU-Diffusion делает финт: он смотрит на страницу как на целое и генерирует текст. Не распознает по кусочкам, а предсказывает наиболее вероятную последовательность символов, используя обученную диффузионную модель. Это похоже на то, как Stable Diffusion генерирует картинки, только на выходе – чистый текст с координатами bounding boxes.

MLX на Apple Silicon: где берутся лишние 200% скорости

Здесь кроется главный трюк. Фреймворк MLX от Apple (актуальная версия 2.1.0 на март 2026) оптимизирует вычисления для чипов M-series так, что матричные операции летают. MinerU-Diffusion использует MLX не как опцию, а как основу для инференса на Mac. Разработчики переписали критичные части кода под этот фреймворк.

💡
На M3 Max с 64 ГБ оперативной памяти тесты показывают обработку 100 страниц PDF за 41 секунду против 128 секунд у PaddleOCR с аналогичной точностью. Это не "немного быстрее". Это другой класс скорости для локальных RAG-систем.

Зачем это нужно? Представьте, что вы индексируете 4 миллиона PDF для поисковой системы. Разница в 3 раза – это месяцы против лет вычислений. Или просто возможность обрабатывать документы в реальном времени, а не пачками на ночь.

С кем воюет MinerU-Diffusion? Честное сравнение

ИнструментСкорость (стр./сек на M3)Точность (F1 на DocLayNet)Особенность
MinerU-Diffusion 1.22.40.94Диффузионное декодирование, MLX
PaddleOCR ppocr-v50.80.92Классический pipeline, многоязычный
EasyOCR 1.7.20.70.89Простота установки, 80+ языков
Tesseract 5.3.30.50.85Ветеран, сложные шрифты

Цифры говорят сами за себя. MinerU-Diffusion выигрывает в скорости, почти не теряя в точности. Но есть нюанс: он лучше всего работает на документах с четкой структурой – отчеты, финансовые выкладки, научные статьи. Для скринов мемов в Twitter или рукописных заметок стоит выбрать что-то другое.

Интересно, что проект вырос из MinerU – системы для парсинга SEC filings. Разработчики устали ждать, пока классический OCR обработает тысячи страниц финансовых отчетов, и создали свой велосипед. Который оказался гоночным болидом.

Как начать использовать? Не "установите 10 зависимостей", а одна команда

Самый приятный сюрприз – установка. Вместо танцев с pip, conda и компиляцией C++ библиотек, как в некоторых других решениях, здесь все сводится к:

pip install mineru-diffusion

Веса модели (основанной на Vision Transformer и диффузионном декодере) автоматически загружаются с Hugging Face Hub. Базовая модель весит около 1.4 ГБ. Если вы работаете с длинными PDF, можно использовать режим потоковой обработки, который не загружает весь документ в память.

Полный код, обучающие скрипты и датасеты для тонкой настройки лежат в открытом доступе на GitHub. Это не черный ящик: можно кастомизировать модель под свои типы документов, добавляя собственные данные в обучение.

2Кому это реально нужно? Три сценария

  • Юристы и финансисты, которые парсят сотни договоров и отчетов в день. Время – деньги, буквально.
  • Разработчики локальных RAG-систем. Когда ваш Ollama с Qwen3:8B ждет данных, а OCR их не успевает готовить.
  • Исследователи, работающие с научными архивами. Точность и скорость критичны для мета-анализа тысяч статей.

А вот если ваша задача – разовые конвертации пары сканов в Word, возможно, не стоит заморачиваться. Для этого хватит и онлайн-сервисов.

Под капотом: почему диффузия, а не трансформер?

Здесь начинается магия. Современные Vision-Language модели (например, та же архитектура, что в PDFiles) часто используют трансформер-декодеры для генерации текста. Диффузионные модели, которые доминируют в генерации изображений, в OCR до 2025 года применялись редко.

Идея в том, что процесс диффузии (последовательное удаление шума) лучше справляется с неоднозначностью в низкокачественных сканах. Модель учится восстанавливать текст из "зашумленного" визуального представления, что оказывается более устойчивым к артефактам сжатия, размытию и плохому освещению.

Технически, это требует больше тренировочных данных, но команда MinerU использовала тот же датасет FinePDFs, что и для предобучения больших языковых моделей. Миллионы разнообразных документов обеспечили устойчивость к разным шрифтам и макетам.

Важно: модель все еще хуже справляется с курсивными и декоративными шрифтами, чем тот же Tesseract с его 30-летним багажом эвристик. Для стандартных документов – идеально, для средневековых манускриптов – нет.

Что дальше? Разработчики обещают интеграцию с системами автоматического понимания документов (ADE), где OCR – только первый шаг. А еще – поддержку GPU NVIDIA через PyTorch, потому что MLX, при всей его эффективности на Mac, не единственная платформа в мире.

Прогноз на 2026-2027: диффузионные подходы станут стандартом для скоростного OCR в коммерческих продуктах. А те, кто продолжит цепляться за Tesseract, будут чувствовать себя как водители карбюраторных жигулей на фоне теслы.

Попробуйте MinerU-Diffusion на своем проекте. Если ваш пайплайн обработки документов не ускорится минимум вдвое – значит, вы и так уже использовали что-то очень продвинутое. Но такое бывает редко.

Подписаться на канал