Зачем еще один бенчмарк? Потому что цифры в 2026 году лгут
Каждый второй гайд по конвертации PDF в Markdown предлагает "просто использовать Marker" или "запустить PaddleOCR". Никто не говорит, сколько это реально стоит в долларах за час GPU, сколько времени убьет на настройку, и сломается ли все на PDF с формулами. Мы взяли три главных претендента на 2026 год, загрузили их на разные GPU в Modal и прогнали через адский тестовый набор: научные статьи, технические руководства, сканы с шумами и таблицы с объединенными ячейками. Результаты вас удивят. А некоторых разозлят.
Важно: Все тесты проводились 18-20 февраля 2026 года. Версии инструментов: PaddleOCR-VL 2.8.1, Marker (datalab) commit `a1f2c8d`, PP-StructureV3 (в составе PaddleOCR 2.8.1). Рынок меняется быстро - через полгода картина может быть другой.
Кандидаты на бойне: кто они и зачем пришли
Не будем растекаться мыслью. Вот три инструмента, которые все обсуждают в 2026:
- PaddleOCR-VL: Прямой наследник классического PaddleOCR, но с добавлением моделей Vision-Language для лучшего понимания контекста. Умеет не просто распознавать текст, но и "понимать" структуру документа. О нем мы уже писали в контексте мультиязычного OCR без GPU. Теперь посмотрим на него в полной боевой комплектации.
- Marker (от datalab): Новый фаворит сообщества. Написан на Python, позиционируется как простой и быстрый. Использует под капотом комбинацию детектора макета (YOLO-based) и OCR движка (Tesseract или собственный). Главный козырь - якобы "идеальное" сохранение разметки Markdown.
- PP-StructureV3: Специализированный пайплайн от создателей PaddleOCR именно для анализа структуры документов (Document Structure Analysis - DSA). Отдельная модель для таблиц, отдельная для заголовков, отдельная для текста. Монстр, который требует много ресурсов, но обещает высочайшую точность.
Методология: как мы мерили и что ломалось
Мы не просто запустили `time python convert.py`. Мы эмулировали реальную рабочую нагрузку.
| Тестовый документ | Страниц | Особенности | Цель теста |
|---|---|---|---|
| Научная статья (arXiv PDF) | 12 | Математические формулы, библиография, двухколоночный layout | Проверка распознавания формул и сложной структуры |
| Технический мануал (сканированный) | 8 | Черно-белый скан, шумы, таблицы с объединенными ячейками | Устойчивость к плохому качеству изображения |
| Финансовый отчет | 25 | Много сложных таблиц, цифры, мелкий шрифт | Точность таблиц и числовых данных |
| Книжная глава | 45 | Сплошной текст, сноски, иерархия заголовков | Скорость обработки объемных документов |
Железо в Modal: A100 40GB, V100 16GB, T4 16GB. Для каждого инструмента - свой Docker-образ с предустановленными зависимостями. Замеряли не только общее время, но и: время до первого токена (startup latency), потребление памяти, качество выходного Markdown (ручная оценка по 5-балльной шкале).
Стоимость тестов: 2 часа на A100 в Modal в феврале 2026 года обошлись примерно в $12. V100 - около $6. T4 - $3. Имейте это в виду, когда планируете обработку тысяч документов.
Цифры, от которых плачут глаза: результаты бенчмарка
| Инструмент / GPU | Среднее время на страницу (с) | Пик памяти (GB) | Качество Markdown (1-5) | Формулы | Таблицы |
|---|---|---|---|---|---|
| PaddleOCR-VL (A100) | 4.2 | 8.1 | 4.2 | Хорошо | Отлично |
| PaddleOCR-VL (V100) | 6.8 | 7.9 | 4.2 | Хорошо | Отлично |
| Marker (A100) | 1.8 | 3.5 | 3.5 | Плохо | Удовлетворительно |
| Marker (T4) | 2.3 | 3.4 | 3.5 | Плохо | Удовлетворительно |
| PP-StructureV3 (A100) | 7.5 | 11.3 | 4.5 | Отлично | Отлично |
| PP-StructureV3 (V100) | 12.1 | 11.1 | 4.5 | Отлично | Отлично |
Смотрите на эти цифры. Marker в 2-4 раза быстрее всех. Но качество Markdown - на балл ниже. Он часто путает заголовки, теряет форматирование формул (просто выбрасывает их или оставляет как картинки), а таблицы превращает в кашу, если там есть объединенные ячейки.
PP-StructureV3 - качество на высоте, но скорость... 7.5 секунд на страницу на A100! Это неприлично много для батчевой обработки. Зато формулы распознает в LaTeX, таблицы сохраняет с идеальной структурой, иерархию заголовков соблюдает.
PaddleOCR-VL - золотая середина? Не совсем. Скорость средняя, качество ближе к PP-StructureV3, но с памятью есть нюансы (об этом ниже).
Подводные камни, которые не показывают в туториалах
1 Установка Marker: "pip install" - это ложь
Каждый второй туториал говорит: "pip install marker-pdf". В феврале 2026 года это приводит к ошибке совместимости с CUDA 12.4. Реальная последовательность действий:
# Так НЕ работает:
pip install marker-pdf
# А так работает (проверено 20.02.2026):
git clone https://github.com/datalab-dev/marker
cd marker
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124
pip install -e .
# И еще нужно вручную скачать модели yolox...
На это уходит 40 минут. И нет, Docker-образ от авторов не всегда помогает - часто он собран на старой версии CUDA.
2 PaddleOCR-VL и жадная память
Инструмент работает стабильно, но у него странное поведение с памятью. На первых 10 страницах - 8 GB. На 11-й - внезапный скачок до 14 GB, если попадается сложная таблица. На V100 с его 16 GB это критично. На T4 - просто падение с OutOfMemory. В логах - ничего полезного, просто "Killed".
3 PP-StructureV3: цена качества
7.5 секунд на страницу - это если документ простой. На финансовом отчете с 25 сложными таблицами время взлетает до 15 секунд на страницу. A100 стоит $6 в час. Одна страница - $0.025. Тысяча страниц - $25. Плюс время. Альтернатива? Вручную перепечатывать? Смешно.
Так что же выбрать в 2026 году? Мой вердикт
Все зависит от задачи. Как в том нашем сравнении моделей для анализа документов - нет серебряной пули.
- Нужно быстро обработать 1000 простых PDF (текст, без формул)? Marker на T4. Дешево, сердито, качество приемлемое. Готовьтесь к ручной пост-обработке таблиц.
- Научные статьи с формулами, важна точность? PP-StructureV3 на A100. Дорого, медленно, но формулы будут в LaTeX, а ссылки - в правильном формате. Для единичных документов - идеально.
- Баланс скорости и качества для mixed-контента? PaddleOCR-VL на V100. Но мониторьте память. И имейте запасной вариант на случай падения.
Есть еще один путь - гибридный подход. Использовать Marker для быстрой первичной обработки и определения сложных страниц (те, где есть формулы или сложные таблицы). Эти страницы потом отправлять в PP-StructureV3. Реализовать такое пайплайн - еще 80 часов работы. Но для продакшена, обрабатывающего десятки тысяч PDF в месяц, это может окупиться.
Что будет дальше? Прогноз на 2027
Судя по активности в репозиториях, все три инструмента активно развиваются. Marker обещает в ближайшем релизе добавить поддержку формул через интеграцию с MathPix API (но это платно). PaddleOCR-VL работает над снижением потребления памяти. PP-StructureV4 уже в разработке - обещают ускорение в 2 раза за счет новой архитектуры модели.
Мой совет на 2026: не закладывайтесь на один инструмент в архитектуре. Сделайте абстракцию, позволяющую легко переключаться между движками. И обязательно тестируйте на своих реальных данных, а не на "примерных PDF из интернета". Разница может быть драматической.
Главная ошибка новичков: Выбрать инструмент по максимальному количеству звезд на GitHub. Marker звезд набирает быстрее всех - у него красивый README и простые примеры. Но в продакшене вы столкнетесь с проблемами, которых нет в примерах. Всегда тестируйте на самых сложных своих документах.
Что касается облачных API вроде Azure Document Intelligence или Google Document AI - они часто дают лучшее качество, но цена в 3-5 раз выше, чем свой инференс на Modal. И есть вопросы с приватностью данных. Для стартапа с небольшим объемом - может, и вариант. Для компании с тысячами конфиденциальных документов - только свое.
А теперь идите и тестируйте. Цифры в этой статье - отправная точка, а не истина в последней инстанции. Ваши PDF могут вести себя иначе. И да, держите под рукой скрипт для обработки длинных документов - он пригодится, когда один из инструментов упадет на 131-й странице.