Зачем еще один бенчмарк? Потому что цифры в 2026 году лгут

Каждый второй гайд по конвертации PDF в Markdown предлагает "просто использовать Marker" или "запустить PaddleOCR". Никто не говорит, сколько это реально стоит в долларах за час GPU, сколько времени убьет на настройку, и сломается ли все на PDF с формулами. Мы взяли три главных претендента на 2026 год, загрузили их на разные GPU в Modal и прогнали через адский тестовый набор: научные статьи, технические руководства, сканы с шумами и таблицы с объединенными ячейками. Результаты вас удивят. А некоторых разозлят.

Важно: Все тесты проводились 18-20 февраля 2026 года. Версии инструментов: PaddleOCR-VL 2.8.1, Marker (datalab) commit `a1f2c8d`, PP-StructureV3 (в составе PaddleOCR 2.8.1). Рынок меняется быстро - через полгода картина может быть другой.

Кандидаты на бойне: кто они и зачем пришли

Не будем растекаться мыслью. Вот три инструмента, которые все обсуждают в 2026:

PaddleOCR-VL: Прямой наследник классического PaddleOCR, но с добавлением моделей Vision-Language для лучшего понимания контекста. Умеет не просто распознавать текст, но и "понимать" структуру документа. О нем мы уже писали в контексте мультиязычного OCR без GPU. Теперь посмотрим на него в полной боевой комплектации.
Marker (от datalab): Новый фаворит сообщества. Написан на Python, позиционируется как простой и быстрый. Использует под капотом комбинацию детектора макета (YOLO-based) и OCR движка (Tesseract или собственный). Главный козырь - якобы "идеальное" сохранение разметки Markdown.
PP-StructureV3: Специализированный пайплайн от создателей PaddleOCR именно для анализа структуры документов (Document Structure Analysis - DSA). Отдельная модель для таблиц, отдельная для заголовков, отдельная для текста. Монстр, который требует много ресурсов, но обещает высочайшую точность.

Методология: как мы мерили и что ломалось

Мы не просто запустили `time python convert.py`. Мы эмулировали реальную рабочую нагрузку.

Тестовый документ	Страниц	Особенности	Цель теста
Научная статья (arXiv PDF)	12	Математические формулы, библиография, двухколоночный layout	Проверка распознавания формул и сложной структуры
Технический мануал (сканированный)	8	Черно-белый скан, шумы, таблицы с объединенными ячейками	Устойчивость к плохому качеству изображения
Финансовый отчет	25	Много сложных таблиц, цифры, мелкий шрифт	Точность таблиц и числовых данных
Книжная глава	45	Сплошной текст, сноски, иерархия заголовков	Скорость обработки объемных документов

Железо в Modal: A100 40GB, V100 16GB, T4 16GB. Для каждого инструмента - свой Docker-образ с предустановленными зависимостями. Замеряли не только общее время, но и: время до первого токена (startup latency), потребление памяти, качество выходного Markdown (ручная оценка по 5-балльной шкале).

Стоимость тестов: 2 часа на A100 в Modal в феврале 2026 года обошлись примерно в $12. V100 - около $6. T4 - $3. Имейте это в виду, когда планируете обработку тысяч документов.

Цифры, от которых плачут глаза: результаты бенчмарка

Инструмент / GPU	Среднее время на страницу (с)	Пик памяти (GB)	Качество Markdown (1-5)	Формулы	Таблицы
PaddleOCR-VL (A100)	4.2	8.1	4.2	Хорошо	Отлично
PaddleOCR-VL (V100)	6.8	7.9	4.2	Хорошо	Отлично
Marker (A100)	1.8	3.5	3.5	Плохо	Удовлетворительно
Marker (T4)	2.3	3.4	3.5	Плохо	Удовлетворительно
PP-StructureV3 (A100)	7.5	11.3	4.5	Отлично	Отлично
PP-StructureV3 (V100)	12.1	11.1	4.5	Отлично	Отлично

Смотрите на эти цифры. Marker в 2-4 раза быстрее всех. Но качество Markdown - на балл ниже. Он часто путает заголовки, теряет форматирование формул (просто выбрасывает их или оставляет как картинки), а таблицы превращает в кашу, если там есть объединенные ячейки.

PP-StructureV3 - качество на высоте, но скорость... 7.5 секунд на страницу на A100! Это неприлично много для батчевой обработки. Зато формулы распознает в LaTeX, таблицы сохраняет с идеальной структурой, иерархию заголовков соблюдает.

PaddleOCR-VL - золотая середина? Не совсем. Скорость средняя, качество ближе к PP-StructureV3, но с памятью есть нюансы (об этом ниже).

Подводные камни, которые не показывают в туториалах

1 Установка Marker: "pip install" - это ложь

Каждый второй туториал говорит: "pip install marker-pdf". В феврале 2026 года это приводит к ошибке совместимости с CUDA 12.4. Реальная последовательность действий:

# Так НЕ работает:
pip install marker-pdf

# А так работает (проверено 20.02.2026):
git clone https://github.com/datalab-dev/marker
cd marker
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124
pip install -e .
# И еще нужно вручную скачать модели yolox...

На это уходит 40 минут. И нет, Docker-образ от авторов не всегда помогает - часто он собран на старой версии CUDA.

2 PaddleOCR-VL и жадная память

Инструмент работает стабильно, но у него странное поведение с памятью. На первых 10 страницах - 8 GB. На 11-й - внезапный скачок до 14 GB, если попадается сложная таблица. На V100 с его 16 GB это критично. На T4 - просто падение с OutOfMemory. В логах - ничего полезного, просто "Killed".

💡

Решение: при обработке длинных документов (как в нашем тесте на 45 страниц) нужно принудительно ограничивать batch size и периодически вызывать torch.cuda.empty_cache(). В PaddleOCR-VL этой опции нет в стандартных аргументах - нужно лезть в код.

3 PP-StructureV3: цена качества

7.5 секунд на страницу - это если документ простой. На финансовом отчете с 25 сложными таблицами время взлетает до 15 секунд на страницу. A100 стоит $6 в час. Одна страница - $0.025. Тысяча страниц - $25. Плюс время. Альтернатива? Вручную перепечатывать? Смешно.

Так что же выбрать в 2026 году? Мой вердикт

Все зависит от задачи. Как в том нашем сравнении моделей для анализа документов - нет серебряной пули.

Нужно быстро обработать 1000 простых PDF (текст, без формул)? Marker на T4. Дешево, сердито, качество приемлемое. Готовьтесь к ручной пост-обработке таблиц.
Научные статьи с формулами, важна точность? PP-StructureV3 на A100. Дорого, медленно, но формулы будут в LaTeX, а ссылки - в правильном формате. Для единичных документов - идеально.
Баланс скорости и качества для mixed-контента? PaddleOCR-VL на V100. Но мониторьте память. И имейте запасной вариант на случай падения.

Есть еще один путь - гибридный подход. Использовать Marker для быстрой первичной обработки и определения сложных страниц (те, где есть формулы или сложные таблицы). Эти страницы потом отправлять в PP-StructureV3. Реализовать такое пайплайн - еще 80 часов работы. Но для продакшена, обрабатывающего десятки тысяч PDF в месяц, это может окупиться.

Что будет дальше? Прогноз на 2027

Судя по активности в репозиториях, все три инструмента активно развиваются. Marker обещает в ближайшем релизе добавить поддержку формул через интеграцию с MathPix API (но это платно). PaddleOCR-VL работает над снижением потребления памяти. PP-StructureV4 уже в разработке - обещают ускорение в 2 раза за счет новой архитектуры модели.

Мой совет на 2026: не закладывайтесь на один инструмент в архитектуре. Сделайте абстракцию, позволяющую легко переключаться между движками. И обязательно тестируйте на своих реальных данных, а не на "примерных PDF из интернета". Разница может быть драматической.

Главная ошибка новичков: Выбрать инструмент по максимальному количеству звезд на GitHub. Marker звезд набирает быстрее всех - у него красивый README и простые примеры. Но в продакшене вы столкнетесь с проблемами, которых нет в примерах. Всегда тестируйте на самых сложных своих документах.

Что касается облачных API вроде Azure Document Intelligence или Google Document AI - они часто дают лучшее качество, но цена в 3-5 раз выше, чем свой инференс на Modal. И есть вопросы с приватностью данных. Для стартапа с небольшим объемом - может, и вариант. Для компании с тысячами конфиденциальных документов - только свое.

А теперь идите и тестируйте. Цифры в этой статье - отправная точка, а не истина в последней инстанции. Ваши PDF могут вести себя иначе. И да, держите под рукой скрипт для обработки длинных документов - он пригодится, когда один из инструментов упадет на 131-й странице.

PDF-to-Markdown: итоги бенчмарка трёх инструментов на разных GPU (PaddleOCR-VL, Marker, PP-StructureV3)