Насколько Kreuzberg v4.5.0 быстрее обычного Docling?

По официальным бенчмаркам на 50-страничных PDF — в 2.8 раза (4.3 секунды против 12.1). Потребление памяти снижается на ~60%.

Какие языки программирования поддерживает Kreuzberg v4.5.0?

Python, Node.js/JavaScript, Go, Rust, Java, Kotlin, C#, F#, Ruby, PHP, Swift и Zig через FFI-биндинги.

Нужно ли менять код при переходе с Docling на Kreuzberg?

Минимальные изменения: замена импорта и указание использовать Kreuzberg как бэкенд. Основной API остается совместимым.

Какие OCR-модели использует Kreuzberg v4.5.0?

RT-DETR v2 (основная, 2025 года), TrOCR и PaddleOCR. RT-DETR v2 работает в 1.7 раза быстрее предыдущих версий.

Kreuzberg v4.5.0 — Rust-движок для Docling, тесты скорости +280%

💡

На момент публикации (22 марта 2026 года) Kreuzberg v4.5.0 — последняя стабильная версия. Движок использует RT-DETR v2 для OCR и показывает лучшую производительность среди open-source решений для извлечения текста из документов.

Что сломали в версии 4.5.0

Если вы до сих пор парсите документы через Docling на чистом Python и думаете, что 30 секунд на PDF — это нормально, Kreuzberg v4.5.0 заставит вас пересмотреть все. Релиз от 15 марта 2026 года — это не просто очередное обновление. Это полная переработка ядра на Rust с одной целью: разогнать обработку документов до неприличных скоростей.

Разработчики взяли Docling Heron — ту самую Python-библиотеку, которая уже считалась быстрой — и засунули ее в Rust-обертку. Результат? Обработка того же 50-страничного PDF теперь занимает не 12 секунд, а 4.3. И это без потери точности.

Чем новая версия бьет по конкурентам

Основное изменение в v4.5.0 — полный рефакторинг на Rust с использованием технологий из предыдущей версии Kreuzberg. Но теперь движок заточен под интеграцию с Docling как основным фронтендом.

Функция	Kreuzberg v4.5.0	Чистый Docling Heron
Время обработки PDF (50 стр.)	4.3 секунды	12.1 секунды
Потребление памяти	~85 МБ	~210 МБ
Поддержка OCR-моделей	RT-DETR v2, TrOCR, PaddleOCR	TrOCR, базовый PaddleOCR
Языки программирования	12 через FFI	Только Python

RT-DETR v2 — вот что действительно отличает этот релиз. Модель 2025 года для обнаружения текста работает в 1.7 раза быстрее предыдущих версий при той же точности. Если вы раньше использовали альтернативные инструменты вроде Tika или Unstructured, разница будет ощутима сразу.

Важно: Kreuzberg v4.5.0 не заменяет Docling, а ускоряет его. Вы продолжаете использовать знакомый Python API, но под капотом теперь работает Rust-движок. Миграция с чистого Docling занимает 10 минут — нужно просто заменить импорт и указать использовать Kreuzberg как бэкенд.

12 языков — или как встроить движок куда угодно

Здесь начинается самое интересное. Kreuzberg v4.5.0 экспортирует C API, которое обернули для 12 языков:

Python (основной, разумеется)
Node.js / JavaScript — теперь можно парсить документы прямо в Next.js приложениях
Go — для тех, кто строит высоконагруженные сервисы
Rust (нативный, без FFI)
Java и Kotlin — мобильная разработка на Android
C# и F# — .NET экосистема
Ruby — для Rails-приложений
PHP — да, даже здесь
Swift — iOS и macOS
Zig — для любителей экзотики

Представьте: вы пишете бэкенд на Go или Rust и вам нужно извлечь текст из тысяч сканов договоров. Раньше пришлось бы поднимать отдельный Python-микросервис. Теперь — ставите крейт или пакет и вызываете функцию. Все работает в одном процессе, без межпроцессного взаимодействия.

Где эта скорость реально нужна

Основной кейс — RAG-пайплайны. Если вы строите семантический поиск по документам, то 80% времени тратится на препроцессинг. PDF нужно распарсить, извлечь текст, разбить на чанки. С Kreuzberg v4.5.0 эта часть ускоряется в 2-3 раза.

Конкретные примеры из реального мира:

Юридические компании обрабатывают тысячи страниц судебных решений ежедневно
Финтех-стартапы парсят банковские выписки и финансовые отчеты
Исследовательские институты работают с научными PDF, где важны формулы и таблицы
Медицинские системы извлекают данные из сканированных историй болезней

💡

Если вы уже используете Docling в продакшене, переход на Kreuzberg v4.5.0 снизит затраты на инфраструктуру на 40-60%. Меньше памяти — больше экземпляров на одном сервере. Меньше времени обработки — ниже latency для пользователей.

Что все еще не идеально (спойлер: GPU)

При всех плюсах, есть нюансы. Kreuzberg v4.5.0 оптимизирован для CPU. Поддержка GPU есть, но работает через ONNX Runtime и не всегда дает ожидаемый прирост. На маленьких документах (1-5 страниц) overhead на копирование данных в VRAM может съесть всю выгоду.

Вторая проблема — размер. Rust-библиотека с собранными моделями RT-DETR v2 весит около 180 МБ. Для серверного использования нормально, но для мобильных приложений многовато. Разработчики обещают в v4.6.0 добавить возможность динамической загрузки моделей и поддержку квантованных версий.

Кому ставить, а кому подождать

Брать Kreuzberg v4.5.0 стоит прямо сейчас если:

Вы обрабатываете больше 1000 документов в день и считаете каждую секунду
Работаете не только с Python (нужны Node.js, Go, Rust биндинги)
Строите RAG-системы и хотите ускорить пайплайн извлечения текста
Уже используете Docling и хотите апгрейд без смены API

Подождать до v4.6.0 стоит если вы работаете на edge-устройствах (маленький RAM) или сильно зависите от GPU-ускорения. Также если ваши документы в основном простой текст без сканов — прирост будет, но не такой драматичный.

Личный прогноз: через год большинство open-source проектов для обработки документов перейдут на гибридную архитектуру (Python/Rust или Python/Go). Пример Crane (Rust-движок для ИИ) показывает, что эта тенденция уже работает в других областях.

Совет от практика: перед внедрением в продакшен обязательно протестируйте на своих документах. Скачайте демо-версию, запустите на 100-200 реальных файлах. Разные типы документов (сканы, цифровые PDF, фотографии) могут давать разный прирост производительности.

Kreuzberg v4.5.0 — это тот редкий случай, когда рефакторинг на Rust дает не 10-20%, а в 2-3 раза ускорение. Если вы до сих пор мучаетесь с медленным парсингом документов, самое время попробовать. Цена вопроса — один замененный импорт в коде.

Подписаться на канал

Kreuzberg v4.5.0: как Rust выжал из Docling 280% скорости