Kreuzberg v4.5.0 — Rust-движок для Docling, тесты скорости +280% | AiManual
AiManual Logo Ai / Manual.
22 Мар 2026 Инструмент

Kreuzberg v4.5.0: как Rust выжал из Docling 280% скорости

Обзор Kreuzberg v4.5.0 — Rust-движок для Docling с интеграцией RT-DETR v2, бенчмарками 2.8x скорости и поддержкой 12 языков программирования.

💡
На момент публикации (22 марта 2026 года) Kreuzberg v4.5.0 — последняя стабильная версия. Движок использует RT-DETR v2 для OCR и показывает лучшую производительность среди open-source решений для извлечения текста из документов.

Что сломали в версии 4.5.0

Если вы до сих пор парсите документы через Docling на чистом Python и думаете, что 30 секунд на PDF — это нормально, Kreuzberg v4.5.0 заставит вас пересмотреть все. Релиз от 15 марта 2026 года — это не просто очередное обновление. Это полная переработка ядра на Rust с одной целью: разогнать обработку документов до неприличных скоростей.

Разработчики взяли Docling Heron — ту самую Python-библиотеку, которая уже считалась быстрой — и засунули ее в Rust-обертку. Результат? Обработка того же 50-страничного PDF теперь занимает не 12 секунд, а 4.3. И это без потери точности.

Чем новая версия бьет по конкурентам

Основное изменение в v4.5.0 — полный рефакторинг на Rust с использованием технологий из предыдущей версии Kreuzberg. Но теперь движок заточен под интеграцию с Docling как основным фронтендом.

Функция Kreuzberg v4.5.0 Чистый Docling Heron
Время обработки PDF (50 стр.) 4.3 секунды 12.1 секунды
Потребление памяти ~85 МБ ~210 МБ
Поддержка OCR-моделей RT-DETR v2, TrOCR, PaddleOCR TrOCR, базовый PaddleOCR
Языки программирования 12 через FFI Только Python

RT-DETR v2 — вот что действительно отличает этот релиз. Модель 2025 года для обнаружения текста работает в 1.7 раза быстрее предыдущих версий при той же точности. Если вы раньше использовали альтернативные инструменты вроде Tika или Unstructured, разница будет ощутима сразу.

Важно: Kreuzberg v4.5.0 не заменяет Docling, а ускоряет его. Вы продолжаете использовать знакомый Python API, но под капотом теперь работает Rust-движок. Миграция с чистого Docling занимает 10 минут — нужно просто заменить импорт и указать использовать Kreuzberg как бэкенд.

12 языков — или как встроить движок куда угодно

Здесь начинается самое интересное. Kreuzberg v4.5.0 экспортирует C API, которое обернули для 12 языков:

  • Python (основной, разумеется)
  • Node.js / JavaScript — теперь можно парсить документы прямо в Next.js приложениях
  • Go — для тех, кто строит высоконагруженные сервисы
  • Rust (нативный, без FFI)
  • Java и Kotlin — мобильная разработка на Android
  • C# и F# — .NET экосистема
  • Ruby — для Rails-приложений
  • PHP — да, даже здесь
  • Swift — iOS и macOS
  • Zig — для любителей экзотики

Представьте: вы пишете бэкенд на Go или Rust и вам нужно извлечь текст из тысяч сканов договоров. Раньше пришлось бы поднимать отдельный Python-микросервис. Теперь — ставите крейт или пакет и вызываете функцию. Все работает в одном процессе, без межпроцессного взаимодействия.

Где эта скорость реально нужна

Основной кейс — RAG-пайплайны. Если вы строите семантический поиск по документам, то 80% времени тратится на препроцессинг. PDF нужно распарсить, извлечь текст, разбить на чанки. С Kreuzberg v4.5.0 эта часть ускоряется в 2-3 раза.

Конкретные примеры из реального мира:

  • Юридические компании обрабатывают тысячи страниц судебных решений ежедневно
  • Финтех-стартапы парсят банковские выписки и финансовые отчеты
  • Исследовательские институты работают с научными PDF, где важны формулы и таблицы
  • Медицинские системы извлекают данные из сканированных историй болезней
💡
Если вы уже используете Docling в продакшене, переход на Kreuzberg v4.5.0 снизит затраты на инфраструктуру на 40-60%. Меньше памяти — больше экземпляров на одном сервере. Меньше времени обработки — ниже latency для пользователей.

Что все еще не идеально (спойлер: GPU)

При всех плюсах, есть нюансы. Kreuzberg v4.5.0 оптимизирован для CPU. Поддержка GPU есть, но работает через ONNX Runtime и не всегда дает ожидаемый прирост. На маленьких документах (1-5 страниц) overhead на копирование данных в VRAM может съесть всю выгоду.

Вторая проблема — размер. Rust-библиотека с собранными моделями RT-DETR v2 весит около 180 МБ. Для серверного использования нормально, но для мобильных приложений многовато. Разработчики обещают в v4.6.0 добавить возможность динамической загрузки моделей и поддержку квантованных версий.

Кому ставить, а кому подождать

Брать Kreuzberg v4.5.0 стоит прямо сейчас если:

  1. Вы обрабатываете больше 1000 документов в день и считаете каждую секунду
  2. Работаете не только с Python (нужны Node.js, Go, Rust биндинги)
  3. Строите RAG-системы и хотите ускорить пайплайн извлечения текста
  4. Уже используете Docling и хотите апгрейд без смены API

Подождать до v4.6.0 стоит если вы работаете на edge-устройствах (маленький RAM) или сильно зависите от GPU-ускорения. Также если ваши документы в основном простой текст без сканов — прирост будет, но не такой драматичный.

Личный прогноз: через год большинство open-source проектов для обработки документов перейдут на гибридную архитектуру (Python/Rust или Python/Go). Пример Crane (Rust-движок для ИИ) показывает, что эта тенденция уже работает в других областях.

Совет от практика: перед внедрением в продакшен обязательно протестируйте на своих документах. Скачайте демо-версию, запустите на 100-200 реальных файлах. Разные типы документов (сканы, цифровые PDF, фотографии) могут давать разный прирост производительности.

Kreuzberg v4.5.0 — это тот редкий случай, когда рефакторинг на Rust дает не 10-20%, а в 2-3 раза ускорение. Если вы до сих пор мучаетесь с медленным парсингом документов, самое время попробовать. Цена вопроса — один замененный импорт в коде.

Подписаться на канал