Что сломали в версии 4.5.0
Если вы до сих пор парсите документы через Docling на чистом Python и думаете, что 30 секунд на PDF — это нормально, Kreuzberg v4.5.0 заставит вас пересмотреть все. Релиз от 15 марта 2026 года — это не просто очередное обновление. Это полная переработка ядра на Rust с одной целью: разогнать обработку документов до неприличных скоростей.
Разработчики взяли Docling Heron — ту самую Python-библиотеку, которая уже считалась быстрой — и засунули ее в Rust-обертку. Результат? Обработка того же 50-страничного PDF теперь занимает не 12 секунд, а 4.3. И это без потери точности.
Чем новая версия бьет по конкурентам
Основное изменение в v4.5.0 — полный рефакторинг на Rust с использованием технологий из предыдущей версии Kreuzberg. Но теперь движок заточен под интеграцию с Docling как основным фронтендом.
| Функция | Kreuzberg v4.5.0 | Чистый Docling Heron |
|---|---|---|
| Время обработки PDF (50 стр.) | 4.3 секунды | 12.1 секунды |
| Потребление памяти | ~85 МБ | ~210 МБ |
| Поддержка OCR-моделей | RT-DETR v2, TrOCR, PaddleOCR | TrOCR, базовый PaddleOCR |
| Языки программирования | 12 через FFI | Только Python |
RT-DETR v2 — вот что действительно отличает этот релиз. Модель 2025 года для обнаружения текста работает в 1.7 раза быстрее предыдущих версий при той же точности. Если вы раньше использовали альтернативные инструменты вроде Tika или Unstructured, разница будет ощутима сразу.
Важно: Kreuzberg v4.5.0 не заменяет Docling, а ускоряет его. Вы продолжаете использовать знакомый Python API, но под капотом теперь работает Rust-движок. Миграция с чистого Docling занимает 10 минут — нужно просто заменить импорт и указать использовать Kreuzberg как бэкенд.
12 языков — или как встроить движок куда угодно
Здесь начинается самое интересное. Kreuzberg v4.5.0 экспортирует C API, которое обернули для 12 языков:
- Python (основной, разумеется)
- Node.js / JavaScript — теперь можно парсить документы прямо в Next.js приложениях
- Go — для тех, кто строит высоконагруженные сервисы
- Rust (нативный, без FFI)
- Java и Kotlin — мобильная разработка на Android
- C# и F# — .NET экосистема
- Ruby — для Rails-приложений
- PHP — да, даже здесь
- Swift — iOS и macOS
- Zig — для любителей экзотики
Представьте: вы пишете бэкенд на Go или Rust и вам нужно извлечь текст из тысяч сканов договоров. Раньше пришлось бы поднимать отдельный Python-микросервис. Теперь — ставите крейт или пакет и вызываете функцию. Все работает в одном процессе, без межпроцессного взаимодействия.
Где эта скорость реально нужна
Основной кейс — RAG-пайплайны. Если вы строите семантический поиск по документам, то 80% времени тратится на препроцессинг. PDF нужно распарсить, извлечь текст, разбить на чанки. С Kreuzberg v4.5.0 эта часть ускоряется в 2-3 раза.
Конкретные примеры из реального мира:
- Юридические компании обрабатывают тысячи страниц судебных решений ежедневно
- Финтех-стартапы парсят банковские выписки и финансовые отчеты
- Исследовательские институты работают с научными PDF, где важны формулы и таблицы
- Медицинские системы извлекают данные из сканированных историй болезней
Что все еще не идеально (спойлер: GPU)
При всех плюсах, есть нюансы. Kreuzberg v4.5.0 оптимизирован для CPU. Поддержка GPU есть, но работает через ONNX Runtime и не всегда дает ожидаемый прирост. На маленьких документах (1-5 страниц) overhead на копирование данных в VRAM может съесть всю выгоду.
Вторая проблема — размер. Rust-библиотека с собранными моделями RT-DETR v2 весит около 180 МБ. Для серверного использования нормально, но для мобильных приложений многовато. Разработчики обещают в v4.6.0 добавить возможность динамической загрузки моделей и поддержку квантованных версий.
Кому ставить, а кому подождать
Брать Kreuzberg v4.5.0 стоит прямо сейчас если:
- Вы обрабатываете больше 1000 документов в день и считаете каждую секунду
- Работаете не только с Python (нужны Node.js, Go, Rust биндинги)
- Строите RAG-системы и хотите ускорить пайплайн извлечения текста
- Уже используете Docling и хотите апгрейд без смены API
Подождать до v4.6.0 стоит если вы работаете на edge-устройствах (маленький RAM) или сильно зависите от GPU-ускорения. Также если ваши документы в основном простой текст без сканов — прирост будет, но не такой драматичный.
Личный прогноз: через год большинство open-source проектов для обработки документов перейдут на гибридную архитектуру (Python/Rust или Python/Go). Пример Crane (Rust-движок для ИИ) показывает, что эта тенденция уже работает в других областях.
Совет от практика: перед внедрением в продакшен обязательно протестируйте на своих документах. Скачайте демо-версию, запустите на 100-200 реальных файлах. Разные типы документов (сканы, цифровые PDF, фотографии) могут давать разный прирост производительности.
Kreuzberg v4.5.0 — это тот редкий случай, когда рефакторинг на Rust дает не 10-20%, а в 2-3 раза ускорение. Если вы до сих пор мучаетесь с медленным парсингом документов, самое время попробовать. Цена вопроса — один замененный импорт в коде.