Почему 99% точности в ипотеке — это катастрофа?

Вы запускаете OCR-пайплайн на тестовых PDF. Получаете 99.2% точности на чистых документах. Празднуете. А потом приходит первый реальный кейс: отсканированный Form 1003 с пятном от кофе на поле 'Annual Income', рукописная цифра '7', похожая на '1', и подпись, залезающая на поле 'Social Security Number'. Ваша система уверенно извлекает доход $1000 вместо $7000. Клиент получает отказ в ипотеке. Начинается суд.

В ипотеке 99% точности — это не успех. Это 1% катастроф. Одна ошибка на сто документов — это десятки миллионов рублей убытков, репутационный удар и регуляторные штрафы.

Типичный подход — взять готовый OCR-сервис вроде Unstructured и надеяться на лучшее — здесь не работает. Ипотечные документы (Form 1003, W-2, банковские выписки, налоговые формы) имеют жесткую структуру, но бесконечные вариации в качестве сканирования, заполнении и версиях.

Сломанный фундамент: почему общие OCR-модели не подходят

GPT-4o Vision или Claude 3.5 Sonnet отлично читают текст с картинки. Но они не понимают, что поле 'Borrower's Name' на странице 3 Form 1003 должно точно совпадать с 'Applicant Name' на странице 1. Они не знают, что цифры в поле 'Monthly Income' не могут быть отрицательными. Они не видят разницы между штампом 'CONFIDENTIAL' и самими данными.

💡

Layout-aware extraction — это не просто распознать текст, а понять его семантическую роль в документе. Поле 'Address' — это не просто строка текста где-то на странице. Это данные, которые должны находиться в определенной ячейке таблицы, связанные с конкретным заемщиком, и прошедшие проверку на валидность (например, существующий ZIP-код).

В 2026 году Mistral OCR 3 и Qianfan-OCR 4B показывают феноменальные результаты на общих задачах. Но для ипотеки нужна специализированная архитектура, где каждая модель отвечает за свою часть работы, а их результаты перепроверяются через систему валидаторов.

Архитектура, которая не ломается: три слоя защиты

Наша система строится на принципе 'defense in depth'. Если один слой ошибся, его ловит следующий.

1 Layout Detection & Field Extraction

Первым делом классифицируем документ: Form 1003 (2026 edition), W-2, paystub, банковское письмо. Используем тонко настроенный LayoutLMv3 или его более новую версию 2025 года, обученную именно на ипотечных формах. Модель получает не только изображение, но и текст, извлеченный базовым OCR (мы используем комбинацию OlmOCR-2 для печатного текста и Tesseract 5.4 с LSTM для смешанного).

# Пример вызова каскада OCR моделей
from mortgage_ocr_pipeline import DocumentProcessor

processor = DocumentProcessor()
# Сначала быстрый OCR для всего текста
raw_text, coordinates = processor.fast_ocr(document_image)
# Затем layout-aware модель для понимания структуры
layout_data = processor.layoutlm_inference(document_image, raw_text)
# Результат: JSON с полями и их bounding boxes
{
  "document_type": "form_1003_v2026",
  "fields": [
    {"name": "borrower_first_name", "value": "John", "bbox": [x1,y1,x2,y2], "confidence": 0.98},
    {"name": "annual_income", "value": "85000", "bbox": [x1,y1,x2,y2], "confidence": 0.87}
  ]
}

2 Field-Level Validation Engine

Здесь происходит магия. Каждое извлеченное поле прогоняется через цепочку валидаторов:

Тип данных: Число ли в income? Дата ли в birth_date?
Логические проверки: Annual income > monthly income * 12? Age >= 18?
Кросс-полные проверки: Сумма всех liabilities из раздела 6 равна total liabilities в разделе 7?
Внешние проверки: Валидный ли SSN (через хэшированную проверку с внешним сервисом)? Существующий ли адрес (через API геокодера)?

Тип валидатора	Пример правила	Действие при ошибке
Формат	SSN: ^\d{3}-\d{2}-\d{4}$	Флаг низкого доверия, отправка на ручную проверку
Логика	employment_years >= 0	Автоматическая коррекция, если очевидно ("-2" → "2")
Консистентность	city, state, zip должны соответствовать друг другу	Запрос к внешнему API, обновление поля zip

3 Human-in-the-Loop для 4% сложных случаев

Наша метрика: 96% документов обрабатываются полностью автоматически с confidence > 99.5%. Оставшиеся 4% — это документы с плохим качеством, противоречивыми данными или низким доверием модели. Они попадают в очередь на ручную проверку через веб-интерфейс, где оператор видит оригинал документа, извлеченные данные и подсвеченные проблемные поля.

Ключевой момент: оператор не вводит данные с нуля. Он подтверждает или корректирует уже извлеченные данные. Это увеличивает его скорость в 5 раз и исключает опечатки. Каждая правка оператора записывается в аудит-лог и используется для дообучения моделей (активное обучение).

Compliance как feature, а не бюрократия

SOC 2 Type II, GLBA, локальные регуляторные требования — это не просто бумажки. Это обязательные условия работы с финансовыми данными. Наша архитектура изначально строится с учетом compliance:

Полная прослеживаемость (Audit Trail): Для каждого извлеченного поля храним: исходное изображение (bbox), модель, которая его извлекла, confidence score, все примененные валидаторы и их результат, ID оператора, если была ручная проверка, timestamp. Это не только для аудита, но и для отладки — когда видишь, что валидатор X постоянно отвергает поле Y, пора обновлять правила.
Шифрование данных в покое и при передаче: Все документы шифруются AES-256-GCM сразу при загрузке. Обрабатываются только в memory, временные файлы не создаются. После обработки оригиналы хранятся в зашифрованном виде определенное время (по политике хранения), затем безопасно удаляются.
Доступ на основе ролей (RBAC): Оператор видит только документы из своей очереди. Администратор видит метрики, но не исходные документы. Аудитор имеет доступ только к audit trail, но не к самим данным.
Использование локальных моделей: Чтобы не отправлять sensitive данные в сторонние API, все модели (гибрид IDP+VLM для сложных случаев) развернуты в нашем дата-центре с GPU-инференсом. Для внешних проверок (адрес, SSN) используются защищенные API с нулевым разглашением.

Технический стек 2026: что работает в продакшене

Компонент	Технология	Почему именно она
Оркестрация пайплайна	Apache Airflow 3.6 + Kubernetes PodOperator	Масштабирование, мониторинг, retry политики для каждого этапа
Хранение документов и метаданных	MinIO (S3-совместимое) + PostgreSQL 17 с JSONB	Быстрый доступ к бинарным данным, сложные запросы к метаданным
Сервис валидации	Python FastAPI + набор правил в YAML	Бизнес-аналитики могут добавлять правила без переписывания кода
Интерфейс ручной проверки	React 19 + WebAssembly для отображения PDF	Работает в браузере без плагинов, мгновенный отклик
Мониторинг	Prometheus + Grafana 11 + кастомные дашборды	Трекинг accuracy в реальном времени, время обработки, очередь на ручную проверку

Типичные ошибки, которые ломают вашу систему

Я видел, как команды тратили месяцы, наступая на одни и те же грабли. Не повторяйте их.

Ошибка 1: Доверять confidence score модели без калибровки. Модель может выдавать confidence 0.99 для неверного значения, если она никогда не видела подобный шум в тренировочных данных. Решение: строим калибровочную кривую на отложенной выборке и преобразуем confidence в реальную вероятность ошибки.

Ошибка 2: Хранить оригиналы документов и извлеченные данные в одной БД. При атаке SQL-инъекцией злоумышленник получит все. Решение: раздельное хранение. MinIO для бинарников (с отдельными credentials), PostgreSQL для метаданных. Связь через UUID, который не имеет смысла вне системы.

Ошибка 3: Не планировать активное обучение. Ручные правки — это золото для улучшения модели. Решение: каждая коррекция оператора автоматически создает датасет для дообучения. Раз в неделю запускаем перетренировку на новых данных. Accuracy растет, процент ручной проверки падает.

Чего ждать в 2027? Будущее OCR для ипотеки

Модели становятся мультимодальнее. Тот же переход от OCR к ADE (Automated Document Understanding) ускоряется. Скоро одна модель будет одновременно: классифицировать документ, извлекать поля, проверять их на consistency и заполнять пропуски, используя внешние знания (например, если адрес неполный, дополнить его из базы).

Но главный тренд — не в точности моделей, а в инженерии доверия. Регуляторы требуют объяснимости. Почему система отвергла этот документ? Какое правило сработало? Можем ли мы доказать, что данные не изменялись с момента сканирования? Архитектура, которая сегодня дает 100% точность через гибридный подход, завтра должна будет доказывать каждый свой шаг. И лучше начать строить ее с audit trail сейчас, чем переделывать потом под давлением юристов.

P.S. Если думаете, что ваши документы сложные — посмотрите на арабские контракты с вертикальным письмом. Там вообще ад. Но это уже другая история.

Подписаться на канал

Архитектура OCR-системы для ипотеки с 100% точностью: layout-aware извлечение, валидация полей и compliance