Кейс Associa: GenAI IDP Accelerator и Amazon Bedrock обработали 48 млн документов

Когда документы превращаются в гору высотой 26 терабайт

Представьте себе архив. Не просто папку на рабочем столе, а цифровую свалку из 48 миллионов файлов. PDF-ки, сканы договоров, электронные письма, отсканированные счета-фактуры, приложения – всё вперемешку. Общий вес – 26 терабайт. Это не гипотетический стресс-тест, а реальная проблема, с которой столкнулась Associa, одна из крупнейших в США компаний по управлению сообществами.

До 2025 года классификация этой горы была ручным, медленным и дорогим кошмаром. Каждый документ нужно было открыть, понять, что это, и отнести к одной из сотен категорий. Пропускная способность – человеческая. Ошибки – неизбежные. А потом пришел GenAI IDP Accelerator на Amazon Bedrock.

Контекст: Intelligent Document Processing (IDP) – это не просто OCR. Современные системы на базе GenAI, такие как GenAI IDP Accelerator, понимают контекст, извлекают сущности и классифицируют документы по смыслу, а не только по шаблону.

Архитектура, которая не боится масштаба

Решение, развернутое на AWS, построено вокруг двух ключевых компонентов: GenAI IDP Accelerator (готовый фреймворк для обработки документов) и сервиса фундаментальных моделей Amazon Bedrock. Bedrock здесь – мозг операции. Вместо того чтобы строить и обучать свою модель с нуля, инженеры Associa использовали мощь готовых, отточенных моделей, доступных через API.

На февраль 2026 года в Bedrock доступны модели последнего поколения, включая Claude 3.5 Sonnet, который отлично справляется с пониманием длинных, структурированных текстов, и новейший Titan Text Embeddings V2 для создания векторных представлений документов. Именно эта связка – понимание смысла (Claude) и эффективный семантический поиск (Titan Embeddings) – стала ключом к успеху.

💡

Почему не своя модель? Обучение LLM с нуля на специфических документах – это месяцы работы и сотни тысяч долларов. Bedrock дает доступ к state-of-the-art моделям «как услугу», что для enterprise-проектов часто оказывается единственным разумным путем.

Как это работает? Не магия, а конвейер

Процесс выглядит деceptively простым, если не думать о том, что он обрабатывает миллионы файлов в день.

Загрузка и подготовка: Документы из различных источников (S3, корпоративные хранилища) попадают в конвейер. GenAI IDP Accelerator берет на себя первоначальный парсинг: извлечение текста, распознавание таблиц, обработка плохих сканов.
Семантическое понимание: Текст документа отправляется в Claude 3.5 Sonnet через Bedrock. Модель анализирует содержание и определяет тип документа (договор аренды, счет, заявление жильца, протокол собрания), ключевые даты, стороны, суммы.
Векторизация и классификация: Параллельно или на основе извлеченного текста создается эмбеддинг с помощью Titan Text Embeddings V2. Этот векторный «отпечаток» сравнивается с эталонными эмбеддингами известных категорий документов в векторной базе данных (например, Amazon OpenSearch). Это дает двойную проверку точности.
Извлечение данных и маршрутизация: Классифицированный документ автоматически направляется в нужную систему (CRM, бухгалтерию, архив), а извлеченные данные (номер счета, сумма, срок) структурируются в JSON для дальнейшей автоматической обработки.

Звучит как очередной слайд из презентации AWS? Возможно. Но цифры, которые Associa озвучила по итогам 2025 года, заставляют поверить.

Метрика	До внедрения	После внедрения (на 05.02.2026)
Скорость обработки документа	Минуты/часы (ручная работа)	Секунды
Точность классификации	~85% (человеческий фактор)	>98%
Обработка всего архива (48 млн)	Нереализуемо в разумные сроки	Несколько недель
Операционные затраты	Высокие (FTE)	Снижение на ~70%

Человек в петле? Да, но по-новому

Полная автоматизация – миф, особенно когда речь идет о юридических документах. В системе Associa остался «человек в петле» (Human-in-the-Loop), но его роль кардинально изменилась. Раньше он был классификатором. Теперь он – валидатор и судья для сложных кейсов, которые модель помечает как «низкая уверенность». Это повышает и точность системы, и удовлетворенность сотрудников: они занимаются интеллектуальной работой, а не механическим кликингом.

Этот подход перекликается с трендом на корпоративных ИИ-агентов, где ИИ делает черновую работу, а человек вносит финальные правки.

Важный нюанс: Модели в Bedrock постоянно обновляются. Решение, построенное сегодня на Claude 3.5, завтра может быть легко донастроено для работы с Claude 4.0 (когда он выйдет), без переписывания всей бизнес-логики. Это главное преимущество сервисной модели перед кастомными решениями.

Что это значит для остального рынка?

Кейс Associa – не единичный фокус. Это симптом. Он показывает, что GenAI для обработки документов перестал быть экспериментом и стал стандартной enterprise-практикой. Банки, как Klarna и HSBC, идут тем же путем, превращая ИИ в часть своей операционной инфраструктуры.

Технологии, опробованные здесь, – семантическое понимание, мультимодальные эмбеддинги (которые, кстати, отлично работают и для поиска по видео и аудио), RAG-архитектура – становятся строительными блоками для любых систем работы со знаниями. Даже если ваша задача – не 48 миллионов, а сделать базу знаний из свалки документов, принципы те же.

И главный вывод, который стоит вынести из этой истории, даже если вы не управляете 26 ТБ данных: время строить монолитные, кастомные ИИ-решения для каждой задачи уходит. Будущее – за композицией сервисов, где вы берете лучшую модель для понимания текста из Bedrock, лучший эмбеддинг для поиска и собираете из них конвейер, который решает вашу конкретную бизнес-проблему. Быстро. И без необходимости нанимать команду PhD.

Associa это доказала. Остальным остается лишь подсчитать, сколько они теряют, пока их документы продолжают пылиться в цифровых архивах в ожидании ручной обработки.

48 миллионов бумаг в цифру: как Associa заставила ИИ разгрести 26 ТБ документов

Когда документы превращаются в гору высотой 26 терабайт

Архитектура, которая не боится масштаба

Как это работает? Не магия, а конвейер

Человек в петле? Да, но по-новому

Что это значит для остального рынка?

Подписывайтесь на наш канал!