32 тысячи долларов за умение читать судебные документы
В феврале 2026 года закончился один из самых жестких хакатонов по RAG. Призовой фонд - $32 000. Задача - заставить ИИ отвечать на вопросы по законам и судебным решениям Дубайского международного финансового центра (DIFC). 147 команд бились три недели. Победила одна. Их решение - не просто цепочка запросов к нейросети. Это сложный агент, который думает, как юрист, ищет, как детектив, и отвечает, как верховный судья. Секрет не в самой мощной модели, а в том, как ее заставили работать.
Забудьте про простые RAG с загрузкой PDF и поиском по косинусной близости. В 2026 году этого недостаточно даже для локального хакатона, не говоря уже о продакшене.
Что ломало всем мозг: типы вопросов и данные
Организаторы не стали церемониться. Давали не просто PDF, а целый архив судебной системы DIFC: постановления, иски, поправки, procedural orders. Все на английском, но с юридическим жаргоном, который не поймет даже носитель без диплома юрфака.
Вопросы делились на три типа, и каждый бил по слабому месту стандартного RAG:
- Фактические: "Какой максимальный штраф по статье 15 закона о ценных бумагах?" Звучит просто, но ответ часто раскидан по пяти документам, которые ссылаются друг на друга.
- Интерпретационные: "Можно ли считать криптовалюту активом в деле Smith vs DIFC Court?" Требует сопоставления прецедентов и буквы закона.
- Гибридные: "На основании дела №CV-2023-0012, какие процессуальные ошибки допустил истец и как это повлияло на сроки?" Здесь нужно извлечь факты, понять контекст и сделать вывод.
Архитектура победителя: агент, который не верит первой найденной цитате
Команда-победитель (назовем их LexAgents) не использовала GPT-5 или Claude 4. Они взяли Claude 3.5 Sonnet (актуальная на март 2026 версия) как core LLM и построили вокруг него многоагентную систему. Почему не самая новая модель? Потому что она дешевле, быстрее и, что важнее, предсказуемее в длинных контекстах.
1 Агент-планировщик (Planner)
Первым делом система классифицировала вопрос. Не просто по типу, а по юридической сложности. Planner разбивал сложный вопрос на подзадачи: "1. Найти дело CV-2023-0012. 2. Извлечь список процессуальных действий. 3. Сверить с правилами гражданского процесса DIFC. 4. Сформулировать ответ".
2 Агент-ретривер с двумя головами
Вот где начинается магия. Вместо одного векторного поиска использовали гибридный pipeline:
- Ключевое слово + семантика: Сначала sparse retrieval (BM25) для точного попадания по терминам ("CV-2023-0012", "процессуальная ошибка"). Затем dense retrieval (эмбеддинги от text-embedding-3-large) для семантически близких фраз ("нарушение сроков подачи", "несоблюдение procedural order").
- Рераanking модель: Все кандидаты прогонялись через Cohere rerank-v3.0 (последняя версия на 2026 год), которая обучена именно на юридических текстах. Это давало прирост точности на 15% по сравнению со стандартными методами.
Но главный трюк - агент не останавливался на первых 10 результатах. Если уверенность rerank модели была ниже порога (0.8), агент запускал второй круг поиска с переформулированным запросом. Например, "процессуальная ошибка" могла быть переформулирована в "несоблюдение судебного регламента".
Этот подход описан в нашей статье про RAG 2026: От гибридного поиска до production. Победители реализовали его идеально.
3 Агент-верификатор (Checker)
Самая важная часть. Прежде чем отдать ответ, агент проверял его на внутренние противоречия и соответствие найденным источникам. Он задавал себе вопросы: "Упомянул ли я все relevant дела? Не противоречит ли пункт A пункту B?". Если находил расхождения - возвращался к ретриверу.
Метрики, которые всех удивили: точность - это не только ответ "да/нет"
Организаторы оценивали не просто accuracy. Они ввели композитный score, который ломал шаблоны:
| Метрика | Вес | Что измеряла | Как победитель выстрелил |
|---|---|---|---|
| Answer Correctness (F1) | 40% | Соответствие ответа ground truth по сущностям и смыслу | 94.3% - за счет верификатора |
| Context Relevance | 25% | Насколько релевантны извлеченные чанки вопросу | 98.1% - благодаря rerank и гибридному поиску |
| Latency (сек) | 20% | Время от запроса до ответа (p95) | 2.3 сек - они кэшировали эмбеддинги судебных дел |
| Cost per Query (токены) | 15% | Среднее число токенов, потраченных на один вопрос | ~4.5K токенов - оптимизация через точный planning |
Обратите внимание: скорость и стоимость были в метриках. Многие команды сфокусировались только на точности, используя гигантские контексты и многократные вызовы LLM. Они получали 96% correctness, но тратили 15 секунд и 20K токенов на запрос. В продакшене такое не полетит.
Векторный поиск в юриспруденции: где обычные эмбеддинги сдаются
Юридические тексты - это ад для стандартных embedding моделей. Почему?
- Синонимы и термины: "продавец" (seller), "поставщик" (supplier), "контрагент" (counterparty) в законе могут означать одно и то же, но с разными нюансами. Универсальный эмбеддинг не ловит эту разницу.
- Цитирования и ссылки: "В соответствии со статьей 15, упомянутой в деле CV-2023-0012..." Чтобы найти такой чанк, нужно понимать связи между документами.
- Многословность: Юристы не пишут кратко. Один абзац может занимать страницу. Чанкинг по 512 токенов режет смысл.
Победители сделали три вещи:
- Специализированные эмбеддинги: Они дообучили text-embedding-3-large на корпусе юридических документов DIFC. Не с нуля, а через легкую fine-tuning адаптацию. Это дало +12% к точности retrieval.
- Семантический чанкинг: Вместо фиксированного размера чанка использовали алгоритм, который режет текст по смысловым границам (например, после заголовка статьи или перед "Суд постановляет"). Подробнее об этом в статье MiRAGE: когда PDF-документы превращаются в тестовые полигоны для RAG.
- Графовые связи: Они построили граф ссылок между документами. Если вопрос про дело №A, а оно ссылается на закон №B, система автоматически подтягивала и закон №B, даже если он не попал в топ поиска.
Ошибки, которые стоили другим командам $32 000
Проанализировав 20 топовых решений, я выделил фатальные промахи:
- Слепая вера в одну модель: Использование GPT-5 для всего - и для эмбеддингов, и для генерации, и для reranking. Это дорого и неэффективно. Специализированные модели для каждой задачи бьют универсального монстра.
- Игнорирование latency: Добавление сложных цепочек размышления (chain-of-thought) без ограничений. В результате ответ через 30 секунд. В реальном мире пользователь уйдет после трех.
- Наивный чанкинг: Разрезание документов по 256 токенов без учета структуры. Вопрос про "статью 15" мог вернуть чанк, где статья 15 обрывается на полуслове.
- Отсутствие верификации: Генерация ответа без проверки на галлюцинации. Особенно критично в юридическом контексте, где ошибка в дате или сумме штрафа меняет смысл.
Самая частая ошибка - это попытка настроить RAG один раз и забыть. Юридические базы обновляются ежемесячно. Победители предусмотрели пайплайн автоматического обновления индекса при появлении новых дел. Если у вас этого нет, ваша система устаревает быстрее, чем вы читаете этот абзац.
Что брать с собой в следующий хакатон (и в продакшн)
Если вы собираетесь строить RAG для сложных документов в 2026 году, вот checklist из победного решения:
- Начните с планировщика: Не кидайте весь контекст в LLM. Сначала разберите вопрос на части. Это сэкономит токены и повысит точность.
- Комбинируйте sparse и dense retrieval: BM25 все еще жив и отлично ловит ключевые термины. Используйте его как первую ступень.
- Вложитесь в reranking модель: Лучше взять специализированную (юридическую, медицинскую, техническую). Разница в качестве того стоит.
- Добавьте шаг верификации: Пусть агент проверяет свои ответы. Это можно сделать через простой prompt: "Перечитай ответ и источники. Есть ли противоречия?".
- Мониторьте не только точность, но и стоимость/латентность: Установите лимиты на токены и время выполнения. Иначе ваш RAG разорит компанию.
Agentic RAG - это не будущее. Это настоящее. Как показал хакатон, разница между простым RAG и агентом - это разница между 50-м местом и первым. Между "почти правильно" и "точно в цель".
И последнее. Не пытайтесь скопировать архитектуру победителя один в один. Их решение заточено под юридические документы DIFC. Возьмите принципы: многоагентность, верификация, гибридный поиск. И адаптируйте их под свои данные. Как это сделать с нуля, читайте в полном руководстве по сборке Agentic RAG локально. А если хотите понять, куда движется вся эта область, загляните в обзор свежих исследований RAG.
Прогноз на 2027 год? Хакатоны по RAG будут оценивать не только точность, но и устойчивость к атакам - как ваша система поведет себя, если в документы подбросят противоречивую информацию. Начинайте готовиться сейчас.