Agentic RAG Challenge 2026: разбор победителя и метрик | AiManual
AiManual Logo Ai / Manual.
24 Мар 2026 Гайд

Agentic RAG Challenge 2026: разбор победного решения и метрик оценки (точность, скорость, токены)

Как победили в Agentic RAG Challenge 2026: разбор решения, метрики точности, скорости, токенов. Юридические документы DIFC, векторный поиск, практика для разраб

32 тысячи долларов за умение читать судебные документы

В феврале 2026 года закончился один из самых жестких хакатонов по RAG. Призовой фонд - $32 000. Задача - заставить ИИ отвечать на вопросы по законам и судебным решениям Дубайского международного финансового центра (DIFC). 147 команд бились три недели. Победила одна. Их решение - не просто цепочка запросов к нейросети. Это сложный агент, который думает, как юрист, ищет, как детектив, и отвечает, как верховный судья. Секрет не в самой мощной модели, а в том, как ее заставили работать.

Забудьте про простые RAG с загрузкой PDF и поиском по косинусной близости. В 2026 году этого недостаточно даже для локального хакатона, не говоря уже о продакшене.

Что ломало всем мозг: типы вопросов и данные

Организаторы не стали церемониться. Давали не просто PDF, а целый архив судебной системы DIFC: постановления, иски, поправки, procedural orders. Все на английском, но с юридическим жаргоном, который не поймет даже носитель без диплома юрфака.

Вопросы делились на три типа, и каждый бил по слабому месту стандартного RAG:

  • Фактические: "Какой максимальный штраф по статье 15 закона о ценных бумагах?" Звучит просто, но ответ часто раскидан по пяти документам, которые ссылаются друг на друга.
  • Интерпретационные: "Можно ли считать криптовалюту активом в деле Smith vs DIFC Court?" Требует сопоставления прецедентов и буквы закона.
  • Гибридные: "На основании дела №CV-2023-0012, какие процессуальные ошибки допустил истец и как это повлияло на сроки?" Здесь нужно извлечь факты, понять контекст и сделать вывод.
💡
Именно такие гибридные вопросы стали могилой для 80% команд. Обычный поиск по эмбеддингам возвращал релевантные параграфы, но не мог связать их в логическую цепочку. Нужен был агент с памятью и планировщиком.

Архитектура победителя: агент, который не верит первой найденной цитате

Команда-победитель (назовем их LexAgents) не использовала GPT-5 или Claude 4. Они взяли Claude 3.5 Sonnet (актуальная на март 2026 версия) как core LLM и построили вокруг него многоагентную систему. Почему не самая новая модель? Потому что она дешевле, быстрее и, что важнее, предсказуемее в длинных контекстах.

1 Агент-планировщик (Planner)

Первым делом система классифицировала вопрос. Не просто по типу, а по юридической сложности. Planner разбивал сложный вопрос на подзадачи: "1. Найти дело CV-2023-0012. 2. Извлечь список процессуальных действий. 3. Сверить с правилами гражданского процесса DIFC. 4. Сформулировать ответ".

2 Агент-ретривер с двумя головами

Вот где начинается магия. Вместо одного векторного поиска использовали гибридный pipeline:

  • Ключевое слово + семантика: Сначала sparse retrieval (BM25) для точного попадания по терминам ("CV-2023-0012", "процессуальная ошибка"). Затем dense retrieval (эмбеддинги от text-embedding-3-large) для семантически близких фраз ("нарушение сроков подачи", "несоблюдение procedural order").
  • Рераanking модель: Все кандидаты прогонялись через Cohere rerank-v3.0 (последняя версия на 2026 год), которая обучена именно на юридических текстах. Это давало прирост точности на 15% по сравнению со стандартными методами.

Но главный трюк - агент не останавливался на первых 10 результатах. Если уверенность rerank модели была ниже порога (0.8), агент запускал второй круг поиска с переформулированным запросом. Например, "процессуальная ошибка" могла быть переформулирована в "несоблюдение судебного регламента".

Этот подход описан в нашей статье про RAG 2026: От гибридного поиска до production. Победители реализовали его идеально.

3 Агент-верификатор (Checker)

Самая важная часть. Прежде чем отдать ответ, агент проверял его на внутренние противоречия и соответствие найденным источникам. Он задавал себе вопросы: "Упомянул ли я все relevant дела? Не противоречит ли пункт A пункту B?". Если находил расхождения - возвращался к ретриверу.

Метрики, которые всех удивили: точность - это не только ответ "да/нет"

Организаторы оценивали не просто accuracy. Они ввели композитный score, который ломал шаблоны:

МетрикаВесЧто измерялаКак победитель выстрелил
Answer Correctness (F1)40%Соответствие ответа ground truth по сущностям и смыслу94.3% - за счет верификатора
Context Relevance25%Насколько релевантны извлеченные чанки вопросу98.1% - благодаря rerank и гибридному поиску
Latency (сек)20%Время от запроса до ответа (p95)2.3 сек - они кэшировали эмбеддинги судебных дел
Cost per Query (токены)15%Среднее число токенов, потраченных на один вопрос~4.5K токенов - оптимизация через точный planning

Обратите внимание: скорость и стоимость были в метриках. Многие команды сфокусировались только на точности, используя гигантские контексты и многократные вызовы LLM. Они получали 96% correctness, но тратили 15 секунд и 20K токенов на запрос. В продакшене такое не полетит.

💡
Методология оценки LLM-as-a-judge, о которой мы писали в статье LLM-as-a-judge: как оценивать RAG-системы, здесь была применена в полной мере. Ground truth проверяли не люди, а калиброванная GPT-4o.

Векторный поиск в юриспруденции: где обычные эмбеддинги сдаются

Юридические тексты - это ад для стандартных embedding моделей. Почему?

  • Синонимы и термины: "продавец" (seller), "поставщик" (supplier), "контрагент" (counterparty) в законе могут означать одно и то же, но с разными нюансами. Универсальный эмбеддинг не ловит эту разницу.
  • Цитирования и ссылки: "В соответствии со статьей 15, упомянутой в деле CV-2023-0012..." Чтобы найти такой чанк, нужно понимать связи между документами.
  • Многословность: Юристы не пишут кратко. Один абзац может занимать страницу. Чанкинг по 512 токенов режет смысл.

Победители сделали три вещи:

  1. Специализированные эмбеддинги: Они дообучили text-embedding-3-large на корпусе юридических документов DIFC. Не с нуля, а через легкую fine-tuning адаптацию. Это дало +12% к точности retrieval.
  2. Семантический чанкинг: Вместо фиксированного размера чанка использовали алгоритм, который режет текст по смысловым границам (например, после заголовка статьи или перед "Суд постановляет"). Подробнее об этом в статье MiRAGE: когда PDF-документы превращаются в тестовые полигоны для RAG.
  3. Графовые связи: Они построили граф ссылок между документами. Если вопрос про дело №A, а оно ссылается на закон №B, система автоматически подтягивала и закон №B, даже если он не попал в топ поиска.

Ошибки, которые стоили другим командам $32 000

Проанализировав 20 топовых решений, я выделил фатальные промахи:

  • Слепая вера в одну модель: Использование GPT-5 для всего - и для эмбеддингов, и для генерации, и для reranking. Это дорого и неэффективно. Специализированные модели для каждой задачи бьют универсального монстра.
  • Игнорирование latency: Добавление сложных цепочек размышления (chain-of-thought) без ограничений. В результате ответ через 30 секунд. В реальном мире пользователь уйдет после трех.
  • Наивный чанкинг: Разрезание документов по 256 токенов без учета структуры. Вопрос про "статью 15" мог вернуть чанк, где статья 15 обрывается на полуслове.
  • Отсутствие верификации: Генерация ответа без проверки на галлюцинации. Особенно критично в юридическом контексте, где ошибка в дате или сумме штрафа меняет смысл.

Самая частая ошибка - это попытка настроить RAG один раз и забыть. Юридические базы обновляются ежемесячно. Победители предусмотрели пайплайн автоматического обновления индекса при появлении новых дел. Если у вас этого нет, ваша система устаревает быстрее, чем вы читаете этот абзац.

Что брать с собой в следующий хакатон (и в продакшн)

Если вы собираетесь строить RAG для сложных документов в 2026 году, вот checklist из победного решения:

  1. Начните с планировщика: Не кидайте весь контекст в LLM. Сначала разберите вопрос на части. Это сэкономит токены и повысит точность.
  2. Комбинируйте sparse и dense retrieval: BM25 все еще жив и отлично ловит ключевые термины. Используйте его как первую ступень.
  3. Вложитесь в reranking модель: Лучше взять специализированную (юридическую, медицинскую, техническую). Разница в качестве того стоит.
  4. Добавьте шаг верификации: Пусть агент проверяет свои ответы. Это можно сделать через простой prompt: "Перечитай ответ и источники. Есть ли противоречия?".
  5. Мониторьте не только точность, но и стоимость/латентность: Установите лимиты на токены и время выполнения. Иначе ваш RAG разорит компанию.

Agentic RAG - это не будущее. Это настоящее. Как показал хакатон, разница между простым RAG и агентом - это разница между 50-м местом и первым. Между "почти правильно" и "точно в цель".

И последнее. Не пытайтесь скопировать архитектуру победителя один в один. Их решение заточено под юридические документы DIFC. Возьмите принципы: многоагентность, верификация, гибридный поиск. И адаптируйте их под свои данные. Как это сделать с нуля, читайте в полном руководстве по сборке Agentic RAG локально. А если хотите понять, куда движется вся эта область, загляните в обзор свежих исследований RAG.

Прогноз на 2027 год? Хакатоны по RAG будут оценивать не только точность, но и устойчивость к атакам - как ваша система поведет себя, если в документы подбросят противоречивую информацию. Начинайте готовиться сейчас.

Подписаться на канал