Legal RAG Bench: новый бенчмарк и почему Retrieval важнее Reasoning

Все гонятся за reasoning, а проблема в другом месте

Пока OpenAI выпускает o4, а Anthropic доводит до ума Claude 4, разработчики RAG-систем тратят месяцы на оптимизацию промптов, цепочек рассуждений и сложных агентских архитектур. Зря. Совершенно зря.

Новый бенчмарк Legal RAG Bench, опубликованный 15 февраля 2026 года, ставит жирный крест на этой стратегии. Его результаты шокируют: 67% ошибок в RAG-системах происходят на этапе извлечения информации. Не в reasoning. Не в генерации. В retrieval.

💡

Legal RAG Bench — это открытый бенчмарк на Hugging Face, специально созданный для оценки RAG-систем в юридической области. Он включает 512 сложных вопросов по законодательству США, каждый из которых требует поиска и анализа нескольких документов. На 20.02.2026 это самый требовательный юридический бенчмарк.

Что такое Legal RAG Bench и почему он важен

Представьте себе самый сложный юридический кейс: перекрестные ссылки на разные законы, поправки, судебные решения, которые меняют трактовку. Теперь представьте, что у вас 512 таких кейсов. Это Legal RAG Bench.

Бенчмарк убивает две зайца:

Оценивает качество retrieval (точность извлечения релевантных документов)
Измеряет конечную точность ответов (после reasoning и генерации)

Ключевая фишка — разделение ошибок. Система точно определяет: ошибка произошла потому что не нашли нужный документ? Или нашли, но неправильно проанализировали?

Kanon 2 Embedder против всех: результаты на 20.02.2026

Давайте посмотрим на холодные цифры. Тестировали лучшие эмбеддинг-модели, доступные на февраль 2026:

Модель эмбеддингов	Точность retrieval	Конечная точность	Размер контекста
Kanon 2 Embedder (спец. для права)	89.2%	85.7%	8192 токенов
Gemini 3 Embeddings	78.4%	74.1%	32768 токенов
GPT-4.5 Turbo Embeddings	76.9%	72.8%	16384 токенов
OpenAI text-embedding-3-large	71.3%	67.5%	8192 токенов

Kanon 2 обходит Gemini 3 на целых 10.8 процентных пункта по retrieval. Это не разница — это пропасть. Причем Kanon 2 специально обучали на юридических текстах, что подтверждает старую истину: специализированные модели бьют универсальные.

Важный нюанс: размер контекста у Kanon 2 вдвое меньше, чем у Gemini 3. Но это не помешало. Потому что в retrieval важнее не длина контекста, а качество эмбеддингов. Если документ не попал в топ-k, его не спасет даже миллион токенов контекста.

Почему retrieval убивает reasoning: математика ошибок

Давайте разберем конкретный пример из бенчмарка. Вопрос: "Каковы условия для признания договора незаключенным по статье 432 ГК РФ?"

Система с Gemini 3 Embeddings:

Retrieval: находит 3 документа из 5 нужных (точность 60%)
Reasoning: GPT-4.5 анализирует найденное, делает логичные выводы
Результат: ошибка, потому что два ключевых документа не извлекли

Система с Kanon 2 Embeddings:

Retrieval: находит 5 из 5 документов (100%)
Reasoning: та же модель GPT-4.5
Результат: правильный ответ

Одна и та же reasoning-модель. Разный результат. Почему? Потому что reasoning работает с тем, что дали. Нет данных — нет анализа. Это как пытаться диагностировать болезнь по 60% симптомов.

Что это значит для вашей RAG-системы

Если вы сейчас оптимизируете промпты или внедряете Society of Thought архитектуры, остановитесь. Сначала проверьте retrieval.

Практические шаги на основе Legal RAG Bench:

1 Тестируйте эмбеддинг-модели на своих данных

Не верьте общим бенчмаркам. Ваши документы — ваша специфика. Создайте мини-бенчмарк из 50-100 сложных запросов. Сравните Kanon 2, Gemini 3, GPT-4.5 эмбеддинги. Удивитесь результатам.

2 Используйте гибридный поиск

Только семантический поиск (эмбеддинги) или только лексический (BM25) — прошлый век. В Legal RAG Bench лучшие результаты показывает гибрид: 70% вес эмбеддингов, 30% вес BM25. Особенно для терминов, названий законов, номеров статей.

3 Оптимизируйте чанкинг

Правило "разбить на куски по 500 токенов" не работает для юридических документов. Разрыв предложения посреди определения меняет смысл. Используйте семантический чанкинг или хотя бы разбивайте по абзацам/разделам.

А как же reasoning-модели?

Не подумайте, что reasoning не важен. Важен. Но только после того, как retrieval работает на 85%+. Иначе вы просто даете мощной модели (типа o4 или Claude 4) мусор на входе и получаете красивый, логичный, но неверный ответ.

Интересный факт из бенчмарка: когда retrieval работает хорошо (точность >85%), разница между GPT-4.5 и GPT-4 в reasoning составляет всего 3-5%. Когда retrieval плох (<70%), разница достигает 15-20%. Потому что слабые модели не могут "додумать" недостающую информацию, а сильные — додумывают, но часто ошибаются.

Массовый Legal Embedding Benchmark (MLEB)

Параллельно с Legal RAG Bench появился MLEB — бенчмарк для оценки эмбеддинг-моделей на юридических текстах. 15 задач: поиск похожих законов, классификация документов, извлечение сущностей.

Топ-3 на 20.02.2026:

Kanon 2 Embedder (87.4%)
JurisBERT 3 (83.1%) — тоже специализированная юридическая
Gemini 3 Embeddings (81.9%)

Тренд очевиден: специализация побеждает. Хотите хороший RAG для медицины — ищите медицинские эмбеддинги. Для кода — код-ориентированные. Универсальные модели проигрывают.

Совет: если нет специализированной модели для вашей области, дообучите существующую. Fine-tuning эмбеддинг-модели на 10-20 тыс. ваших документов дает прирост 8-12% в точности retrieval. Проверено на Legal RAG Bench.

Кому нужен Legal RAG Bench прямо сейчас

Не только юристам. Вот кто выиграет от этого исследования:

Разработчики enterprise RAG — теперь у вас есть доказательства, почему нужно вкладывать в retrieval, а не в reasoning
Юридические техкомпании — Kanon 2 Embedder доступен на Hugging Face, можно интегрировать за неделю
Исследователи RAG — бенчмарк открытый, можно тестировать свои архитектуры
Архитекторы AI-систем — данные для обоснования бюджета на оптимизацию поиска

Если вы строите RAG для сложных доменов (медицина, финансы, инженерия), принцип тот же: сначала retrieval, потом reasoning. Как в практическом гайде по масштабированию RAG, но с акцентом на извлечение.

Что будет дальше?

К марту 2026 ожидаем волну специализированных эмбеддинг-моделей. Уже анонсированы:

MedEmbed 2 — для медицинских текстов
CodeEmbed Pro — для поиска по коду (актуально после проблем с RAG для кода)
FinBERT Embeddings — для финансовых документов

Тренд на гиперспециализацию неизбежен. Универсальные эмбеддинги типа text-embedding-ada-002 уже выглядят как динозавры. Пока все обсуждают Agentic RAG и GraphRAG, настоящий прорыв происходит в скромном слое эмбеддингов.

Мой прогноз: к концу 2026 года 80% коммерческих RAG-систем будут использовать специализированные эмбеддинг-модели. А reasoning станет товаром массового потребления — мощным, но стандартным компонентом.

P.S. Если до сих пор используете OpenAI embeddings для юридических документов — срочно тестируйте Kanon 2. Разница в качестве вас шокирует. Проверено.

Legal RAG Bench переворачивает представление о RAG: Retrieval бьёт Reasoning 2:1