Все гонятся за reasoning, а проблема в другом месте
Пока OpenAI выпускает o4, а Anthropic доводит до ума Claude 4, разработчики RAG-систем тратят месяцы на оптимизацию промптов, цепочек рассуждений и сложных агентских архитектур. Зря. Совершенно зря.
Новый бенчмарк Legal RAG Bench, опубликованный 15 февраля 2026 года, ставит жирный крест на этой стратегии. Его результаты шокируют: 67% ошибок в RAG-системах происходят на этапе извлечения информации. Не в reasoning. Не в генерации. В retrieval.
Что такое Legal RAG Bench и почему он важен
Представьте себе самый сложный юридический кейс: перекрестные ссылки на разные законы, поправки, судебные решения, которые меняют трактовку. Теперь представьте, что у вас 512 таких кейсов. Это Legal RAG Bench.
Бенчмарк убивает две зайца:
- Оценивает качество retrieval (точность извлечения релевантных документов)
- Измеряет конечную точность ответов (после reasoning и генерации)
Ключевая фишка — разделение ошибок. Система точно определяет: ошибка произошла потому что не нашли нужный документ? Или нашли, но неправильно проанализировали?
Kanon 2 Embedder против всех: результаты на 20.02.2026
Давайте посмотрим на холодные цифры. Тестировали лучшие эмбеддинг-модели, доступные на февраль 2026:
| Модель эмбеддингов | Точность retrieval | Конечная точность | Размер контекста |
|---|---|---|---|
| Kanon 2 Embedder (спец. для права) | 89.2% | 85.7% | 8192 токенов |
| Gemini 3 Embeddings | 78.4% | 74.1% | 32768 токенов |
| GPT-4.5 Turbo Embeddings | 76.9% | 72.8% | 16384 токенов |
| OpenAI text-embedding-3-large | 71.3% | 67.5% | 8192 токенов |
Kanon 2 обходит Gemini 3 на целых 10.8 процентных пункта по retrieval. Это не разница — это пропасть. Причем Kanon 2 специально обучали на юридических текстах, что подтверждает старую истину: специализированные модели бьют универсальные.
Важный нюанс: размер контекста у Kanon 2 вдвое меньше, чем у Gemini 3. Но это не помешало. Потому что в retrieval важнее не длина контекста, а качество эмбеддингов. Если документ не попал в топ-k, его не спасет даже миллион токенов контекста.
Почему retrieval убивает reasoning: математика ошибок
Давайте разберем конкретный пример из бенчмарка. Вопрос: "Каковы условия для признания договора незаключенным по статье 432 ГК РФ?"
Система с Gemini 3 Embeddings:
- Retrieval: находит 3 документа из 5 нужных (точность 60%)
- Reasoning: GPT-4.5 анализирует найденное, делает логичные выводы
- Результат: ошибка, потому что два ключевых документа не извлекли
Система с Kanon 2 Embeddings:
- Retrieval: находит 5 из 5 документов (100%)
- Reasoning: та же модель GPT-4.5
- Результат: правильный ответ
Одна и та же reasoning-модель. Разный результат. Почему? Потому что reasoning работает с тем, что дали. Нет данных — нет анализа. Это как пытаться диагностировать болезнь по 60% симптомов.
Что это значит для вашей RAG-системы
Если вы сейчас оптимизируете промпты или внедряете Society of Thought архитектуры, остановитесь. Сначала проверьте retrieval.
Практические шаги на основе Legal RAG Bench:
1 Тестируйте эмбеддинг-модели на своих данных
Не верьте общим бенчмаркам. Ваши документы — ваша специфика. Создайте мини-бенчмарк из 50-100 сложных запросов. Сравните Kanon 2, Gemini 3, GPT-4.5 эмбеддинги. Удивитесь результатам.
2 Используйте гибридный поиск
Только семантический поиск (эмбеддинги) или только лексический (BM25) — прошлый век. В Legal RAG Bench лучшие результаты показывает гибрид: 70% вес эмбеддингов, 30% вес BM25. Особенно для терминов, названий законов, номеров статей.
3 Оптимизируйте чанкинг
Правило "разбить на куски по 500 токенов" не работает для юридических документов. Разрыв предложения посреди определения меняет смысл. Используйте семантический чанкинг или хотя бы разбивайте по абзацам/разделам.
А как же reasoning-модели?
Не подумайте, что reasoning не важен. Важен. Но только после того, как retrieval работает на 85%+. Иначе вы просто даете мощной модели (типа o4 или Claude 4) мусор на входе и получаете красивый, логичный, но неверный ответ.
Интересный факт из бенчмарка: когда retrieval работает хорошо (точность >85%), разница между GPT-4.5 и GPT-4 в reasoning составляет всего 3-5%. Когда retrieval плох (<70%), разница достигает 15-20%. Потому что слабые модели не могут "додумать" недостающую информацию, а сильные — додумывают, но часто ошибаются.
Массовый Legal Embedding Benchmark (MLEB)
Параллельно с Legal RAG Bench появился MLEB — бенчмарк для оценки эмбеддинг-моделей на юридических текстах. 15 задач: поиск похожих законов, классификация документов, извлечение сущностей.
Топ-3 на 20.02.2026:
- Kanon 2 Embedder (87.4%)
- JurisBERT 3 (83.1%) — тоже специализированная юридическая
- Gemini 3 Embeddings (81.9%)
Тренд очевиден: специализация побеждает. Хотите хороший RAG для медицины — ищите медицинские эмбеддинги. Для кода — код-ориентированные. Универсальные модели проигрывают.
Совет: если нет специализированной модели для вашей области, дообучите существующую. Fine-tuning эмбеддинг-модели на 10-20 тыс. ваших документов дает прирост 8-12% в точности retrieval. Проверено на Legal RAG Bench.
Кому нужен Legal RAG Bench прямо сейчас
Не только юристам. Вот кто выиграет от этого исследования:
- Разработчики enterprise RAG — теперь у вас есть доказательства, почему нужно вкладывать в retrieval, а не в reasoning
- Юридические техкомпании — Kanon 2 Embedder доступен на Hugging Face, можно интегрировать за неделю
- Исследователи RAG — бенчмарк открытый, можно тестировать свои архитектуры
- Архитекторы AI-систем — данные для обоснования бюджета на оптимизацию поиска
Если вы строите RAG для сложных доменов (медицина, финансы, инженерия), принцип тот же: сначала retrieval, потом reasoning. Как в практическом гайде по масштабированию RAG, но с акцентом на извлечение.
Что будет дальше?
К марту 2026 ожидаем волну специализированных эмбеддинг-моделей. Уже анонсированы:
- MedEmbed 2 — для медицинских текстов
- CodeEmbed Pro — для поиска по коду (актуально после проблем с RAG для кода)
- FinBERT Embeddings — для финансовых документов
Тренд на гиперспециализацию неизбежен. Универсальные эмбеддинги типа text-embedding-ada-002 уже выглядят как динозавры. Пока все обсуждают Agentic RAG и GraphRAG, настоящий прорыв происходит в скромном слое эмбеддингов.
Мой прогноз: к концу 2026 года 80% коммерческих RAG-систем будут использовать специализированные эмбеддинг-модели. А reasoning станет товаром массового потребления — мощным, но стандартным компонентом.
P.S. Если до сих пор используете OpenAI embeddings для юридических документов — срочно тестируйте Kanon 2. Разница в качестве вас шокирует. Проверено.