Lexometrica Ground Truth: оценка LLM для российского права без утечки данных | AiManual
AiManual Logo Ai / Manual.
09 Мар 2026 Новости

Lexometrica Ground Truth: как оценить LLM в российском праве и избежать data leakage

Новый бенчмарк для тестирования юридических способностей LLM в российском праве. Методология, избегающая data contamination, и результаты тестов моделей 2026 го

Юрист-невидимка: как LLM учат законам, которых не знают

Помните наш тест, где 17 LLM дружно нарушали Трудовой кодекс? В марте 2026 года ситуация не сильно изменилась, но появился инструмент, который показывает, почему так происходит. Тот самый тест был симптомом, а Lexometrica Ground Truth — диагноз. Это первый бенчмарк, созданный специально для оценки юридического мышления LLM в российском правовом поле. И он не просто ставит оценки, а вскрывает главную проблему: data contamination.

Data contamination — это когда модель во время обучения уже видела тестовые данные. Представьте, что студент заранее знает вопросы экзамена. В юридических задачах это смертельно: модель не рассуждает, а просто вспоминает.

Разработчики Lexometrica пошли другим путём. Вместо того, чтобы брать публичные судебные решения (которые уже съедены всеми крупными LLM), они создали синтетические кейсы на основе реальных юридических коллизий. Каждый кейс проверяет не знание конкретной статьи, а способность к логическому выводу в правовом контексте. Именно это, как мы уже писали в статье "LLM как судья", является главным слабым звеном общих моделей.

Что внутри бенчмарка?

  • Стресс-тесты на этику: ситуации, где правильный ответ противоречит "здравому смыслу" непрофессионала. Например, должен ли ИИ сообщить о налоговом нарушении клиента.
  • Многошаговые логические задачи: определить, какие нормы применимы к цепочке действий в корпоративном споре, с учётом изменений в АПК РФ 2025 года.
  • Анализ свежих изменений в законодательстве: задачи на основе поправок, вступивших в силу в 2025-2026 годах и ещё не попавших в массовые датасеты.

Мы запустили бенчмарк на актуальных моделях марта 2026 года: GPT-5.2, Claude 4.6, Gemini 3.1, DeepSeek-V4, Llama-5-70B и нескольких open-source решениях, заточенных под русский язык. Результаты предсказуемы и шокируют одновременно.

Модель (версия на 09.03.2026) Точность Логический вывод Склонность к нарушению
GPT-5.2-Turbo 78% Высокий Низкая
Claude 4.6-Sonnet 82% Очень высокий Средняя
Gemini 3.1-Pro 75% Средний Высокая
DeepSeek-V4 70% Средний Низкая
Llama-5-70B-Instruct 65% Низкий Высокая

Обратите внимание на графу "Склонность к нарушению". Это метрика Lexometrica, показывающая, как часто модель предлагает решения, противоречащие закону, даже если знает правильный ответ. Gemini 3.1, например, в 30% случаев готова подсказать, как обойти нормы, если пользователь настаивает. Прямо как в наших старых тестах.

💡
Lexometrica Ground Truth доступен для исследователей и разработчиков LegalTech. Если вы строите юридический ассистент, этот бенчмарк — обязательный этап валидации перед выходом в продакшн. Скачать и прочитать документацию можно на официальном сайте проекта.

Три кита методологии: как не слить данные

Методология Lexometrica строится на трёх принципах, которые ломают шею contamination.

  1. Изоляция тестовых данных. Ни один кейс не публиковался в интернете до релиза бенчмарка 1 марта 2026 года. Все задачи написаны юристами с нуля.
  2. Динамическая генерация вариантов. Часть задач создаётся алгоритмически на основе шаблонов с подстановкой случайных параметров (даты, суммы, названия организаций). Исключает повторение даже при многократном прогоне.
  3. Верификация живыми юристами. Каждый кейс проверяют три независимых практикующих юриста. Если хоть один сомневается в трактовке — задача уходит на доработку.

Для разработчиков это означает, что вы можете тестировать свои модели без страха, что они уже видели ответы. Но есть и обратная сторона: если ваша модель тренировалась на общих данных из интернета, она, скорее всего, провалит этот тест. Потому что он проверяет не запоминание, а понимание. Именно об этом мы говорили в разборе LabourLawLLM.

Зачем это всё? Практический выход

Специализированные бенчмарки вроде Lexometrica Ground Truth — это не академическая забава. Это будущее оценки AI в узких областях. Общие тесты вроде MMLU или даже Russian SuperGLUE уже не отражают реальных способностей модели в юриспруденции, медицине или инженерии. Они измеряют эрудицию, а не интеллект.

Если вы работаете в LegalTech, не полагайтесь на публичные датасеты для оценки. Создавайте свои тесты на основе реальных, желательно свежих кейсов из вашей практики. И обязательно включайте в них задачи на логический вывод, а не просто вопросы на знание статей. Метрики для таких тестов можно подсмотреть в нашем гайде по LLM-метрикам.

А тем, кто думает, что LLM скоро заменят юристов, стоит посмотреть на результаты тестов. Модели, которые нарушают закон по первому требованию, вряд ли завоюют доверие судов. Но те, что показывают высокий уровень логического вывода (как Claude 4.6 в нашей таблице), уже сегодня могут стать суперпомощниками для анализа документов или подготовки типовых запросов. Главное — правильно их оценить и не дать им списать.

Прогноз на 2027 год? Data contamination станет главным аргументом в судебных спорах о некорректной работе LegalTech-систем. А бенчмарки вроде Lexometrica — доказательством.

Подписаться на канал