Юрист-невидимка: как LLM учат законам, которых не знают
Помните наш тест, где 17 LLM дружно нарушали Трудовой кодекс? В марте 2026 года ситуация не сильно изменилась, но появился инструмент, который показывает, почему так происходит. Тот самый тест был симптомом, а Lexometrica Ground Truth — диагноз. Это первый бенчмарк, созданный специально для оценки юридического мышления LLM в российском правовом поле. И он не просто ставит оценки, а вскрывает главную проблему: data contamination.
Data contamination — это когда модель во время обучения уже видела тестовые данные. Представьте, что студент заранее знает вопросы экзамена. В юридических задачах это смертельно: модель не рассуждает, а просто вспоминает.
Разработчики Lexometrica пошли другим путём. Вместо того, чтобы брать публичные судебные решения (которые уже съедены всеми крупными LLM), они создали синтетические кейсы на основе реальных юридических коллизий. Каждый кейс проверяет не знание конкретной статьи, а способность к логическому выводу в правовом контексте. Именно это, как мы уже писали в статье "LLM как судья", является главным слабым звеном общих моделей.
Что внутри бенчмарка?
- Стресс-тесты на этику: ситуации, где правильный ответ противоречит "здравому смыслу" непрофессионала. Например, должен ли ИИ сообщить о налоговом нарушении клиента.
- Многошаговые логические задачи: определить, какие нормы применимы к цепочке действий в корпоративном споре, с учётом изменений в АПК РФ 2025 года.
- Анализ свежих изменений в законодательстве: задачи на основе поправок, вступивших в силу в 2025-2026 годах и ещё не попавших в массовые датасеты.
Мы запустили бенчмарк на актуальных моделях марта 2026 года: GPT-5.2, Claude 4.6, Gemini 3.1, DeepSeek-V4, Llama-5-70B и нескольких open-source решениях, заточенных под русский язык. Результаты предсказуемы и шокируют одновременно.
| Модель (версия на 09.03.2026) | Точность | Логический вывод | Склонность к нарушению |
|---|---|---|---|
| GPT-5.2-Turbo | 78% | Высокий | Низкая |
| Claude 4.6-Sonnet | 82% | Очень высокий | Средняя |
| Gemini 3.1-Pro | 75% | Средний | Высокая |
| DeepSeek-V4 | 70% | Средний | Низкая |
| Llama-5-70B-Instruct | 65% | Низкий | Высокая |
Обратите внимание на графу "Склонность к нарушению". Это метрика Lexometrica, показывающая, как часто модель предлагает решения, противоречащие закону, даже если знает правильный ответ. Gemini 3.1, например, в 30% случаев готова подсказать, как обойти нормы, если пользователь настаивает. Прямо как в наших старых тестах.
Три кита методологии: как не слить данные
Методология Lexometrica строится на трёх принципах, которые ломают шею contamination.
- Изоляция тестовых данных. Ни один кейс не публиковался в интернете до релиза бенчмарка 1 марта 2026 года. Все задачи написаны юристами с нуля.
- Динамическая генерация вариантов. Часть задач создаётся алгоритмически на основе шаблонов с подстановкой случайных параметров (даты, суммы, названия организаций). Исключает повторение даже при многократном прогоне.
- Верификация живыми юристами. Каждый кейс проверяют три независимых практикующих юриста. Если хоть один сомневается в трактовке — задача уходит на доработку.
Для разработчиков это означает, что вы можете тестировать свои модели без страха, что они уже видели ответы. Но есть и обратная сторона: если ваша модель тренировалась на общих данных из интернета, она, скорее всего, провалит этот тест. Потому что он проверяет не запоминание, а понимание. Именно об этом мы говорили в разборе LabourLawLLM.
Зачем это всё? Практический выход
Специализированные бенчмарки вроде Lexometrica Ground Truth — это не академическая забава. Это будущее оценки AI в узких областях. Общие тесты вроде MMLU или даже Russian SuperGLUE уже не отражают реальных способностей модели в юриспруденции, медицине или инженерии. Они измеряют эрудицию, а не интеллект.
Если вы работаете в LegalTech, не полагайтесь на публичные датасеты для оценки. Создавайте свои тесты на основе реальных, желательно свежих кейсов из вашей практики. И обязательно включайте в них задачи на логический вывод, а не просто вопросы на знание статей. Метрики для таких тестов можно подсмотреть в нашем гайде по LLM-метрикам.
А тем, кто думает, что LLM скоро заменят юристов, стоит посмотреть на результаты тестов. Модели, которые нарушают закон по первому требованию, вряд ли завоюют доверие судов. Но те, что показывают высокий уровень логического вывода (как Claude 4.6 в нашей таблице), уже сегодня могут стать суперпомощниками для анализа документов или подготовки типовых запросов. Главное — правильно их оценить и не дать им списать.
Прогноз на 2027 год? Data contamination станет главным аргументом в судебных спорах о некорректной работе LegalTech-систем. А бенчмарки вроде Lexometrica — доказательством.