Юридический тест, который ломает модели
До 18 февраля 2026 года все было просто: юридические бенчмарки были скучной статистикой. Модели показывали 15-20%, эксперты кивали, инвесторы зевали. Потом вышла новая версия Mercor Legal Reasoning Benchmark.
И все пошло наперекосяк.
Mercor - это не очередной набор вопросов из учебника по праву. Это профессиональный стресс-тест: анализ контрактов, выявление противоречий в законодательстве, оценка судебных перспектив. Задачи, на которых стажируются реальные юристы. Бенчмарк проверяет не знание законов (это можно загуглить), а юридическое мышление - способность видеть связи, предсказывать последствия, находить лазейки.
Ключевое отличие Mercor от других тестов: здесь нет "правильных" ответов в классическом понимании. Есть профессионально обоснованные позиции, которые должны выдерживать критику опытного юриста.
18.4% → 29.8%: что изменилось за одну версию
Claude Opus 4.5 в начале февраля показывал 18.4%. Уже неплохо для AI, но недостаточно для реальной юридической работы. Через неделю выходит Opus 4.6 - и результат подскакивает до 29.8%.
11.4 процентных пункта за один релиз. В мире больших моделей это не эволюция, это революция.
| Модель | Версия | Mercor Score | Дата теста |
|---|---|---|---|
| Claude Opus | 4.5 | 18.4% | 01.02.2026 |
| Claude Opus | 4.6 | 29.8% | 08.02.2026 |
| GPT-5 (базовая) | Latest | 22.1% | 05.02.2026 |
| Gemini Ultra 2.5 | 2.5 | 19.7% | 06.02.2026 |
Цифры сухие. А теперь представьте: юридическая фирма нанимает стажера. Он решает 18 из 100 задач правильно. Через неделю - уже 30 из 100. За неделю. Без дополнительного обучения. Просто прочитал новые инструкции.
Именно это и произошло с Opus 4.6.
Agent Swarms: когда один мозг недостаточен
Секрет не в размере модели. Не в дополнительных параметрах. Секрет в архитектуре, которую Anthropic называет "agent swarms" - агентские рои.
До 4.6 работало так: один экземпляр модели получал задачу, думал, выдавал ответ. Как один юрист, который пытается быть специалистом во всем.
Agent swarms меняют правила: теперь внутри Opus 4.6 работает несколько "агентов" с разными специализациями. Один анализирует текст контракта. Второй ищет прецеденты. Третий оценивает риски. Четвертый проверяет на соответствие законодательству. Они общаются между собой, спорят, приходят к консенсусу.
Почему это работает в юриспруденции? Потому что юридическое мышление - это по определению мультидисциплинарный процесс. Ни один юрист не работает в вакууме. Он консультируется с коллегами, проверяет у стажеров, спорит с оппонентами. Agent swarms эмулируют этот естественный процесс.
Кстати, если интересно, как работают классические мультиагентные системы в коде, посмотрите статью про Owlex - там разбирается подход с четырьмя отдельными агентами.
Как работает рой в юридической задаче
Возьмем конкретный пример из Mercor: анализ договора аренды коммерческой недвижимости.
Старый подход (Opus 4.5): модель читает весь договор, пытается удержать в голове все детали, выдает общий анализ. Пропускает нюансы. Путается в условиях.
Новый подход (Opus 4.6 с agent swarms):
1 Агент-анализатор текста
Выделяет ключевые положения: срок аренды, стоимость, условия расторжения. Работает как внимательный читатель, который не пропускает детали.
2 Агент-правовед
Проверяет каждое положение на соответствие Гражданскому кодексу, закону об аренде, местным нормам. Знает, какие формулировки законны, какие - спорные.
3 Агент-рисколог
Оценивает, какие положения могут привести к спорам. Какие формулировки двусмысленны. Где арендатор или арендодатель могут попасть в ловушку.
4 Агент-переговорщик
Предлагает альтернативные формулировки. Объясняет, как изменить пункты договора в пользу клиента. Действует как опытный юрист на переговорах.
Все эти агенты работают параллельно. Обмениваются информацией. Создают коллективный разум, который превосходит сумму частей.
Важный нюанс: agent swarms в Opus 4.6 - это не просто "разделение труда". Это эмерджентное поведение, когда взаимодействие агентов создает новые insights, которые не мог бы получить ни один агент в отдельности.
Почему именно юриспруденция? И почему сейчас?
Юридические задачи идеально подходят для agent swarms по трем причинам:
- Структурированность: Право строится на прецедентах, законах, правилах. Есть четкие рамки для анализа
- Многогранность: Каждая задача требует рассмотрения с разных углов: буква закона, судебная практика, практическая реализация
- Консенсус-ориентированность: Юридическое решение редко бывает единственно правильным. Чаще это взвешивание аргументов и выбор наиболее обоснованной позиции
Anthropic не случайно выбрала юриспруденцию для демонстрации agent swarms. Это область, где человеческий экспертный консенсус - норма. Где коллегиальные решения ценятся выше индивидуальных.
Кстати, если вы думаете о переходе на мультиагентную архитектуру для своих проектов, почитайте критерии перехода на мультиагенты - там подробный разбор, когда это действительно нужно.
Что это значит для разработчиков AI-агентов
Результаты Opus 4.6 на Mercor - это не просто цифры. Это сигнал всей индустрии:
- Эра одиночных агентов заканчивается. Будущее за системами, которые могут эмулировать коллективное мышление
- Профессиональные домены открываются для AI. Если модель показывает почти 30% в юридическом тесте сегодня, через год может показать 50%. А это уже уровень начинающего юриста
- Архитектура важнее размера. Увеличение параметров дает diminishing returns. Переосмысление архитектуры - прорывы
Для тех, кто разрабатывает AI-агентов, есть прямой вывод: присмотритесь к swarm-архитектурам. Даже если вы не работаете с Anthropic, идею можно адаптировать.
Посмотрите, как Anthropic экспериментировала с 16 агентами для создания компилятора в том знаменитом эксперименте. Там были заложены основы того, что теперь стало agent swarms.
Ограничения и подводные камни
29.8% - это прорыв. Но не панацея.
Во-первых, Mercor - все еще искусственный тест. Реальная юридическая работа сложнее. Клиенты капризнее. Судьи непредсказуемее.
Во-вторых, agent swarms увеличивают сложность отладки. Когда один агент ошибается, понять почему - просто. Когда ошибается взаимодействие пяти агентов - квест.
В-третьих, есть проблема "переговорного тупика". Агенты могут зациклиться в спорах, не приходя к консенсусу. Нужны механизмы разрешения конфликтов.
И главное: юридическая ответственность. Если AI дает совет, который приводит к судебному проигрышу, кто отвечает? Модель? Разработчик? Юрист, который доверился модели?
Кстати, о том, как агенты могут "лгать" или нарушать правила, чтобы угодить пользователю, есть отличный разбор в статье про CAR-bench. В юриспруденции эта проблема особенно остра.
Что будет дальше?
Opus 4.6 показал, что agent swarms работают. Следующий шаг - специализированные рои.
Представьте: не универсальный юридический рой, а рой для налогового права. Рой для интеллектуальной собственности. Рой для международных контрактов. Каждый с оптимизированным набором агентов.
Или еще интереснее: гибридные рои, где часть агентов - AI, часть - шаблоны, часть - вызовы внешних API с юридическими базами данных.
Уже сейчас появляются решения вроде умного управления контрактами на Amazon Bedrock, которые используют похожие принципы.
Мой прогноз: к концу 2026 года мы увидим первую юридическую фирму, где AI с agent swarms будет полноценным членом команды. Не инструментом, а коллегой. Со своими сильными сторонами (анализ больших объемов документов за секунды) и слабыми (непонимание человеческих мотиваций).
А пока - следите за обновлениями Anthropic. Если они смогли добавить 11.4% за одну версию, следующее обновление может быть еще интереснее.
И последнее: не ждите, пока ваша модель "сама научится" работать в рое. Экспериментируйте с архитектурами сейчас. Потому что те, кто сегодня разбирается в agent swarms, завтра будут определять, как AI работает в профессиональных доменах.