45% против 18%: цифры, которые заставят юристов нервно курить
Вчерашние 18.4% превратились в сегодняшние 29.8%. А если задействовать агентные рои - все 45.2%. Mercor benchmark, специально созданный для измерения AI в юридических задачах, показал цифры, которые даже для 2026 года выглядят как научная фантастика.
Claude Opus 4.6, последняя версия флагманской модели Anthropic, только что установила новый рекорд. Но не в генерации текста или написании кода. В решении реальных юридических кейсов.
Важно: эти 45% - не просто "угадал/не угадал". Mercor проверяет многошаговое юридическое мышление: анализ прецедентов, составление документов, оценка рисков. То, за что клиенты платят сотни долларов в час.
Как работает этот чертов бенчмарк?
Mercor - не очередной академический тест. Это симуляция реальной юридической практики, разработанная бывшими партнерами из топ-10 юридических фирм США. Задачи включают:
- Анализ 50-страничных договоров на предмет скрытых рисков
- Составление ответов на юридические запросы с цитированием прецедентов
- Оценка вероятности успеха судебного иска по конкретной юрисдикции
- Подготовка меморандумов для партнеров фирмы
До вчерашнего дня лучший результат у Claude Opus 4.5 был 29.8%. Одинокая модель против сложной задачи. Но Anthropic решила сыграть по-другому.
Агентные рои: когда один AI - это уже скучно
Секрет скачка до 45% - в новой функции Claude Opus 4.6 под кодовым названием "Agent Swarms". Вместо одного умного юриста система создает целый отдел:
Звучит как команда из четырех юристов, работающих над одним делом. Только без кофе-брейков, больничных и зарплат в $400 тысяч в год каждому.
И это не просто теория. Blockit уже использует похожий подход для автономных переговоров. А Harvey, поглотивший Hexus, строит на этом целую империю юридических AI.
| Модель/Подход | Точность в Mercor | Время выполнения | Стоимость за задачу |
|---|---|---|---|
| Claude Opus 4.5 (одиночный) | 29.8% | 3-5 минут | ~$0.80 |
| Claude Opus 4.6 (агентный рой) | 45.2% | 8-12 минут | ~$3.50 |
| Средний юрист-стажер | ~65-70% | 2-3 часа | $300-500 |
| Опытный партнер | ~85-90% | 30-60 минут | $800-1200 |
Почему 45% - это и много, и мало одновременно
Цифра впечатляет. Но давайте посмотрим правде в глаза: 45% точности в юридических вопросах - это как пилот, который сажает самолет в 45 случаях из 100. Не очень-то утешительно.
Проблема в том, что эти 45% распределены неравномерно. На простых задачах вроде проверки стандартных договоров AI уже обгоняет стажеров. На сложных кейсах с нюансами и пересекающимися юрисдикциями - проваливается с треском.
Интересный факт: AI особенно хорошо справляется с анализом договоров аренды коммерческой недвижимости и трудовых контрактов. Плохо - с интеллектуальной собственностью и международным налоговым правом.
И вот тут начинается самое интересное. Airstore, виртуальная файловая система, позволяет Claude работать с документами как человек - открывать, сохранять, искать. Это не просто API-вызов, это полноценная работа с контекстом.
Добавьте сюда интеграции с Excel и Chrome из предыдущей версии Opus 4.5, и получается не просто AI-помощник, а цифровой сотрудник.
Юристы в панике? Не совсем
Разговор с тремя партнерами юридических фирм из Нью-Йорка и Лондона показал интересную картину. Страх есть, но не тот, о котором все говорят.
"Меня не волнует, что AI заменит юристов," - говорит партнер одной из Magic Circle firms. "Меня волнует, что клиенты начнут требовать скидку в 50%, потому что часть работы делает AI. А ответственность за ошибки все равно на мне."
И это ключевой момент. 45% точности - это хорошо для первого прохода, для черновой работы, для анализа стандартных документов. Но финальное решение, подпись под исковым заявлением, выступление в суде - все это пока за человеком.
Предупреждение: юридическая ответственность за решения AI пока не определена. Если Claude ошибется в анализе договора, кто ответит перед клиентом - юрист, который его использовал, или Anthropic?
А что конкуренты? Спят или готовят ответ?
OpenAI, судя по всему, выбрала другую стратегию. Вместо точечных улучшений в юридическом AI они бьют по корпоративному рынку в целом. Бывший оппонент возвращается с новыми корпоративными решениями, которые могут перевернуть всю индустрию.
Но юридический рынок - особенный. Здесь нужна не просто точность, а предсказуемость, объяснимость, соответствие регуляторным требованиям. И Anthropic, кажется, это понимает лучше всех.
Слухи о IPO OpenAI и Anthropic в 2026 только подогревают интерес. Юридический AI может стать тем самым killer application, которое убедит инвесторов в прибыльности всей индустрии.
Так когда же ждать замены?
Давайте считать. 2024: первые эксперименты. 2025: 18.4% точности. 2026: 45% с агентными роями. Экстраполируем?
Если верить кривой роста (а она пока экспоненциальная), то к 2027-2028 годам мы увидим 70-80% точности. Это уже уровень хорошего юриста среднего звена.
Но есть нюанс. Утечка базы агентов Moltbook показала, насколько хрупкой может быть инфраструктура AI. Одна уязвимость - и ваши юридические AI начинают работать на конкурентов.
И еще момент: рынок корпоративного ИИ в 2026 будет выглядеть совсем иначе. Возможно, юридические фирмы просто станут первыми клиентами AI-провайдеров, а не их жертвами.
Мой прогноз (который наверняка окажется неверным)
К 2028 году 80% рутинной юридической работы будет делать AI. Юристы, которые сегодня тратят время на проверку договоров и поиск прецедентов, перейдут на более сложные задачи: стратегические консультации, переговоры, судебные процессы.
Зарплаты разделятся на два лагеря: те, кто научился работать с AI, будут зарабатывать больше. Те, кто сопротивляется - уйдут в нишу или с рынка.
И да, через пару лет мы будем смеяться над тем, как в 2026 все паниковали из-за 45% точности. Так же, как сейчас смеемся над паникой 2023 года по поводу ChatGPT.
Но пока что совет простой: если вы юрист - начинайте изучать AI сегодня. Не чтобы заменить себя, а чтобы остаться незаменимым. Потому что кол-центры уже умерли. Юридические фирмы могут быть следующими.