Что такое Mercor benchmark?

Mercor - специализированный тест для оценки AI в юридических задачах, разработанный бывшими партнерами топ-10 юридических фирм США. Он проверяет многошаговое юридическое мышление: анализ договоров, составление документов, оценку рисков.

Что такое агентные рои в Claude Opus 4.6?

Agent Swarms - новая функция Claude Opus 4.6, где несколько AI-агентов работают вместе над одной задачей. Например, один анализирует договор, второй ищет прецеденты, третий оценивает риски, четвертый готовит документ.

Насколько точность 45% опасна для юристов?

45% точности - это уровень, при котором AI может выполнять черновую работу и анализ стандартных документов, но финальные решения и сложные кейсы пока остаются за человеком. Основная угроза - не полная замена, а требование клиентов о снижении стоимости услуг.

Когда AI заменит юристов?

Эксперты прогнозируют, что к 2028 году 80% рутинной юридической работы будет автоматизировано. Однако это создаст новые возможности: юристы, освоившие AI, будут заниматься более сложными и высокооплачиваемыми задачами.

Claude Opus 4.6: 45% в юридическом тесте Mercor - угроза юристам в 2026?

45% против 18%: цифры, которые заставят юристов нервно курить

Вчерашние 18.4% превратились в сегодняшние 29.8%. А если задействовать агентные рои - все 45.2%. Mercor benchmark, специально созданный для измерения AI в юридических задачах, показал цифры, которые даже для 2026 года выглядят как научная фантастика.

Claude Opus 4.6, последняя версия флагманской модели Anthropic, только что установила новый рекорд. Но не в генерации текста или написании кода. В решении реальных юридических кейсов.

Важно: эти 45% - не просто "угадал/не угадал". Mercor проверяет многошаговое юридическое мышление: анализ прецедентов, составление документов, оценка рисков. То, за что клиенты платят сотни долларов в час.

Как работает этот чертов бенчмарк?

Mercor - не очередной академический тест. Это симуляция реальной юридической практики, разработанная бывшими партнерами из топ-10 юридических фирм США. Задачи включают:

Анализ 50-страничных договоров на предмет скрытых рисков
Составление ответов на юридические запросы с цитированием прецедентов
Оценка вероятности успеха судебного иска по конкретной юрисдикции
Подготовка меморандумов для партнеров фирмы

До вчерашнего дня лучший результат у Claude Opus 4.5 был 29.8%. Одинокая модель против сложной задачи. Но Anthropic решила сыграть по-другому.

Агентные рои: когда один AI - это уже скучно

Секрет скачка до 45% - в новой функции Claude Opus 4.6 под кодовым названием "Agent Swarms". Вместо одного умного юриста система создает целый отдел:

💡

Один агент анализирует договор. Второй ищет прецеденты. Третий оценивает риски. Четвертый готовит финальный документ. И все они общаются между собой, спорят, находят ошибки друг у друга.

Звучит как команда из четырех юристов, работающих над одним делом. Только без кофе-брейков, больничных и зарплат в $400 тысяч в год каждому.

И это не просто теория. Blockit уже использует похожий подход для автономных переговоров. А Harvey, поглотивший Hexus, строит на этом целую империю юридических AI.

Модель/Подход	Точность в Mercor	Время выполнения	Стоимость за задачу
Claude Opus 4.5 (одиночный)	29.8%	3-5 минут	~$0.80
Claude Opus 4.6 (агентный рой)	45.2%	8-12 минут	~$3.50
Средний юрист-стажер	~65-70%	2-3 часа	$300-500
Опытный партнер	~85-90%	30-60 минут	$800-1200

Почему 45% - это и много, и мало одновременно

Цифра впечатляет. Но давайте посмотрим правде в глаза: 45% точности в юридических вопросах - это как пилот, который сажает самолет в 45 случаях из 100. Не очень-то утешительно.

Проблема в том, что эти 45% распределены неравномерно. На простых задачах вроде проверки стандартных договоров AI уже обгоняет стажеров. На сложных кейсах с нюансами и пересекающимися юрисдикциями - проваливается с треском.

Интересный факт: AI особенно хорошо справляется с анализом договоров аренды коммерческой недвижимости и трудовых контрактов. Плохо - с интеллектуальной собственностью и международным налоговым правом.

И вот тут начинается самое интересное. Airstore, виртуальная файловая система, позволяет Claude работать с документами как человек - открывать, сохранять, искать. Это не просто API-вызов, это полноценная работа с контекстом.

Добавьте сюда интеграции с Excel и Chrome из предыдущей версии Opus 4.5, и получается не просто AI-помощник, а цифровой сотрудник.

Юристы в панике? Не совсем

Разговор с тремя партнерами юридических фирм из Нью-Йорка и Лондона показал интересную картину. Страх есть, но не тот, о котором все говорят.

"Меня не волнует, что AI заменит юристов," - говорит партнер одной из Magic Circle firms. "Меня волнует, что клиенты начнут требовать скидку в 50%, потому что часть работы делает AI. А ответственность за ошибки все равно на мне."

И это ключевой момент. 45% точности - это хорошо для первого прохода, для черновой работы, для анализа стандартных документов. Но финальное решение, подпись под исковым заявлением, выступление в суде - все это пока за человеком.

Предупреждение: юридическая ответственность за решения AI пока не определена. Если Claude ошибется в анализе договора, кто ответит перед клиентом - юрист, который его использовал, или Anthropic?

А что конкуренты? Спят или готовят ответ?

OpenAI, судя по всему, выбрала другую стратегию. Вместо точечных улучшений в юридическом AI они бьют по корпоративному рынку в целом. Бывший оппонент возвращается с новыми корпоративными решениями, которые могут перевернуть всю индустрию.

Но юридический рынок - особенный. Здесь нужна не просто точность, а предсказуемость, объяснимость, соответствие регуляторным требованиям. И Anthropic, кажется, это понимает лучше всех.

Слухи о IPO OpenAI и Anthropic в 2026 только подогревают интерес. Юридический AI может стать тем самым killer application, которое убедит инвесторов в прибыльности всей индустрии.

Так когда же ждать замены?

Давайте считать. 2024: первые эксперименты. 2025: 18.4% точности. 2026: 45% с агентными роями. Экстраполируем?

Если верить кривой роста (а она пока экспоненциальная), то к 2027-2028 годам мы увидим 70-80% точности. Это уже уровень хорошего юриста среднего звена.

Но есть нюанс. Утечка базы агентов Moltbook показала, насколько хрупкой может быть инфраструктура AI. Одна уязвимость - и ваши юридические AI начинают работать на конкурентов.

И еще момент: рынок корпоративного ИИ в 2026 будет выглядеть совсем иначе. Возможно, юридические фирмы просто станут первыми клиентами AI-провайдеров, а не их жертвами.

Мой прогноз (который наверняка окажется неверным)

К 2028 году 80% рутинной юридической работы будет делать AI. Юристы, которые сегодня тратят время на проверку договоров и поиск прецедентов, перейдут на более сложные задачи: стратегические консультации, переговоры, судебные процессы.

Зарплаты разделятся на два лагеря: те, кто научился работать с AI, будут зарабатывать больше. Те, кто сопротивляется - уйдут в нишу или с рынка.

И да, через пару лет мы будем смеяться над тем, как в 2026 все паниковали из-за 45% точности. Так же, как сейчас смеемся над паникой 2023 года по поводу ChatGPT.

Но пока что совет простой: если вы юрист - начинайте изучать AI сегодня. Не чтобы заменить себя, а чтобы остаться незаменимым. Потому что кол-центры уже умерли. Юридические фирмы могут быть следующими.

Claude Opus 4.6 набирает 45% в юридическом бенчмарке: прорыв агентных AI или пока рано волноваться?