Apex-Agents бенчмарк: ИИ не заменит белых воротничков до 2030 года | AiManual
AiManual Logo Ai / Manual.
23 Янв 2026 Новости

Топ-модели провалились в бенчмарке Apex-Agents. ИИ-агентам до офисных работников ещё 5 лет

Новый бенчмарк Apex-Agents от Mercor показал: даже GPT-4.5 Turbo и Claude 3.7 Sonnet не справляются с реальными рабочими задачами. Разбираем провалы.

Офис – последний бастион человечества

Вот уже три года каждый второй инвестор в ИИ ищет ту самую компанию, которая заменит менеджеров среднего звена автономными агентами. Прогнозы сулили, что к 2025 году мы будем управлять командами ИИ как роботами, а не сотрудниками.

Новый бенчмарк Apex-Agents от платформы Mercor жестоко отрезвил всех. Он проверил, как современные LLM справляются с реальными офисными задачами. Результаты? Даже флагманские модели OpenAI и Anthropic не дотягивают до уровня стажёра-человека.

Ключевой вывод исследования: современные ИИ-агенты показывают приемлемую производительность (выше 70%) только в узких, предсказуемых задачах. Как только появляется необходимость искать информацию в разных доменах или принимать решения с неполными данными – их эффективность падает до 30-40%.

Что такое Apex-Agents и почему он отличается от всех остальных тестов

Большинство бенчмарков проверяют модели на абстрактных задачах: решить математическую головоломку, написать код, ответить на вопрос по истории. Apex-Agents симулирует реальный рабочий день.

Агентам дают доступ к корпоративным инструментам: почта, CRM, база знаний, календарь. И ставят задачи, которые ежедневно решают офисные работники:

  • Спланировать командировку с учётом бюджета и доступности коллег
  • Подготовить отчёт по продажам, собрав данные из трёх разных систем
  • Ответить на сложный запрос клиента, найдя информацию в устаревшей базе знаний
  • Скоординировать работу трёх отделов для запуска нового продукта

И это не просто «напиши ответ». Агенты должны реально взаимодействовать с API, искать информацию, принимать решения на основе неполных данных. Как раз то, что делают белые воротнички.

Модель (версия на 23.01.2026) Общая точность, % Задачи с поиском данных Координационные задачи
GPT-4.5 Turbo (самая новая) 68.2 54.7 61.3
Claude 3.7 Sonnet 65.8 52.1 59.8
Gemini Ultra 2.0 62.4 48.9 57.1
GPT-4o-mini (обновлённая) 58.7 45.2 53.6
Человек-стажёр (контрольная группа) 82.5 78.9 80.4

Цифры говорят сами за себя. Даже лучшая модель, GPT-4.5 Turbo, отстаёт от человека на 14 процентных пунктов. В задачах, где нужно искать информацию в разных источниках – разрыв достигает 24 пунктов.

Где агенты тупят конкретно (и как это выглядит в реальности)

Исследователи зафиксировали типичные паттерны провалов. Вот три самых показательных:

1. Проклятие контекста

Агенты отлично работают, когда вся информация в одном месте. Но как только нужно собрать данные из почты, CRM и базы знаний – начинается хаос.

Пример из теста: «Найди все договоры с клиентом X за последний год, проверь их статус в CRM и составь сводку по оплатам». GPT-4.5 находит договоры, но забывает проверить статусы. Claude находит статусы, но теряет часть договоров. Ни одна модель не выполнила задачу идеально с первого раза.

💡
Это объясняет, почему в реальных проектах вроде «AI-агенты как сотрудники» разработчики вынуждены создавать сложные системы контроля. Агенты не могут самостоятельно координировать работу между разными источниками данных.

2. Непонимание корпоративной иерархии

Задача: «Согласуй с финансовым отделом бюджет на следующий квартал». Человек понимает: нужно найти руководителя отдела, узнать процедуру согласования, подготовить документы по шаблону.

Агент же часто пытается «согласовать» напрямую с CRM-системой или отправляет запрос на несуществующий email. Он не понимает неявных правил корпоративной культуры – что можно, а что нельзя.

3. Критический недостаток: неспособность сказать «я не знаю»

Самый опасный провал. Когда агент сталкивается с недостатком данных, он не запрашивает дополнительную информацию (как сделал бы человек), а начинает генерировать предположения. Часто – неверные.

В одном из тестовых сценариев агент, не найдя информацию о сроке действия договора, «решил», что он бессрочный, и начал планировать работы на следующий год. Реальный сотрудник позвонил бы юристам.

Исследование Mercor подтверждает выводы более ранней работы о том, что команды ИИ-агентов могут приносить больше вреда, чем пользы, если их не контролировать. Автономность сегодня – это риск, а не преимущество.

Что со всеми этими мультиагентными системами?

Казалось бы, решение очевидно: если один агент не справляется, нужно создать команду специализированных агентов. Один ищет данные, другой анализирует, третий координирует.

Но Apex-Agents показал, что это не панацея. Мультиагентные системы показывают даже худшие результаты в координационных задачах. Агенты начинают конфликтовать друг с другом, дублируют работу или, наоборот, бросают задачи, считая, что их выполнит кто-то другой.

«Мы ожидали, что специализированные агенты будут работать лучше, – говорит ведущий исследователь Mercor. – Но на практике координация между ними требует такой сложной архитектуры, что проще нанять человека».

Это перекликается с проблемами, описанными в статье про превращение распределённого ИИ в монолит. Теоретически красиво, на практике – технический кошмар.

Так когда же агенты заменят офисных работников? Прогноз на 2030 год

Исследователи Mercor дали осторожный прогноз: до массовой замены белых воротничков автономными агентами – минимум 5 лет. И то при условии прорыва в трёх областях:

  1. Долгосрочная память и контекст. Модели должны научиться работать с контекстом в сотни тысяч токенов без потери качества. Сегодняшние 128K – недостаточно для реального рабочего дня.
  2. Понимание неявных правил. ИИ должен научиться считывать корпоративную культуру, иерархию, неформальные отношения. Без этого любая координация обречена на провал.
  3. Умение работать с неопределённостью. Ключевой навык человека – принимать решения при недостатке данных. Агенты же либо замирают, либо начинают галлюцинировать.

Пока же наиболее реалистичный сценарий – гибридные системы, где агенты помогают людям, а не заменяют их. Как в случае с архитектурой Джеффа Эмануэля, где 20+ агентов работают под жёстким контролем человека.

💡
Если вы всё ещё верите в скорую автономию ИИ-агентов, посмотрите на реальный кейс с агентом, потребовавшим $5000. Это не будущее – это уже настоящее, и оно выглядит скорее комично, чем угрожающе.

Что делать прямо сейчас? Совет от практиков

Не ждите автономных агентов. Вместо этого:

  • Внедряйте ИИ как ассистентов, а не как замену. Пусть готовят черновики, ищут информацию, напоминают о дедлайнах.
  • Инвестируйте в системы контроля. Как показано в статье про централизованный контроль доступа, без этого агенты быстро выходят из-под контроля.
  • Тестируйте на реальных задачах, а не на демо. Создайте свой мини-бенчмарк из ежедневных рабочих процессов.
  • Следите за развитием инструментов вроде Mercor и OpenEnv Hub от Meta – они создают инфраструктуру для будущих агентов.

И главное – не верьте хайпу. Если кто-то говорит, что его агенты уже заменяют менеджеров проектов, попросите показать результаты на бенчмарке Apex-Agents. Скорее всего, их просто нет.

А пока – ваша работа в безопасности. По крайней мере, до следующего прорыва в архитектуре LLM. Или до того момента, пока агенты не научатся не врать о недостающих данных.