Офис – последний бастион человечества
Вот уже три года каждый второй инвестор в ИИ ищет ту самую компанию, которая заменит менеджеров среднего звена автономными агентами. Прогнозы сулили, что к 2025 году мы будем управлять командами ИИ как роботами, а не сотрудниками.
Новый бенчмарк Apex-Agents от платформы Mercor жестоко отрезвил всех. Он проверил, как современные LLM справляются с реальными офисными задачами. Результаты? Даже флагманские модели OpenAI и Anthropic не дотягивают до уровня стажёра-человека.
Ключевой вывод исследования: современные ИИ-агенты показывают приемлемую производительность (выше 70%) только в узких, предсказуемых задачах. Как только появляется необходимость искать информацию в разных доменах или принимать решения с неполными данными – их эффективность падает до 30-40%.
Что такое Apex-Agents и почему он отличается от всех остальных тестов
Большинство бенчмарков проверяют модели на абстрактных задачах: решить математическую головоломку, написать код, ответить на вопрос по истории. Apex-Agents симулирует реальный рабочий день.
Агентам дают доступ к корпоративным инструментам: почта, CRM, база знаний, календарь. И ставят задачи, которые ежедневно решают офисные работники:
- Спланировать командировку с учётом бюджета и доступности коллег
- Подготовить отчёт по продажам, собрав данные из трёх разных систем
- Ответить на сложный запрос клиента, найдя информацию в устаревшей базе знаний
- Скоординировать работу трёх отделов для запуска нового продукта
И это не просто «напиши ответ». Агенты должны реально взаимодействовать с API, искать информацию, принимать решения на основе неполных данных. Как раз то, что делают белые воротнички.
| Модель (версия на 23.01.2026) | Общая точность, % | Задачи с поиском данных | Координационные задачи |
|---|---|---|---|
| GPT-4.5 Turbo (самая новая) | 68.2 | 54.7 | 61.3 |
| Claude 3.7 Sonnet | 65.8 | 52.1 | 59.8 |
| Gemini Ultra 2.0 | 62.4 | 48.9 | 57.1 |
| GPT-4o-mini (обновлённая) | 58.7 | 45.2 | 53.6 |
| Человек-стажёр (контрольная группа) | 82.5 | 78.9 | 80.4 |
Цифры говорят сами за себя. Даже лучшая модель, GPT-4.5 Turbo, отстаёт от человека на 14 процентных пунктов. В задачах, где нужно искать информацию в разных источниках – разрыв достигает 24 пунктов.
Где агенты тупят конкретно (и как это выглядит в реальности)
Исследователи зафиксировали типичные паттерны провалов. Вот три самых показательных:
1. Проклятие контекста
Агенты отлично работают, когда вся информация в одном месте. Но как только нужно собрать данные из почты, CRM и базы знаний – начинается хаос.
Пример из теста: «Найди все договоры с клиентом X за последний год, проверь их статус в CRM и составь сводку по оплатам». GPT-4.5 находит договоры, но забывает проверить статусы. Claude находит статусы, но теряет часть договоров. Ни одна модель не выполнила задачу идеально с первого раза.
2. Непонимание корпоративной иерархии
Задача: «Согласуй с финансовым отделом бюджет на следующий квартал». Человек понимает: нужно найти руководителя отдела, узнать процедуру согласования, подготовить документы по шаблону.
Агент же часто пытается «согласовать» напрямую с CRM-системой или отправляет запрос на несуществующий email. Он не понимает неявных правил корпоративной культуры – что можно, а что нельзя.
3. Критический недостаток: неспособность сказать «я не знаю»
Самый опасный провал. Когда агент сталкивается с недостатком данных, он не запрашивает дополнительную информацию (как сделал бы человек), а начинает генерировать предположения. Часто – неверные.
В одном из тестовых сценариев агент, не найдя информацию о сроке действия договора, «решил», что он бессрочный, и начал планировать работы на следующий год. Реальный сотрудник позвонил бы юристам.
Исследование Mercor подтверждает выводы более ранней работы о том, что команды ИИ-агентов могут приносить больше вреда, чем пользы, если их не контролировать. Автономность сегодня – это риск, а не преимущество.
Что со всеми этими мультиагентными системами?
Казалось бы, решение очевидно: если один агент не справляется, нужно создать команду специализированных агентов. Один ищет данные, другой анализирует, третий координирует.
Но Apex-Agents показал, что это не панацея. Мультиагентные системы показывают даже худшие результаты в координационных задачах. Агенты начинают конфликтовать друг с другом, дублируют работу или, наоборот, бросают задачи, считая, что их выполнит кто-то другой.
«Мы ожидали, что специализированные агенты будут работать лучше, – говорит ведущий исследователь Mercor. – Но на практике координация между ними требует такой сложной архитектуры, что проще нанять человека».
Это перекликается с проблемами, описанными в статье про превращение распределённого ИИ в монолит. Теоретически красиво, на практике – технический кошмар.
Так когда же агенты заменят офисных работников? Прогноз на 2030 год
Исследователи Mercor дали осторожный прогноз: до массовой замены белых воротничков автономными агентами – минимум 5 лет. И то при условии прорыва в трёх областях:
- Долгосрочная память и контекст. Модели должны научиться работать с контекстом в сотни тысяч токенов без потери качества. Сегодняшние 128K – недостаточно для реального рабочего дня.
- Понимание неявных правил. ИИ должен научиться считывать корпоративную культуру, иерархию, неформальные отношения. Без этого любая координация обречена на провал.
- Умение работать с неопределённостью. Ключевой навык человека – принимать решения при недостатке данных. Агенты же либо замирают, либо начинают галлюцинировать.
Пока же наиболее реалистичный сценарий – гибридные системы, где агенты помогают людям, а не заменяют их. Как в случае с архитектурой Джеффа Эмануэля, где 20+ агентов работают под жёстким контролем человека.
Что делать прямо сейчас? Совет от практиков
Не ждите автономных агентов. Вместо этого:
- Внедряйте ИИ как ассистентов, а не как замену. Пусть готовят черновики, ищут информацию, напоминают о дедлайнах.
- Инвестируйте в системы контроля. Как показано в статье про централизованный контроль доступа, без этого агенты быстро выходят из-под контроля.
- Тестируйте на реальных задачах, а не на демо. Создайте свой мини-бенчмарк из ежедневных рабочих процессов.
- Следите за развитием инструментов вроде Mercor и OpenEnv Hub от Meta – они создают инфраструктуру для будущих агентов.
И главное – не верьте хайпу. Если кто-то говорит, что его агенты уже заменяют менеджеров проектов, попросите показать результаты на бенчмарке Apex-Agents. Скорее всего, их просто нет.
А пока – ваша работа в безопасности. По крайней мере, до следующего прорыва в архитектуре LLM. Или до того момента, пока агенты не научатся не врать о недостающих данных.