Agent Execution Tax: метрика для бенчмаркинга браузерных AI-агентов

Вы когда-нибудь задумывались, сколько времени ваш браузерный AI-агент тратит на себя, а не на выполнение задачи? Новое исследование, опубликованное 21 мая 2026 года, вводит метрику Agent Execution Tax — и она не льстит ни одному из популярных агентов.

Что такое этот «налог» и почему о нём молчали?

Представьте: вы отправляете агента забронировать билеты. Он открывает браузер, кликает, заполняет формы. Но параллельно его «мозг» генерирует десятки внутренних запросов — перечитывает DOM, перепланирует следующий шаг, логирует каждое движение. Всё это — Execution Tax: доля времени, которую агент тратит на собственную инфраструктуру, а не на прямые действия по задаче.

В среднем современные браузерные агенты (на базе GPT-4o, Claude 4 Opus, Gemini 2.5 Pro) тратят от 35% до 48% времени на выполнение операций, которые не касаются конечного результата. Это эквивалент налога — чем сложнее агент, тем выше ставка.

До сих пор бенчмарки типа WebArena или VisualWebArena замеряли только успешность выполнения — дошёл агент до цели или нет. Но никто не считал, сколько лишних шагов он сделал. Новая метрика предложена группой исследователей из Stanford AI Lab в сотрудничестве с LangChain — и она уже вызвала жаркие споры на Hacker News.

Как считают Execution Tax (и почему это больно)

Метрика определяется как отношение времени, потраченного на «внутренние» операции, к общему времени выполнения задачи. Внутренние операции включают:

Парсинг и анализ DOM (часто — многократный);
Генерацию промптов для LLM и ожидание ответа;
Логирование и самопроверки;
Планирование следующего шага (ReAct, Plan-and-Solve, Tree-of-Thoughts).

Звучит логично? Проблема в том, что у разных архитектур «налог» разный. Агенты с толстым рантаймом (например, на базе Playwright + собственный планировщик) платят 45–50%. Лёгкие модели, вроде специализированных VLM-ок, — около 30%. Но кто из них реально добирается до финиша? Толстый агент — почти всегда. Лёгкий — через раз.

И вот тут начинается самое интересное: чистый успех (success rate) и Execution Tax — антагонисты. Если вы жертвуете налоговой эффективностью ради точности, вы платите временем и деньгами. Если гонитесь за низким налогом — теряете в качестве. Идеального баланса пока нет.

Архитектура агента	Execution Tax (средн.)	Success Rate (WebArena)
GPT-4o + ReAct + Playwright	47%	62%
Claude 4 Opus + Computer Use API	41%	58%
Gemini 2.5 Pro + AutoJS	38%	55%
Специализированная VLM (WebLlama 3B)	31%	43%

Цифры из предварительного препринта (Stanford, май 2026). Обратите внимание: самый «налогово-эффективный» агент — самый тупой. Знакомый компромисс, правда?

Почему бенчмарки должны учитывать налог — иначе мы обманываем себя

Возьмём Open Agent Leaderboard. Там сравнивают агентов по качеству и цене. Но цена — это не только стоимость API-запросов. Это ещё и время, и циклы CPU. Agent Execution Tax добавляет третью ось: эффективность самого процесса выполнения. Агент может показывать 70% успеха, но при этом его налог равен 50% — значит, половину времени он просто «думает», а не работает.

Это критично для продакшена. Представьте, что вы внедряете агента в SaaS-сервис. Каждая секунда лишней работы — это задержка для пользователя и деньги на вычислительные ресурсы. Если агент тратит 40% времени на самопроверки, ваш сервер простаивает, а клиент нервничает. Исследователи уже предложили модифицировать бенчмарки так, чтобы учитывать не только бинарный успех, но и «налоговую нагрузку».

Пока ни один популярный бенчмарк не включает Execution Tax в финальный счёт. Но, судя по реакции сообщества, это вопрос нескольких месяцев. LangChain уже анонсировала поддержку метрики в своём Agent Engineering наборе инструментов.

Налог и деньги: как Execution Tax влияет на микроплатежи

Когда агент совершает лишние действия, он не просто тратит время — он генерирует лишние вызовы API. При цене 2 цента за вызов (а в некоторых системах доходит до 10 центов, как в микроплатежных схемах) налог в 40% превращается в прямой убыток. Amazon Bedrock AgentCore, Coinbase, Stripe — все они сейчас ломают голову, как минимизировать такие накладные расходы.

Более того, детерминированный контроль агентов напрямую упирается в Execution Tax: чем больше внутренних проверок вы добавляете, тем выше налог. Идеальный агент должен быть «бездумным» — чуть ли не рефлекторным. Но кто доверит деньги рефлексу?

Что дальше: агенты с низким налогом как новый стандарт

Главный вывод из этой истории не в том, что GPT-4o тратит 47% времени на себя. А в том, что мы, как индустрия, только начинаем понимать, какие метрики по-настоящему важны. Success Rate — это иллюзия. Cost per Task — ближе к истине, но всё ещё грубо. Execution Tax — попытка заглянуть под капот и понять, как именно агент тратит ресурсы.

Я поставлю на то, что уже к концу 2026 года топовые бенчмарки (WebArena 2.0, WAIT, OmniBench) введут Execution Tax как обязательную метрику. А разработчики агентов начнут гонку за снижением налога любой ценой — даже если это означает отказ от красивых, но жирных планировщиков в пользу лёгких, почти «тупых» архитектур.

Совет для тех, кто строит агентов сейчас: замеряйте Execution Tax на своих задачах. Если он выше 35% — вы переплачиваете. Либо упрощайте логику, либо переходите на специализированные VLMшки. И не забывайте, что защита от катастрофических ошибок — это тоже налог. Только тут вы платите не деньгами, а риском.

Подписаться на канал

Agent Execution Tax: новый налог, который платят браузерные AI-агенты (и вы заодно)

Что такое этот «налог» и почему о нём молчали?

Как считают Execution Tax (и почему это больно)

Почему бенчмарки должны учитывать налог — иначе мы обманываем себя

Налог и деньги: как Execution Tax влияет на микроплатежи

Что дальше: агенты с низким налогом как новый стандарт

Подписывайтесь на наш канал!