Синтетические тесты лгут. Реальные сайты - убивают

Каждый день выходит новый ИИ-агент, который "революционизирует" веб-автоматизацию. Он прекрасно проходит все синтетические тесты. Идеально кликает по кнопкам на тренировочных стендах. А потом вы запускаете его на реальном сайте, и он не может даже залогиниться.

ClawBench - это холодный душ для всей индустрии. Бенчмарк, который не спрашивает, может ли агент кликнуть по кнопке. Он спрашивает, может ли агент выполнить реальную задачу на реальном сайте. Результаты? Лучшая модель на апрель 2026 года - Claude Sonnet 4.5 - справляется лишь в 33% случаев. Остальные - еще хуже.

Забудьте про красивые графики из статей про синтетические тесты. Реальный мир браузерной автоматизации - это грязные DOM-деревья, капризный JavaScript и формы, которые ломаются от малейшего неверного действия.

Что за зверь такой - ClawBench?

ClawBench - это открытый бенчмарк, который тестирует ИИ-агентов на 50 реальных веб-сайтах. Не на симуляторах. Не на специально подготовленных страницах. На живых сайтах, которые меняются каждый день.

Каждая задача в бенчмарке - это реальный сценарий: "найти рейс из Нью-Йорка в Лондон на следующей неделе", "добавить товар в корзину на Amazon", "зарегистрироваться на бесплатный вебинар". Звучит просто? Попробуйте заставить ИИ-агента сделать это без ошибок.

Что проверяет ClawBench	Почему это сложно для ИИ
Навигация по динамическим меню	JavaScript-меню, которые появляются при наведении
Заполнение форм с капчей	Не все капчи видны в DOM-дереве
Поиск товаров в интернет-магазинах	Каждый сайт использует уникальную структуру фильтров
Работа с модальными окнами	Окна могут блокировать основной поток страницы

А чем он лучше других бенчмарков?

Вы знаете ABC-Bench? Тот, где агенты проваливаются на Docker и pip install? ClawBench - его брат-близнец, только для фронтенда. Если ABC-Bench ломает агентов на настройке окружения, то ClawBench добивает их на интерфейсе.

Есть еще PropensityBench - он проверяет, как агенты нарушают правила под давлением. Но ClawBench не проверяет мораль. Он проверяет базовые навыки выживания в дикой природе веба.

Главное отличие: ClawBench использует реальные сайты через sandbox-браузер. Не эмуляцию. Не скриншоты. Настоящий браузер с JavaScript, куками и сессиями. Как в OpenClaw и Browser Sandbox, только для тестирования.

Ставим ClawBench. Без боли (почти)

Код на GitHub. Документация есть. Но есть нюансы, о которых не пишут в README.md.

1 Готовим окружение

ClawBench написан на Python и требует браузера. Не того, что у вас стоит. Изолированного, управляемого через WebDriver.

# Клонируем репозиторий (актуально на апрель 2026)
git clone https://github.com/clawbench/clawbench.git
cd clawbench

# Ставим зависимости
pip install -r requirements.txt

# Ставим ChromeDriver или GeckoDriver
# Без этого ничего не заработает
brew install chromedriver  # для macOS
# или
apt-get install chromium-chromedriver  # для Ubuntu

Внимание: ClawBench требует стабильного интернет-соединения. Он грузит реальные сайты. Если ваш провайдер тормозит - результаты будут некорректными. И да, некоторые сайты могут заблокировать запросы от автоматизированных систем.

2 Настраиваем ИИ-агента

ClawBench не поставляется с ИИ-моделью. Вы подключаете свою. Через API или локально. Самые популярные варианты на 2026 год:

Claude Sonnet 4.5 через Anthropic API (платно, но показывает лучшие результаты)
GPT-5 через OpenAI API (дороже, но иногда лучше понимает контекст)
Локальный Qwen2.5-32B через Ollama (бесплатно, но медленнее и тупее)

# Пример конфигурации для Claude Sonnet 4.5
# В файле config.yaml
agent:
  provider: "anthropic"
  model: "claude-4-5-sonnet"
  api_key: ${ANTHROPIC_API_KEY}  # никогда не храните в коде!

3 Запускаем тесты и плачем

Команда простая. Результаты - депрессивные.

# Запуск всех 50 тестов
python run_benchmark.py --all-tasks

# Запуск только задач с покупками
python run_benchmark.py --category "shopping"

# С ограничением времени на задачу (30 секунд)
python run_benchmark.py --timeout 30

Система выдает подробный отчет: сколько задач пройдено, сколько провалено, где агент застрял, какие действия совершал. Самый болезненный раздел - "ложные успехи". Когда агент думает, что выполнил задачу, а на самом деле нет.

"А можно пример?" - можно

Задача: зарегистрироваться на сайте событий. Агент должен найти форму регистрации, заполнить поля, принять условия, отправить.

Что делает типичный ИИ-агент? Он находит первую же форму на странице и начинает ее заполнять. Даже если это форма подписки на рассылку в футере. Даже если поля "Имя" и "Email" называются одинаково на всех формах, контекст разный.

ClawBench фиксирует эту ошибку. Потому что после "успешной" регистрации агент должен проверить, пришло ли подтверждение. И если нет - задача провалена.

💡

Совет: перед запуском на всех 50 сайтах протестируйте агента на 2-3. Настройте промпты. Посмотрите, как он взаимодействует с браузерным рабочим пространством. Возможно, вашему агенту не хватает контекста о структуре типичных веб-страниц.

Кому этот инструмент сломает психику?

Исследователям ИИ: тем, кто думает, что их агент готов к продакшену. ClawBench быстро вернет на землю.
Разработчикам RPA: которые хотят заменить скрипты на ИИ. Увидите, где ИИ проигрывает простым скриптам.
Стартапам в области автономных агентов: прежде чем показывать демо инвесторам, проверьте здесь. Чтобы не краснеть на презентации.
Энтузиастам локальных моделей: особенно тем, кто экспериментирует с on-device браузерными агентами. ClawBench покажет разницу между облачными и локальными моделями.

Что дальше? Прогноз от того, кто видел эти 33%

ClawBench - не приговор. Это диагноз. Индустрия веб-автоматизации ИИ больна синтетическими тестами. Мы хвалим модели за то, что они делают в стерильных условиях, и удивляемся, почему они не работают в реальности.

К концу 2026 года появится минимум три форка ClawBench с еще более жесткими тестами. Кто-то добавит тесты на мобильные версии сайтов. Кто-то - на сайты с агрессивной антибот-защитой. И тогда даже 33% успеха покажутся роскошью.

Мой совет: не гонитесь за процентом успеха в ClawBench. Гонитесь за пониманием, почему ваш агент проваливает конкретные задачи. Исследуйте логи. Смотрите, в какой момент он теряет контекст. Может быть, ему не хватает не интеллекта, а устойчивости к давлению таймаутов? Или способности читать между строк DOM-дерева?

Инструменты вроде ClawBench и автономных QA-агентов - это не просто тесты. Это зеркало, в котором индустрия должна увидеть свое настоящее лицо. Без грима синтетических метрик.

Подписаться на канал

ClawBench: как установить и использовать бенчмарк для тестирования ИИ-агентов на реальных сайтах