CUGA AI-агент от IBM: обзор, запуск, SOTA-результаты на AppWorld и WebArena | AiManual
AiManual Logo Ai / Manual.
25 Янв 2026 Инструмент

CUGA от IBM: агент, который не просто кликает, а думает

Обзор конфигурируемого AI-агента CUGA от IBM Research. Как запустить в Hugging Face Spaces, сравнение с альтернативами и примеры использования для веб-задач.

IBM выпустила агента, который не просто бродит по сайтам, а решает задачи

Представьте AI-агента, который заходит на сайт, видит интерфейс, понимает, что нужно сделать, и делает это. Не просто кликает наугад, а именно решает задачу: находит товар, оформляет заказ, заполняет форму. Звучит как фантастика? Для большинства агентов 2024 года так и было. Но в январе 2026 IBM Research представила CUGA - конфигурируемого универсального агента, который показывает state-of-the-art результаты на самых жестких бенчмарках.

Актуальность: CUGA выпущен 15 января 2026 года. В статье используются только данные на 25 января 2026 - последние доступные метрики, версии моделей и возможности демо.

Что такое CUGA и почему он не похож на других агентов

CUGA расшифровывается как Configurable Universal Grounding Agent. Универсальный - потому что работает и с веб-страницами, и с API, и с десктопными приложениями. Конфигурируемый - потому что его можно настроить под конкретную задачу без переобучения модели.

Главная фишка CUGA - он не просто смотрит на HTML или скриншот. Он строит семантическое представление интерфейса: понимает, что это кнопка "Купить", а это поле для email, а это список товаров. И делает это на лету, без предварительной разметки сайта.

Цифры, которые заставляют обратить внимание

В мире AI-агентов есть два главных бенчмарка: WebArena (реальные сайты в изолированной среде) и AppWorld (сложные многошаговые задачи в приложениях). Большинство агентов показывают там 20-40% успеха. Лучшие - около 60%.

Агент WebArena (янв. 2026) AppWorld (янв. 2026) Особенность
CUGA (IBM) 78.3% 82.1% Конфигурируемая архитектура
AgentCPM-Explore 2.0 71.2% 74.8% Локальный запуск
MiniMax M2.1 Agent 68.9% 72.3% Мультимодальность
Средний по рынку 42.5% 38.7% -

Разрыв в 10+ процентных пунктов - это не "немного лучше". Это качественный скачок. Особенно на AppWorld, где задачи требуют 10-15 последовательных действий без ошибок.

💡
CUGA использует модель Qwen2.5-32B-Instruct в качестве ядра рассуждений, но это не просто обертка вокруг LLM. Архитектура включает модуль семантического grounding'а, который преобразует интерфейс в структурированное представление, и планировщик задач, который разбивает цель на атомарные действия.

Как CUGA обходит конкурентов

Возьмем AgentCPM-Explore - отличный агент, который работает локально. Но он заточен под определенный тип задач. Или MiniMax M2.1 - мощный, но требует тонкой настройки под каждый сайт.

CUGA решает три ключевые проблемы:

  • Адаптивность: Не нужно обучать модель под каждый новый сайт. Достаточно описать задачу на естественном языке
  • Устойчивость к изменениям: Если дизайн сайта поменялся, CUGA перестраивает семантическое представление, а не ломается
  • Многошаговое планирование: Сам разбивает сложную задачу ("купи билеты на концерт и забронируй отель") на последовательность действий

Запустить за 2 минуты: демо в Hugging Face Spaces

IBM выложила полнофункциональную демонстрацию в Hugging Face Spaces. Не просто видео, а интерактивный интерфейс, где можно задать агенту задачу и посмотреть, как он ее выполняет.

1 Открываем демо

Переходим на страницу демо CUGA. Там уже настроены примеры задач: покупка на Amazon, бронирование на Booking.com, поиск информации в Wikipedia.

2 Задаем свою задачу

В поле ввода пишем что-то вроде: "Найди на Amazon ноутбук Dell с 32 ГБ RAM и SSD 1 ТБ, добавь в корзину". Или "Забронируй отель в Париже на 3 ночи с 10 по 13 марта, бюджет до 200 евро за ночь".

3 Смотрим процесс

Агент покажет каждое действие: нашел поисковую строку, ввел запрос, отфильтровал результаты, выбрал товар, нажал "Add to Cart". Все с пояснениями: почему он кликает именно здесь, как понимает, что это нужный товар.

Демо работает в изолированной среде с заранее подготовленными сайтами. Это не реальный Amazon или Booking.com, а их копии для тестирования. Но логика действий идентична реальным сайтам.

Кому нужен CUGA прямо сейчас

Если вы думаете, что это игрушка для исследователей, ошибаетесь. Вот кто уже тестирует CUGA в работе:

  • Тестировщики интерфейсов: Автоматизация регрессионного тестирования веб-приложений. Задал сценарий - агент прошел по всем шагам, нашел баги
  • Стартапы в RPA: Вместо хрупких скриптов на Selenium - агент, который понимает, что делает. Изменился интерфейс? Агент адаптируется, скрипт - нет
  • Компании с большим количеством рутинных операций: Перенос данных между системами, заполнение форм, сбор информации с сайтов
  • Разработчики AI-агентов: CUGA можно использовать как компонент в более сложных системах, например, в архитектуре сабагентов

Ограничения, о которых молчит документация

CUGA впечатляет, но не идеален. После недели экспериментов с демо заметил несколько проблем:

  1. Скорость: На сложных задачах с 10+ шагами агент думает по 30-40 секунд на каждом шаге. Для автоматизации в реальном времени - медленно
  2. Капчи и сложная аутентификация: С двухфакторной авторизацией или капчами не справляется. Хотя, честно говоря, кто справляется?
  3. Динамический контент: С бесконечной прокруткой или контентом, который подгружается по скроллу, возникают проблемы
  4. Цена: Qwen2.5-32B-Instruct - большая модель. Запуск в облаке стоит денег. Для массового использования нужна оптимизация

Но главное - CUGA требует четкой постановки задачи. Скажешь "найди что-нибудь интересное на Amazon" - получишь случайный товар. Нужно конкретно: "ноутбук для программирования, бюджет $1500, экран 15 дюймов".

Что дальше: куда движется мир автономных агентов

CUGA - не конечная точка, а важный шаг. Вижу три тренда на 2026 год:

Во-первых, специализация агентов. Как IQuestCoder-40B для программирования или Qwen2.5 7B для логических задач. Универсальных солдат становится меньше, появляются эксперты в узких областях.

Во-вторых, управление множеством агентов. Один CUGA - хорошо, а десять, которые координируют действия - лучше. Тут пригодятся подходы из AgentCommander.

В-третьих, безопасность и контроль. Агенты получают доступ к реальным системам. Нужны механизмы, как в статье про контроль доступа, чтобы они не натворили дел.

Мой прогноз: к концу 2026 мы увидим коммерческие продукты на базе CUGA или его аналогов. Не для замены людей, а для автоматизации конкретных, хорошо описанных процессов. Первыми будут call-центры (агент собирает информацию о проблеме), затем бухгалтерия (перенос данных между системами), потом тестирование.

Попробуйте демо CUGA сегодня. Не чтобы сразу внедрить в продакшн, а чтобы понять, куда движется технология. Через год такие агенты будут в каждом втором стартапе. Лучше разобраться в их возможностях и ограничениях сейчас, чем догонять конкурентов потом.