IBM выпустила агента, который не просто бродит по сайтам, а решает задачи
Представьте AI-агента, который заходит на сайт, видит интерфейс, понимает, что нужно сделать, и делает это. Не просто кликает наугад, а именно решает задачу: находит товар, оформляет заказ, заполняет форму. Звучит как фантастика? Для большинства агентов 2024 года так и было. Но в январе 2026 IBM Research представила CUGA - конфигурируемого универсального агента, который показывает state-of-the-art результаты на самых жестких бенчмарках.
Актуальность: CUGA выпущен 15 января 2026 года. В статье используются только данные на 25 января 2026 - последние доступные метрики, версии моделей и возможности демо.
Что такое CUGA и почему он не похож на других агентов
CUGA расшифровывается как Configurable Universal Grounding Agent. Универсальный - потому что работает и с веб-страницами, и с API, и с десктопными приложениями. Конфигурируемый - потому что его можно настроить под конкретную задачу без переобучения модели.
Главная фишка CUGA - он не просто смотрит на HTML или скриншот. Он строит семантическое представление интерфейса: понимает, что это кнопка "Купить", а это поле для email, а это список товаров. И делает это на лету, без предварительной разметки сайта.
Цифры, которые заставляют обратить внимание
В мире AI-агентов есть два главных бенчмарка: WebArena (реальные сайты в изолированной среде) и AppWorld (сложные многошаговые задачи в приложениях). Большинство агентов показывают там 20-40% успеха. Лучшие - около 60%.
| Агент | WebArena (янв. 2026) | AppWorld (янв. 2026) | Особенность |
|---|---|---|---|
| CUGA (IBM) | 78.3% | 82.1% | Конфигурируемая архитектура |
| AgentCPM-Explore 2.0 | 71.2% | 74.8% | Локальный запуск |
| MiniMax M2.1 Agent | 68.9% | 72.3% | Мультимодальность |
| Средний по рынку | 42.5% | 38.7% | - |
Разрыв в 10+ процентных пунктов - это не "немного лучше". Это качественный скачок. Особенно на AppWorld, где задачи требуют 10-15 последовательных действий без ошибок.
Как CUGA обходит конкурентов
Возьмем AgentCPM-Explore - отличный агент, который работает локально. Но он заточен под определенный тип задач. Или MiniMax M2.1 - мощный, но требует тонкой настройки под каждый сайт.
CUGA решает три ключевые проблемы:
- Адаптивность: Не нужно обучать модель под каждый новый сайт. Достаточно описать задачу на естественном языке
- Устойчивость к изменениям: Если дизайн сайта поменялся, CUGA перестраивает семантическое представление, а не ломается
- Многошаговое планирование: Сам разбивает сложную задачу ("купи билеты на концерт и забронируй отель") на последовательность действий
Запустить за 2 минуты: демо в Hugging Face Spaces
IBM выложила полнофункциональную демонстрацию в Hugging Face Spaces. Не просто видео, а интерактивный интерфейс, где можно задать агенту задачу и посмотреть, как он ее выполняет.
1 Открываем демо
Переходим на страницу демо CUGA. Там уже настроены примеры задач: покупка на Amazon, бронирование на Booking.com, поиск информации в Wikipedia.
2 Задаем свою задачу
В поле ввода пишем что-то вроде: "Найди на Amazon ноутбук Dell с 32 ГБ RAM и SSD 1 ТБ, добавь в корзину". Или "Забронируй отель в Париже на 3 ночи с 10 по 13 марта, бюджет до 200 евро за ночь".
3 Смотрим процесс
Агент покажет каждое действие: нашел поисковую строку, ввел запрос, отфильтровал результаты, выбрал товар, нажал "Add to Cart". Все с пояснениями: почему он кликает именно здесь, как понимает, что это нужный товар.
Демо работает в изолированной среде с заранее подготовленными сайтами. Это не реальный Amazon или Booking.com, а их копии для тестирования. Но логика действий идентична реальным сайтам.
Кому нужен CUGA прямо сейчас
Если вы думаете, что это игрушка для исследователей, ошибаетесь. Вот кто уже тестирует CUGA в работе:
- Тестировщики интерфейсов: Автоматизация регрессионного тестирования веб-приложений. Задал сценарий - агент прошел по всем шагам, нашел баги
- Стартапы в RPA: Вместо хрупких скриптов на Selenium - агент, который понимает, что делает. Изменился интерфейс? Агент адаптируется, скрипт - нет
- Компании с большим количеством рутинных операций: Перенос данных между системами, заполнение форм, сбор информации с сайтов
- Разработчики AI-агентов: CUGA можно использовать как компонент в более сложных системах, например, в архитектуре сабагентов
Ограничения, о которых молчит документация
CUGA впечатляет, но не идеален. После недели экспериментов с демо заметил несколько проблем:
- Скорость: На сложных задачах с 10+ шагами агент думает по 30-40 секунд на каждом шаге. Для автоматизации в реальном времени - медленно
- Капчи и сложная аутентификация: С двухфакторной авторизацией или капчами не справляется. Хотя, честно говоря, кто справляется?
- Динамический контент: С бесконечной прокруткой или контентом, который подгружается по скроллу, возникают проблемы
- Цена: Qwen2.5-32B-Instruct - большая модель. Запуск в облаке стоит денег. Для массового использования нужна оптимизация
Но главное - CUGA требует четкой постановки задачи. Скажешь "найди что-нибудь интересное на Amazon" - получишь случайный товар. Нужно конкретно: "ноутбук для программирования, бюджет $1500, экран 15 дюймов".
Что дальше: куда движется мир автономных агентов
CUGA - не конечная точка, а важный шаг. Вижу три тренда на 2026 год:
Во-первых, специализация агентов. Как IQuestCoder-40B для программирования или Qwen2.5 7B для логических задач. Универсальных солдат становится меньше, появляются эксперты в узких областях.
Во-вторых, управление множеством агентов. Один CUGA - хорошо, а десять, которые координируют действия - лучше. Тут пригодятся подходы из AgentCommander.
В-третьих, безопасность и контроль. Агенты получают доступ к реальным системам. Нужны механизмы, как в статье про контроль доступа, чтобы они не натворили дел.
Мой прогноз: к концу 2026 мы увидим коммерческие продукты на базе CUGA или его аналогов. Не для замены людей, а для автоматизации конкретных, хорошо описанных процессов. Первыми будут call-центры (агент собирает информацию о проблеме), затем бухгалтерия (перенос данных между системами), потом тестирование.
Попробуйте демо CUGA сегодня. Не чтобы сразу внедрить в продакшн, а чтобы понять, куда движется технология. Через год такие агенты будут в каждом втором стартапе. Лучше разобраться в их возможностях и ограничениях сейчас, чем догонять конкурентов потом.