Автоматизация обучения AI-агентов: запись действий и генерация SKILL.md | AiManual
AiManual Logo Ai / Manual.
26 Янв 2026 Инструмент

Запись и дискретизация: как превратить любую рутину в AI-агента за 15 минут

CUA CLI и noVNC: записывайте действия в браузере, генерируйте SKILL.md для AI-агентов. Обзор инструмента с примерами на 2026 год.

Больше не нужно писать промпты вручную. Запишите один раз — получите агента навсегда

Представьте, что вы заставляете стажера-человека учиться по видеоинструкциям в 2x ускорении и конспектам, которые он сам себе пишет. Это примерно то, что делает cua CLI для AI-агентов. Инструмент, о котором почти не пишут в блогах, но который уже используют в бэкендах автоматизации крупных компаний.

CUA (Capture, Understand, Automate) — это open-source CLI-утилита и MCP-сервер, который записывает ваши действия в браузере через noVNC, а потом с помощью Vision Language Model (VLM) превращает запись в структурированный SKILL.md файл. Агент может потом этот файл прочитать и повторить ваши шаги.

Как это работает? Прямо как в киберпанке, только скучнее

Вы запускаете Docker-контейнер с headless-браузером и noVNC-сервером. Подключаетесь к нему через браузер как к удаленному рабочему столу. Включаете запись в cua и делаете что нужно: логинитесь в админку, формируете отчет, настраиваете мониторинг.

Пока вы кликаете, cua пишет два потока данных:

  • Видео (MP4) — обычная запись экрана для отладки и будущего обучения.
  • Сырой поток событий — каждый клик, скролл, ввод текста с метаданными (координаты, селекторы, временные метки).

Потом вы останавливаете запись и запускаете команду дискретизации. Здесь начинается магия: локальная или облачная VLM-модель (например, GPT-4o-vision или свежий на начало 2026 года Claude 3.7 Sonnet) просматривает видео и поток событий, а затем генерирует текстовое описание навыка в формате SKILL.md.

Что получается в этом SKILL.md? Не просто список шагов

Готовый файл — это полноценный «мозг навыка» для агента, который понимает контекст. Вот что там обычно есть:

Раздел Что содержит Зачем нужно агенту
Goal (Цель) Четкое описание задачи («Создать новый дашборд в Grafana») Понимать, когда применять этот навык
Prerequisites (Предусловия) Что должно быть готово до старта (логин, права, открытая вкладка) Избегать ошибок из-за контекстной слепоты
Step-by-step (Шаги) Дискретизированные действия: «Кликнуть на кнопку с классом .btn-primary», «Ввести текст в поле #email» Пошаговая инструкция для выполнения
Variations (Вариации) Альтернативные пути («Если кнопка серая, сначала включить режим редактирования») Справляться с изменяющимся интерфейсом
Verification (Верификация) Как проверить успех («На странице появится надпись Success») Не зависать в ожидании

Этот файл — готовый модуль для файловой системы навыков. Агент (например, на базе OpenAI o3-mini или локальной Llama 3.3 90B) видит новую задачу, находит подходящий SKILL.md в своей папке и выполняет его.

💡
Ключевое отличие от старых методов записи макросов: cua не сохраняет жесткую последовательность координат. VLM анализирует смысл действий. «Кликнуть на кнопку отправки» — это не «кликнуть в точку (345, 678)», а «найти элемент с текстом Submit и нажать на него». Агент потом сам найдет эту кнопку, даже если интерфейс слегка изменится.

Альтернативы? Их почти нет, и это проблема

Рынок инструментов для обучения агентов через демонстрацию в 2026 году все еще полупустой. Вот что есть:

  • Прямое программирование навыков — пишете код на Python. Мощно, гибко, но долго. Требует разработчика. CUA же используют бизнес-аналитики.
  • ShowUI-Aloha — академический проект с похожей идеей (запись + LLM). Но он сложнее в развертывании и больше заточен под исследование, а не под продакшн. CUA — это инженерный инструмент, а не научный.
  • Платформы вроде UiPath или Selenium IDE — они записывают действия, но не генерируют семантическое описание для LLM. Вы получаете хрупкий скрипт, который сломается от смены шрифта.
  • Ручное написание SKILL.md — так делали в 2024-2025. Утомительно, субъективно, легко упустить важные вариации. Автоматизация через cua дает в 5-10 раз экономию времени.

Главный конкурент cua — это нейросеть в вашей голове, которой приходится придумывать промпты. CUA эту нейросеть заменяет.

Кому этот инструмент сломает жизнь (в хорошем смысле)

CUA — не для всех. Но для трех категорий пользователей он станет как вторая правая рука.

  1. QA-инженеры и тестировщики. Записали один успешный сценарий E2E-теста — получили SKILL.md для агента, который может запускать этот тест в разных окружениях и даже адаптировать его при мелких изменениях UI. Больше не нужно поддерживать тонны хрупких скриптов.
  2. Бизнес-пользователи, которые автоматизируют рутину. Сотрудник отчетами знает, как выгрузить данные из CRM, построить график в Google Sheets и отправить сводку в Slack. Он показывает это один раз на записи. Дальше это делает агент. Идеально для no-code автоматизации.
  3. Разработчики AI-агентов. Вместо того чтобы вручную описывать каждый навык для своей системы (как в этой архитектуре), они создают библиотеку навыков силами самих пользователей. Масштабирование наконец-то становится реалистичным.

Предупреждение: CUA не волшебная палочка. Если интерфейс вашего legacy-приложения — это сплошные динамически генерируемые ID и таблицы без семантических тегов, VLM может ошибиться в интерпретации. Инструмент работает лучше всего с современными, более-менее стандартными веб-интерфейсами.

Пример из реальной жизни: как я перестал писать документацию

Мне нужно было обучить агента создавать тикет в Jira. Раньше я потратил бы час: описал шаги, предусловия, возможные ошибки.

С cua процесс выглядел так:

1 Запуск и запись

# Поднимаем контейнер с браузером
cua server start --port 8080

# Подключаемся к noVNC через браузер (http://localhost:8080)
# Запускаем запись с уникальным ID сессии
cua capture start --session-id jira-create-ticket

Дальше я вручную в браузере через noVNC зашел в Jira, нажал «Create», заполнил поля, прикрепил файл и сохранил. Выключил запись.

2 Дискретизация через VLM

# Запускаем процесс, который отправит видео и события в GPT-4o
cua discretize --session-id jira-create-ticket \
               --model gpt-4o \
               --output ./skills/jira_create_ticket.SKILL.md

Через 2 минуты у меня в папке skills лежал готовый файл. Агент, работающий через MCP-сервер навыков, теперь мог выполнять эту задачу.

Под капотом: почему это работает в 2026, а не работало в 2024

Две технологии дозрели до продакшна:

1. Vision Language Models стали дешевыми и точными. Еще в 2024 году GPT-4V стоило как маленький автомобиль за один запрос, а open-source аналоги плохо понимали интерфейсы. К началу 2026 появились специализированные VLM, обученные именно на распознавании UI-элементов и действий (проекты в духе Screen Vision). CUA может работать как с облачными API (GPT-4o, Claude), так и с локальными моделями через Ollama, что решает вопросы приватности.

2. Стандартизация SKILL.md как формата. В 2025 году сообщество de facto приняло этот Markdown-формат для описания навыков агентов. Это не случайность, а результат работы над интероперабельностью агентов. Теперь агент от одной команды может читать навыки, сгенерированные инструментом другой команды. CUA просто встроился в эту экосистему.

Что будет дальше? Агенты начнут учиться друг у друга

Сейчас cua записывает человека. Но логично, что следующим шагом станет запись другого агента. Успешно выполнивший задачу агент может сам создать SKILL.md на основе своих действий (если он, конечно, имеет доступ к инструментам записи). Это создаст петлю самоулучшения.

Представьте: первый агент методом проб и ошибок научился проходить капчу. Записал этот навык. Второй агент, столкнувшись с капчей, просто загружает готовый навык и применяет его. Это уже не автоматизация — это эволюция.

Пока этого нет. Но инструменты вроде cua расчищают дорогу. Они превращают обучение агентов из искусства в инженерную дисциплину. Вы больше не пишете промпты. Вы показываете. Как родитель учит ребенка завязывать шнурки — не читая лекцию по теории узлов, а просто медленно делая это перед его глазами.

Попробуйте. Запишите одну свою рутинную задачу. Сгенерируйте SKILL.md. И посмотрите, как ваш агент впервые выполнит ее без ваших подсказок. Это один из тех моментов, когда будущее наступает тихо, без фанфар, но навсегда меняет правила игры.