Проблема, которую все игнорируют: скриншоты — это тупик
Представьте, что ваш AI-агент должен заполнить форму на сайте. Классический подход: сделать скриншот, отправить его в GPT-4o-Vision или Claude 3.7 Sonnet, получить координаты клика, выполнить действие. Звучит логично? На практике это медленно, дорого и ненадежно. Каждый скриншот — это 200-500 КБ данных, латентность в секунды, расход токенов. А если сайт динамический? Если элементы перекрываются? Если нужно прочитать текст из выпадающего списка?
К февралю 2026 года стоимость вызова GPT-4o-Vision для анализа одного скриншота средней сложности составляет примерно $0.002-0.005. При автоматизации сотен действий в день счет становится ощутимым.
Sarathi AI предлагает радикально другой подход: забудьте про пиксели. Работайте напрямую с DOM.
Как это работает: инъекция, JSON-снимки и структурированные действия
Sarathi — это Chrome extension, который внедряется в каждую вкладку. Вместо того чтобы делать скриншоты, он парсит DOM-дерево, извлекает структурированные данные и создает JSON-снимок страницы. Этот снимок включает:
- Иерархию элементов с CSS-селекторами
- Текстовое содержимое всех видимых элементов
- Атрибуты (id, class, name, type, placeholder)
- Координаты и размеры bounding boxes
- Состояние интерактивных элементов (checked, disabled, focused)
Этот JSON весит в 10-50 раз меньше, чем скриншот. И он структурирован — LLM не нужно «угадывать», где кнопка, она видит четкий селектор.
Архитектура: локальность как принцип
Вот что мне нравится в Sarathi — никакого облачного бэкенда. Расширение работает полностью в браузере. Ваш API-ключ от OpenAI, Anthropic или локальной модели хранится локально в chrome.storage.local. Никаких данных не уходит на сторонние серверы.
Поток работы выглядит так:
- Пользователь открывает сайт и активирует Sarathi
- Расширение создает JSON-снимок DOM
- Пользователь дает текстовую инструкцию («Зарегистрируй аккаунт с email...»)
- Снимок + инструкция отправляются в выбранную LLM (локально или через API)
- Модель возвращает последовательность структурированных действий
- Sarathi выполняет эти действия через Chrome DevTools Protocol
Поддерживаемые модели на февраль 2026:
| Тип | Модели | Особенности |
|---|---|---|
| Облачные API | GPT-4.5-Turbo, Claude 3.7 Sonnet, Gemini 2.5 Pro | Высокая точность, но платно |
| Локальные (Ollama) | Llama 3.2 90B, Qwen2.5 72B, DeepSeek-V3 | Полная приватность, нужна мощная видеокарта |
| Оптимизированные | Hermes-3-Pro, TinyLlama-2.5B | Быстрые, но менее точные для сложных задач |
Сравнение: чем Sarathi отличается от других агентов
Когда я тестировал Sarathi, то параллельно запускал несколько альтернатив. Вот что получилось:
Против скриншотных агентов (классический подход): Sarathi в 3-5 раз быстрее и в 20 раз дешевле. Но есть нюанс — некоторые капчи и сложные кастомные элементы могут не парситься правильно. Хотя к 2026 году большинство сайтов используют стандартные HTML-компоненты.
Против Neural-Chromium: Neural-Chromium тоже работает с DOM, но это кастомная сборка браузера. Sarathi — просто расширение для обычного Chrome. Neural-Chromium мощнее для масштабных задач, но сложнее в настройке.
Против TextWeb: TextWeb фокусируется на сжатии веб-контента для LLM. Sarathi — на выполнении действий. Их можно использовать вместе: TextWeb для понимания контента, Sarathi для взаимодействия.
Против on-device агентов на Qwen: Похожая философия локальности, но Qwen-агенты часто требуют отдельного сервера. Sarathi работает прямо в расширении.
Реальные примеры: что можно автоматизировать уже сегодня
Я протестировал Sarathi на десятке сайтов. Вот что работает стабильно:
1 Заполнение форм
Регистрация на SaaS-сервисах, оформление заказов, подписка на рассылку. Sarathi корректно находит поля ввода, выбирает соответствующие типы (email для email, password для пароля) и заполняет их. Даже с многошаговыми формами справляется, если явно указать в инструкции.
2 Скрапинг данных с пагинацией
Сбор товаров из интернет-магазина, экспорт списка статей. Инструкция «Переходи по пагинации и собирай названия и цены» работает, но иногда агент теряется, если дизайн пагинации нестандартный. Для сложного скрапинга лучше использовать специализированные инструменты вроде AgentCrawl.
3 Модерация контента в админ-панелях
Одобрение комментариев, публикация постов, бан пользователей. Здесь Sarathi показывает себя лучше всего — интерфейсы админок обычно стандартизированы, много таблиц и кнопок «Approve/Reject».
Главный совет: разбивайте сложные задачи на простые инструкции. Вместо «Управляй моим интернет-магазином» давайте «1. Зайди в админку, 2. Найди заказы за сегодня, 3. Экспортируй в CSV». Агенты еще не понимают контекст бизнес-процессов.
Ограничения: когда Sarathi не справляется
Не создавайте иллюзий — технология не идеальна. Вот что не работает или работает плохо:
- Canvas-элементы и WebGL: Игры, сложные графики. DOM-парсинг их не видит.
- Сложные drag-and-drop интерфейсы: Trello, конструкторы. Требуют точных координат и симуляции событий мыши.
- Капчи и анти-бот системы: Современные капчи в 2026 году специально усложняют автоматизацию.
- Сайты с минимальным HTML: Некоторые SPA-фреймворки генерируют минимум разметки, полагаясь на JavaScript.
Для таких случаев все еще нужны скриншотные агенты или гибридные подходы вроде Screen Vision.
Кому подойдет Sarathi AI в 2026 году?
После недели тестирования я выделил три категории пользователей:
Разработчики и QA-инженеры: Для автоматизации тестирования веб-интерфейсов. Sarathi интегрируется с Jest и Playwright, можно писать тесты на естественном языке. Дешевле и быстрее, чем скриншотные решения.
Маркетологи и SMM-специалисты: Для рутинных задач в админках соцсетей, CMS, email-сервисов. Одноразовые скрипты «опубликовать 50 постов» или «импортировать список подписчиков».
Исследователи и аналитики: Для сбора данных с публичных сайтов, где нет API. Особенно если нужно обойти ограничения на количество запросов (Sarathi имитирует поведение человека).
А вот кому не подойдет: тем, кто работает с графическими редакторами, играми или специализированным ПО. Для автоматизации десктопных приложений смотрите в сторону UI-TARS от Bytedance.
Будущее: куда движется технология DOM-агентов
К февралю 2026 года я вижу две четкие тенденции:
Первая — гибридизация. Чистые DOM-агенты вроде Sarathi и чистые скриншотные агенты сходятся. Появляются системы, которые используют DOM для 80% элементов, а для сложных случаев делают selective screenshots. Это дает баланс скорости и надежности.
Вторая — специализация моделей. Вместо универсальных GPT-4.5 появляются LLM, обученные specifically на DOM-деревьях и последовательностях действий. Они понимают семантику веб-элементов лучше, требуют меньше промптинга.
Мой прогноз: к концу 2026 года DOM-агенты станут стандартом для автоматизации веб-взаимодействий. Скриншотные подходы останутся для нишевых случаев вроде тестирования визуального дизайна или работы с legacy-системами.
Если вы только начинаете экспериментировать с AI-агентами для браузера — Sarathi идеальная точка входа. Простая установка, open-source код, понятная архитектура. И главное — вы сразу почувствуете разницу в скорости и стоимости по сравнению с облачными скриншотными сервисами.
Только не забудьте про защиту от ошибок. Даже самый умный агент иногда нажимает не ту кнопку.