Проблема, которую все игнорируют: скриншоты — это тупик

Представьте, что ваш AI-агент должен заполнить форму на сайте. Классический подход: сделать скриншот, отправить его в GPT-4o-Vision или Claude 3.7 Sonnet, получить координаты клика, выполнить действие. Звучит логично? На практике это медленно, дорого и ненадежно. Каждый скриншот — это 200-500 КБ данных, латентность в секунды, расход токенов. А если сайт динамический? Если элементы перекрываются? Если нужно прочитать текст из выпадающего списка?

К февралю 2026 года стоимость вызова GPT-4o-Vision для анализа одного скриншота средней сложности составляет примерно $0.002-0.005. При автоматизации сотен действий в день счет становится ощутимым.

Sarathi AI предлагает радикально другой подход: забудьте про пиксели. Работайте напрямую с DOM.

Как это работает: инъекция, JSON-снимки и структурированные действия

Sarathi — это Chrome extension, который внедряется в каждую вкладку. Вместо того чтобы делать скриншоты, он парсит DOM-дерево, извлекает структурированные данные и создает JSON-снимок страницы. Этот снимок включает:

Иерархию элементов с CSS-селекторами
Текстовое содержимое всех видимых элементов
Атрибуты (id, class, name, type, placeholder)
Координаты и размеры bounding boxes
Состояние интерактивных элементов (checked, disabled, focused)

Этот JSON весит в 10-50 раз меньше, чем скриншот. И он структурирован — LLM не нужно «угадывать», где кнопка, она видит четкий селектор.

💡

Sarathi использует технику «инкрементальных снимков»: после первого полного парсинга отслеживаются только изменения DOM через MutationObserver. Это снижает нагрузку и ускоряет обработку динамических страниц.

Архитектура: локальность как принцип

Вот что мне нравится в Sarathi — никакого облачного бэкенда. Расширение работает полностью в браузере. Ваш API-ключ от OpenAI, Anthropic или локальной модели хранится локально в chrome.storage.local. Никаких данных не уходит на сторонние серверы.

Поток работы выглядит так:

Пользователь открывает сайт и активирует Sarathi
Расширение создает JSON-снимок DOM
Пользователь дает текстовую инструкцию («Зарегистрируй аккаунт с email...»)
Снимок + инструкция отправляются в выбранную LLM (локально или через API)
Модель возвращает последовательность структурированных действий
Sarathi выполняет эти действия через Chrome DevTools Protocol

Поддерживаемые модели на февраль 2026:

Тип	Модели	Особенности
Облачные API	GPT-4.5-Turbo, Claude 3.7 Sonnet, Gemini 2.5 Pro	Высокая точность, но платно
Локальные (Ollama)	Llama 3.2 90B, Qwen2.5 72B, DeepSeek-V3	Полная приватность, нужна мощная видеокарта
Оптимизированные	Hermes-3-Pro, TinyLlama-2.5B	Быстрые, но менее точные для сложных задач

Сравнение: чем Sarathi отличается от других агентов

Когда я тестировал Sarathi, то параллельно запускал несколько альтернатив. Вот что получилось:

Против скриншотных агентов (классический подход): Sarathi в 3-5 раз быстрее и в 20 раз дешевле. Но есть нюанс — некоторые капчи и сложные кастомные элементы могут не парситься правильно. Хотя к 2026 году большинство сайтов используют стандартные HTML-компоненты.

Против Neural-Chromium: Neural-Chromium тоже работает с DOM, но это кастомная сборка браузера. Sarathi — просто расширение для обычного Chrome. Neural-Chromium мощнее для масштабных задач, но сложнее в настройке.

Против TextWeb: TextWeb фокусируется на сжатии веб-контента для LLM. Sarathi — на выполнении действий. Их можно использовать вместе: TextWeb для понимания контента, Sarathi для взаимодействия.

Против on-device агентов на Qwen: Похожая философия локальности, но Qwen-агенты часто требуют отдельного сервера. Sarathi работает прямо в расширении.

Реальные примеры: что можно автоматизировать уже сегодня

Я протестировал Sarathi на десятке сайтов. Вот что работает стабильно:

1 Заполнение форм

Регистрация на SaaS-сервисах, оформление заказов, подписка на рассылку. Sarathi корректно находит поля ввода, выбирает соответствующие типы (email для email, password для пароля) и заполняет их. Даже с многошаговыми формами справляется, если явно указать в инструкции.

2 Скрапинг данных с пагинацией

Сбор товаров из интернет-магазина, экспорт списка статей. Инструкция «Переходи по пагинации и собирай названия и цены» работает, но иногда агент теряется, если дизайн пагинации нестандартный. Для сложного скрапинга лучше использовать специализированные инструменты вроде AgentCrawl.

3 Модерация контента в админ-панелях

Одобрение комментариев, публикация постов, бан пользователей. Здесь Sarathi показывает себя лучше всего — интерфейсы админок обычно стандартизированы, много таблиц и кнопок «Approve/Reject».

Главный совет: разбивайте сложные задачи на простые инструкции. Вместо «Управляй моим интернет-магазином» давайте «1. Зайди в админку, 2. Найди заказы за сегодня, 3. Экспортируй в CSV». Агенты еще не понимают контекст бизнес-процессов.

Ограничения: когда Sarathi не справляется

Не создавайте иллюзий — технология не идеальна. Вот что не работает или работает плохо:

Canvas-элементы и WebGL: Игры, сложные графики. DOM-парсинг их не видит.
Сложные drag-and-drop интерфейсы: Trello, конструкторы. Требуют точных координат и симуляции событий мыши.
Капчи и анти-бот системы: Современные капчи в 2026 году специально усложняют автоматизацию.
Сайты с минимальным HTML: Некоторые SPA-фреймворки генерируют минимум разметки, полагаясь на JavaScript.

Для таких случаев все еще нужны скриншотные агенты или гибридные подходы вроде Screen Vision.

Кому подойдет Sarathi AI в 2026 году?

После недели тестирования я выделил три категории пользователей:

Разработчики и QA-инженеры: Для автоматизации тестирования веб-интерфейсов. Sarathi интегрируется с Jest и Playwright, можно писать тесты на естественном языке. Дешевле и быстрее, чем скриншотные решения.

Маркетологи и SMM-специалисты: Для рутинных задач в админках соцсетей, CMS, email-сервисов. Одноразовые скрипты «опубликовать 50 постов» или «импортировать список подписчиков».

Исследователи и аналитики: Для сбора данных с публичных сайтов, где нет API. Особенно если нужно обойти ограничения на количество запросов (Sarathi имитирует поведение человека).

А вот кому не подойдет: тем, кто работает с графическими редакторами, играми или специализированным ПО. Для автоматизации десктопных приложений смотрите в сторону UI-TARS от Bytedance.

Будущее: куда движется технология DOM-агентов

К февралю 2026 года я вижу две четкие тенденции:

Первая — гибридизация. Чистые DOM-агенты вроде Sarathi и чистые скриншотные агенты сходятся. Появляются системы, которые используют DOM для 80% элементов, а для сложных случаев делают selective screenshots. Это дает баланс скорости и надежности.

Вторая — специализация моделей. Вместо универсальных GPT-4.5 появляются LLM, обученные specifically на DOM-деревьях и последовательностях действий. Они понимают семантику веб-элементов лучше, требуют меньше промптинга.

Мой прогноз: к концу 2026 года DOM-агенты станут стандартом для автоматизации веб-взаимодействий. Скриншотные подходы останутся для нишевых случаев вроде тестирования визуального дизайна или работы с legacy-системами.

Если вы только начинаете экспериментировать с AI-агентами для браузера — Sarathi идеальная точка входа. Простая установка, open-source код, понятная архитектура. И главное — вы сразу почувствуете разницу в скорости и стоимости по сравнению с облачными скриншотными сервисами.

Только не забудьте про защиту от ошибок. Даже самый умный агент иногда нажимает не ту кнопку.

Sarathi AI: браузерный агент, который работает с DOM, а не с пикселями