Ваш экран кричит, но вы его не слышите
Каждую минуту на мониторе происходит сотня событий — уведомления, ошибки в терминале, всплывающие окна, зависшие процессы. Вы моргаете — и пропускаете. А если надо отследить, что делает система, пока вас нет? Или записать лайв-демонстрацию коллеги, но без того, чтобы видео уехало на чужие сервера?
Раньше выбор был между дорогими облачными сервисами (которые еще и шпионят) и костылями вроде скриншотов по cron. Теперь есть третий путь — ScreenWatch. Open-source утилита, которая гоняет локальную мультимодальную LLM прямо на вашем железе, анализирует кадры экрана в реальном времени и не требует ни цента, ни доступа в интернет.
ScreenWatch — не очередной AI-агент, который лезет щелкать кнопки. Это пассивный наблюдатель. Он смотрит, запоминает и предупреждает, но ничего не трогает. Разница та же, что между охраной и грабителем.
Что умеет ScreenWatch на самом деле
Проект родился из боли: нужно было круглосуточно мониторить удаленный рабочий стол джуниора, не нарушая его NDA. Облачные сервисы отпали сразу — данные клиента утекают. Ручной просмотр скриншотов убивает время. ScreenWatch запускается как демон, снимает скриншоты раз в N секунд (настраивается), скармливает их локальной LLM (по умолчанию Qwen2-VL-7B, но можно подсунуть Llama 3.2 Vision или даже Florence-2) и возвращает структурированный лог событий.
| Возможность | Подробности |
|---|---|
| Частота кадров | от 1 секунды до 1 часа (интервал задается) |
| Поддерживаемые LLM | Qwen2-VL, Llama 3.2 Vision, Florence-2, CogVLM2 |
| Форматы вывода | JSON-логи, текстовые отчеты, алерты в Telegram/Slack (через вебхуки) |
| Где запускать | Linux, macOS, Windows (через Docker) |
| Требования к GPU | Хотя бы 8 GB VRAM (рекомендуется 12+ для Qwen2-VL-7B) |
Главная фишка — вы пишете промпт, который модель применяет к каждому кадру. Хотите ловить только красные сообщения об ошибках? Пожалуйста. Хотите фиксировать, когда на экране появляется конкретный логотип клиента? Легко. Без программирования, просто строчка текста — и модель знает, на что обращать внимание.
Сравнение: ScreenWatch против облачных монстров и собратьев по цеху
Рынок AI-мониторинга экрана пестрит решениями. Есть коммерческие гиганты (Type Studio, Otter.ai, Rewatch), есть open-эффектные агенты вроде Screen Vision или Peepbo. Но у каждого свой потолок.
| Критерий | ScreenWatch | Облачные сервисы | Screen Vision / Peepbo |
|---|---|---|---|
| Приватность | Абсолютная (все локально) | Данные уходят на сервер | Локально, но агенты активные |
| Тип работы | Только мониторинг (read-only) | Мониторинг + запись видео | Активные действия (клики, ввод) |
| Стоимость | $0 (нужно только железо) | от $20/мес за пользователя | $0 |
| Сложность запуска | Одна команда | Регистрация, SDK, интеграции | Сборка из исходников, настройка агента |
| Гибкость промптов | Кастомные промпты на лету | Только встроенные детекторы | Зависит от реализации |
Screen Vision учит собирать агента, который щелкает интерфейсы, — там другая философия. Peepbo тоже видит экран, но его задача — кликать и автоматизировать рутину. ScreenWatch же — пассивный страж. Он не вмешивается, а только наблюдает и докладывает.
Как это выглядит в бою: два сценария
1 Джуниор ломает прод (а вы спите)
Вы админ. Ночью джуниор запускает миграцию базы, на экране появляется красная ошибка — он паникует, но молчит. ScreenWatch с промптом "Обнаружь любую красную строку, содержащую 'error', 'failed', 'exception' — запиши таймстамп, текст ошибки и название окна" фиксирует момент. Утром вы читаете JSON-лог: 2026-06-11T03:14:15Z — error: "column 'id' does not exist" — окно: psql. Без скриншотов, без лишнего шума. И никакие данные не покинули сервер.
2 Вы контролируете время подрядчика
Фрилансер утверждает, что работал 8 часов. ScreenWatch запущен на его машине (с согласия) — он снимает кадр раз в 5 минут и анализирует: активно ли IDE, открыт ли чат с заказчиком, или там ютуб с котиками. Итоговый отчет: "Активная работа: 4.2 часа; перерывы: 2.1 часа; соцсети: 1.7 часа". Никакого видео, только метрики. Приватность сохранена — никто не видит содержимого, только статистику.
Более продвинутый вариант — связать ScreenWatch с системой мониторинга вроде Grafana, как описано в нашем гайде по мониторингу LLM-ферм. ScreenWatch может экспортировать метрики в Prometheus, и вы получите дашборд с числом ошибок на экране в реальном времени.
Запуск: обещанная одна команда
ScreenWatch распространяется как Docker-образ. Предполагается, что у вас уже запущена локальная LLM с OpenAI-совместимым API (например, через Ollama или vLLM). Если нет — проверьте, обманывает ли вас локальная модель перед тем, как доверить ей анализ.
Базовая команда (Linux с X11):
docker run -d --name screenwatch --restart unless-stopped \
-e LLM_API_URL=http://host.docker.internal:11434/v1 \
-e LLM_MODEL=qwen2-vl:7b \
-e PROMPT="Опиши одним предложением, что происходит на экране. Если есть ошибка — напиши ERROR и текст ошибки." \
-e INTERVAL=10 \
-v /tmp/.X11-unix:/tmp/.X11-unix \
-e DISPLAY=unix$DISPLAY \
screenwatch/screenwatch:latestВсё. Демон запущен, каждые 10 секунд делает скриншот, отправляет в модель, пишет лог в stdout. Для macOS и Windows потребуется пробросить экран иначе, но в репозитории есть инструкции.
Не советую ставить интервал меньше 5 секунд на обычных GPU — модель может не успевать, а видеопамять забьется историей скриншотов. Лучше 10-30 секунд для фонового мониторинга.
Кому ScreenWatch спасет жизнь
- DevOps и SRE — для автоматического детектирования падений и ошибок на удаленных рабочих столах серверов.
- Тимлиды и менторы — мягкий онбординг: вы видите, с какими проблемами сталкивается новичок, не дыша в затылок.
- Фрилансеры и заказчики — прозрачный учет времени без слежки.
- Исследователи UX — запись сессий пользователей без видео, только текстовые аннотации.
Если же вам нужен не пассивный наблюдатель, а активный исполнитель — присмотритесь к UI-TARS от Bytedance или Open Cowork. Но помните: они не мониторят, они действуют.
Почему не стоит гнаться за свежими версиями
ScreenWatch использует Qwen2-VL-7B — модель от мая 2026 года. Она уже неплохо понимает интерфейсы, но есть и более свежие: Llama 4 Vision (анонсирована в апреле 2026) или Gemini 3 Pro Vision (только в облаке). Вопрос не в хайпе, а в стабильности. Для мониторинга лучше проверенный зверь, чем новорожденный дракон с багами. ScreenWatch как раз про надежность, а не про погоню за бенчмарками.
Кстати, если вы подумываете сделать своего агента для администрирования — прочитайте отчет о двух месяцах с openLight. Там много общего: локальный AI, одна команда, но другой профиль.
Технические тонкости, о которых молчат в README
- Выбор модели. Не все мультимодальные модели одинаково видят текст на скриншотах.
Florence-2быстрее, но хуже распознает мелкий шрифт.CogVLM2точнее, но жрет больше памяти. Лучший баланс —Qwen2-VL-7B. - Сжатие скриншотов. Если кадр 4K, модель может обрезать его или упасть по памяти. ScreenWatch автоматически ресайзит до 1024x768 перед отправкой — качество анализа почти не страдает, зато скорость растет.
- Логирование. По умолчанию логи пишутся в JSON в stdout. Для долгосрочного хранения рекомендую заворачивать в ELK или хотя бы в
journald. - Безопасность. Никаких API-ключей, никаких внешних запросов. Но если вы используете
DISPLAY— убедитесь, что контейнер не имеет доступа к сети без необходимости.
И последнее. ScreenWatch не пытается заменить вас — он просто смотрит. И это, возможно, самое честное, что может сделать AI-инструмент: не врать, не выдумывать, а просто описывать то, что видит. Даже если на экране — пустой рабочий стол в три часа ночи.