Linux наконец-то получил своего десктопного агента

Пока весь мир обсуждает OpenClaw для Windows и Mac, Linux-пользователи оставались за бортом. До января 2026 года. Peepbo - это открытый инструмент, который делает ровно то, что должен: берет скриншот, отправляет его в локальную VLM, получает инструкции и выполняет их через xdotool. Никакой магии, только Python, немного bash и работающая идея.

💡

VLM (Vision Language Model) - это модель, которая понимает и изображения, и текст. На 31.01.2026 самые популярные локальные VLM включают LLaVA 1.6, Qwen-VL-Max и InternVL-2. Peepbo работает с любой из них через Ollama или собственный API.

Что там под капотом? Проще, чем кажется

Peepbo не пытается быть умным. Он делает три вещи: делает скриншот (scrot), отправляет его в VLM с промптом "Что делать дальше?", парсит ответ и выполняет команды через xdotool. Весь код умещается в 300 строк Python. И это гениально.

Сравнивать с OpenClaw бесполезно - у того команда из 20 человек и миллионы долларов. Peepbo написал один человек за выходные. Но он работает. На Linux.

Что умеет Peepbo	Чего не умеет
Делать скриншоты всего экрана или области	Работать с оконными менеджерами типа i3 (пока)
Отправлять изображения в локальную VLM через Ollama	Запоминать контекст между запросами
Выполнять клики, ввод текста, нажатия клавиш	Работать с защищенными приложениями (банк-клиенты)
Поддерживать Wayland через grim + slurp	Обрабатывать сложные многошаговые задачи

Установка: пять минут и готово

1Ставим зависимости

Без xdotool и scrot ничего не заработает. На Ubuntu/Debian:

sudo apt update
sudo apt install xdotool scrot python3-pip python3-venv

Для Wayland вместо scrot нужны grim и slurp. Fedora/Arch пользователи сами знают, как ставить пакеты (или должны научиться).

2Клонируем и настраиваем

git clone https://github.com/yourusername/peepbo.git
cd peepbo
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt

В requirements.txt обычно только requests и pillow. Никакого tensorflow или pytorch - VLM работает отдельно.

3Запускаем VLM

Peepbo не включает модель. Нужно запустить свою. Самый простой вариант - Ollama с LLaVA:

ollama pull llava:7b  # Или llava:13b, если хватит памяти
ollama run llava:7b --api-port 11434

На 31.01.2026 LLaVA 1.6 показывает лучшие результаты для локальных VLM. Qwen-VL-Max точнее, но требует 24GB VRAM. Для старого железа подойдет InternVL-2-Chat-2B - работает даже на интегрированной графике.

4Настраиваем конфиг

В config.json указываем:

{
  "vlm_api": "http://localhost:11434/api/generate",
  "screenshot_tool": "scrot",
  "interaction_delay": 0.5,
  "model": "llava:7b"
}

Для Wayland меняем screenshot_tool на "grim".

5Запускаем и тестируем

python peepbo.py --prompt "Открой терминал и напиши echo hello"

Если все настроено правильно, Peepbo откроет терминал и введет команду. Не ждите чудес - иногда модель просит сделать скриншот еще раз или путает координаты.

Где это вообще нужно?

Peepbo не заменит разработчика. Но для автоматизации рутины - идеально. Вот реальные сценарии:

Ежедневные отчеты: Открыть браузер, залогиниться в CRM, экспортировать данные за вчера. Peepbo сделает это пока вы пьете кофе.
Тестирование UI: Протестировать все кнопки в веб-приложении и записать баги. Дешевле, чем Selenium, и не нужно писать код.
Миграция данных: Перенести контакты из старой CRM в новую через веб-интерфейс. Скучно, долго, идеально для Peepbo.

Сравнивать с другими локальными агентами бессмысленно - те работают с кодом и API, Peepbo работает с пикселями. Это другой уровень.

Проблемы, которые вас ждут

Peepbo сырой. Очень. Вот что бесит больше всего:

VLM иногда "галлюцинирует" координаты. Видит кнопку в левом верхнем углу, а кликает в правый нижний. Решение: увеличить размер скриншота и давать модели больше контекста.

Wayland поддержка работает через grim, но с координатами там отдельная история. X11 стабильнее, но кто в 2026 году еще использует X11?

Без GPU все работает медленно. LLaVA 7B на CPU обрабатывает скриншот 5-10 секунд. Для интерактивного использования неприемлемо. Нужна хотя бы интегрированная графика или дополнительное железо.

Альтернативы? Их нет

Серьезно. Для Linux десктопных агентов с VLM в январе 2026 года есть только Peepbo. OpenClaw обещает Linux-версию "скоро", но это говорят с 2024 года.

Можно собрать свой аналог из локальных LLM и скриптов, но зачем, если Peepbo уже работает?

Для сложных задач лучше использовать специализированные инструменты: Open Cowork для программирования, автономные агенты для исследований. Peepbo - для кликов по экрану.

Кому это нужно прямо сейчас

Системным администраторам, которые устали от рутины. Тестировщикам, которым нужно быстро протестировать веб-интерфейс. Энтузиастам, которые хотят поиграть с VLM без облачных API.

Не нужно: разработчикам (есть IDE плагины), дизайнерам (есть Figma AI), обычным пользователям (слишком сложно настраивать).

Peepbo - это proof of concept, который неожиданно работает. Установите, попробуйте, может быть, допишете пару фич и отправите pull request. Или забросите через неделю, как 90% open source проектов. Но пока он работает - и это главное.

P.S. Если Peepbo сломает ваш DE, не пишите разработчику. Он предупреждал в README: "Use at your own risk".

Peepbo: Linux-агент, который видит экран и щелкает мышкой