Linux наконец-то получил своего десктопного агента
Пока весь мир обсуждает OpenClaw для Windows и Mac, Linux-пользователи оставались за бортом. До января 2026 года. Peepbo - это открытый инструмент, который делает ровно то, что должен: берет скриншот, отправляет его в локальную VLM, получает инструкции и выполняет их через xdotool. Никакой магии, только Python, немного bash и работающая идея.
Что там под капотом? Проще, чем кажется
Peepbo не пытается быть умным. Он делает три вещи: делает скриншот (scrot), отправляет его в VLM с промптом "Что делать дальше?", парсит ответ и выполняет команды через xdotool. Весь код умещается в 300 строк Python. И это гениально.
Сравнивать с OpenClaw бесполезно - у того команда из 20 человек и миллионы долларов. Peepbo написал один человек за выходные. Но он работает. На Linux.
| Что умеет Peepbo | Чего не умеет |
|---|---|
| Делать скриншоты всего экрана или области | Работать с оконными менеджерами типа i3 (пока) |
| Отправлять изображения в локальную VLM через Ollama | Запоминать контекст между запросами |
| Выполнять клики, ввод текста, нажатия клавиш | Работать с защищенными приложениями (банк-клиенты) |
| Поддерживать Wayland через grim + slurp | Обрабатывать сложные многошаговые задачи |
Установка: пять минут и готово
1Ставим зависимости
Без xdotool и scrot ничего не заработает. На Ubuntu/Debian:
sudo apt update
sudo apt install xdotool scrot python3-pip python3-venvДля Wayland вместо scrot нужны grim и slurp. Fedora/Arch пользователи сами знают, как ставить пакеты (или должны научиться).
2Клонируем и настраиваем
git clone https://github.com/yourusername/peepbo.git
cd peepbo
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txtВ requirements.txt обычно только requests и pillow. Никакого tensorflow или pytorch - VLM работает отдельно.
3Запускаем VLM
Peepbo не включает модель. Нужно запустить свою. Самый простой вариант - Ollama с LLaVA:
ollama pull llava:7b # Или llava:13b, если хватит памяти
ollama run llava:7b --api-port 11434На 31.01.2026 LLaVA 1.6 показывает лучшие результаты для локальных VLM. Qwen-VL-Max точнее, но требует 24GB VRAM. Для старого железа подойдет InternVL-2-Chat-2B - работает даже на интегрированной графике.
4Настраиваем конфиг
В config.json указываем:
{
"vlm_api": "http://localhost:11434/api/generate",
"screenshot_tool": "scrot",
"interaction_delay": 0.5,
"model": "llava:7b"
}Для Wayland меняем screenshot_tool на "grim".
5Запускаем и тестируем
python peepbo.py --prompt "Открой терминал и напиши echo hello"Если все настроено правильно, Peepbo откроет терминал и введет команду. Не ждите чудес - иногда модель просит сделать скриншот еще раз или путает координаты.
Где это вообще нужно?
Peepbo не заменит разработчика. Но для автоматизации рутины - идеально. Вот реальные сценарии:
- Ежедневные отчеты: Открыть браузер, залогиниться в CRM, экспортировать данные за вчера. Peepbo сделает это пока вы пьете кофе.
- Тестирование UI: Протестировать все кнопки в веб-приложении и записать баги. Дешевле, чем Selenium, и не нужно писать код.
- Миграция данных: Перенести контакты из старой CRM в новую через веб-интерфейс. Скучно, долго, идеально для Peepbo.
Сравнивать с другими локальными агентами бессмысленно - те работают с кодом и API, Peepbo работает с пикселями. Это другой уровень.
Проблемы, которые вас ждут
Peepbo сырой. Очень. Вот что бесит больше всего:
VLM иногда "галлюцинирует" координаты. Видит кнопку в левом верхнем углу, а кликает в правый нижний. Решение: увеличить размер скриншота и давать модели больше контекста.
Wayland поддержка работает через grim, но с координатами там отдельная история. X11 стабильнее, но кто в 2026 году еще использует X11?
Без GPU все работает медленно. LLaVA 7B на CPU обрабатывает скриншот 5-10 секунд. Для интерактивного использования неприемлемо. Нужна хотя бы интегрированная графика или дополнительное железо.
Альтернативы? Их нет
Серьезно. Для Linux десктопных агентов с VLM в январе 2026 года есть только Peepbo. OpenClaw обещает Linux-версию "скоро", но это говорят с 2024 года.
Можно собрать свой аналог из локальных LLM и скриптов, но зачем, если Peepbo уже работает?
Для сложных задач лучше использовать специализированные инструменты: Open Cowork для программирования, автономные агенты для исследований. Peepbo - для кликов по экрану.
Кому это нужно прямо сейчас
Системным администраторам, которые устали от рутины. Тестировщикам, которым нужно быстро протестировать веб-интерфейс. Энтузиастам, которые хотят поиграть с VLM без облачных API.
Не нужно: разработчикам (есть IDE плагины), дизайнерам (есть Figma AI), обычным пользователям (слишком сложно настраивать).
Peepbo - это proof of concept, который неожиданно работает. Установите, попробуйте, может быть, допишете пару фич и отправите pull request. Или забросите через неделю, как 90% open source проектов. Но пока он работает - и это главное.
P.S. Если Peepbo сломает ваш DE, не пишите разработчику. Он предупреждал в README: "Use at your own risk".