Забудьте про облака. Ваши фото остаются у вас

У вас на диске лежит 50 тысяч фотографий. Свадьбы, отпуска, скриншоты, мемы. Найти конкретную картинку - это квест уровня "Dark Souls". Прокручиваешь папки, вспоминаешь даты, молишься на превью. Google Photos решает проблему, но забирает вашу приватность. А что если сделать свой Google Photos, который работает локально и использует вашу видеокарту?

Makimus-AI - это open-source ответ на этот вопрос. Инструмент, который превращает вашу коллекцию изображений в поисковую базу, где можно искать не только по тегам, но и по смыслу. "Найди все фото с закатами на море", "покажи скриншоты с ошибками Python", "где тот кот в коробке?" - и система понимает, что вы имеете в виду.

На 19 февраля 2026 года Makimus-AI использует модель CLIP-ViT-L/14 с дообучением на мультиязычных данных. Это не просто старый CLIP 2021 года - разработчики дообучили его на актуальных датасетах, включая русскоязычные описания изображений.

Что умеет Makimus-AI (и чего не умеет)

Основная фишка - семантический поиск. Вы пишете запрос на естественном языке, система преобразует его в вектор, сравнивает с векторами изображений и выдает наиболее релевантные результаты. Но есть нюансы, о которых молчат в README.md.

Работает хорошо:

Поиск по объектам и сценам - "кошка на диване", "горный пейзаж", "офисное кресло"
Поиск по стилям - "акварельный рисунок", "пиксель-арт", "фотография в стиле ню"
Поиск по цветам - "красное платье", "синий автомобиль", "зеленые глаза"
Image-to-image поиск - загружаете картинку, находите похожие

Работает так себе:

Поиск по лицам конкретных людей - нужна отдельная модель для распознавания лиц
Точные текстовые надписи на изображениях - CLIP не OCR
Поиск по дате или метаданным - это нужно реализовывать отдельно
Очень абстрактные запросы - "фото, которое вызывает ностальгию"

💡

Если вам нужен поиск по лицам, посмотрите на AI File Sorter 1.5 с LLaVA. Он умеет распознавать людей и сортировать фото по персонажам.

С чем сравнивать? Альтернативы на 2026 год

Инструмент	Локальный	GPU	Open Source	Особенность
Makimus-AI	Да	Да (CUDA)	Да	Простая установка, веб-интерфейс
PhotoPrism	Да	Нет	Да	Полноценный менеджер фото
Immich	Да	Ограниченно	Да	Клон Google Photos
Vectara	Нет	Облако	Нет	Промышленное решение
Свой на FAISS	Да	Да	Да	Максимальная гибкость

Главное преимущество Makimus-AI перед PhotoPrism и Immich - GPU-ускорение. Обработка 50 тысяч изображений занимает не часы, а десятки минут. И поиск работает в реальном времени, а не с задержкой в 2-3 секунды.

Но если вам нужна максимальная производительность на больших объемах, придется собирать свое решение. Например, использовать гибридный подход к RAG - строить индекс на GPU, а обслуживать запросы на CPU.

Установка: от копирования репозитория до первого поиска

Разработчики обещают простую установку. На практике получается "просто, если у вас уже стоит Python, CUDA и знаете, что такое виртуальное окружение".

1 Подготовка системы

Проверяем, что у нас есть GPU с поддержкой CUDA 12.1 или новее. На февраль 2026 года это практически любая карта NVIDIA последних 5 лет. С AMD сложнее - нужно проверять совместимость через ROCm.

Владельцам AMD: если у вас Radeon RX 7900 XTX, сначала прочитайте статью про Stable Diffusion на AMD. Там те же проблемы с совместимостью. Makimus-AI официально поддерживает только CUDA.

2 Клонирование и установка

git clone https://github.com/makimus-ai/makimus-ai.git
cd makimus-ai
python -m venv venv
source venv/bin/activate  # или venv\Scripts\activate на Windows
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt

Здесь первая засада. Файл requirements.txt может содержать устаревшие версии пакетов. На февраль 2026 актуальные версии:

pip install transformers==4.45.0  # вместо 4.30 из requirements
pip install sentence-transformers==3.0.0
pip install fastapi==0.115.0
pip install chromadb==0.5.0

3 Первая настройка

python scripts/download_models.py
python scripts/create_config.py --path /путь/к/вашим/фото

Модели весят около 2.5 ГБ. CLIP-ViT-L/14 - основная рабочая лошадка. Если у вас мало места на SSD, можно использовать меньшую модель CLIP-ViT-B/32 (500 МБ), но качество поиска упадет.

4 Индексация и запуск

python index_images.py --config config.yaml
python run_server.py --port 7860

Открываем браузер, переходим на http://localhost:7860. Видим минималистичный интерфейс с полем поиска. Пробуем: "красная машина", "закат на пляже", "скриншот кода Python".

💡

Индексация 10 тысяч изображений на RTX 4070 занимает около 15 минут. На CPU это было бы 2-3 часа. Вот зачем нужно GPU-ускорение.

Реальные кейсы: кому это нужно?

Фотографам-любителям с терабайтами RAW-файлов. "Найди все портреты с боке", "покажи ночные городские пейзажи", "где фото с той модели в красном платье?".

Разработчикам с тысячами скриншотов ошибок. "Ищу скриншот с ошибкой PostgreSQL connection refused", "где тот UI-баг с кнопкой на мобильном?".

Художникам и дизайнерам. Коллекция референсов, мудборды, скетчи. "Покажи все изображения в стиле киберпанк", "найди референсы архитектуры брутализма".

Исследователям и аналитикам. Скриншоты графиков, диаграмм, визуализаций данных. "Ищу график с ростом акций NVIDIA за 2025 год", "где heatmap корреляций наших метрик?".

Проблемы, которые встретятся (и как их решить)

Out of memory при индексации. По умолчанию Makimus-AI пытается загрузить все изображения в память GPU. Решение: добавить флаг --batch-size 32 или меньше.

Медленный поиск после 100k изображений. Встроенная векторная база Chroma не оптимизирована для больших объемов. Решение: экспортировать векторы и использовать FAISS или Qdrant.

Не понимает русские запросы. Базовая модель CLIP обучена в основном на английском. Решение: использовать мультиязычную версию модели или дообучить на своих данных.

Нет фильтрации по дате/размеру/формату. Makimus-AI работает только с семантикой. Решение: написать обертку, которая комбинирует семантический поиск с фильтрами по метаданным.

Что дальше? Куда развивать систему

Makimus-AI - хорошая основа, но это только начало. Вот что можно добавить:

Интеграцию с Qwen-Image-2512 для генерации описаний изображений
Распознавание лиц через InsightFace или DeepFace
Поиск по тексту на изображениях через OCR (EasyOCR, PaddleOCR)
Кластеризацию похожих изображений для автоматической организации
API для интеграции с другими приложениями

Самое интересное - комбинировать Makimus-AI с локальными LLM. Представьте: вы спрашиваете "Какие фото у меня есть с прошлого отпуска в Италии?", а система не просто находит изображения, но и генерирует описание: "На этих 47 фотографиях вы посещали Рим, Флоренцию и Венецию в июне 2025. Основные достопримечательности: Колизей, собор Санта-Мария-дель-Фьоре, Гранд-канал".

На 2026 год уже есть эксперименты по интеграции векторного поиска изображений с локальными LLM через гибридные архитектуры. Это следующий шаг эволюции.

Makimus-AI не идеален. Интерфейс минималистичный до аскетизма, документация скудная, поддержка только NVIDIA раздражает владельцев AMD. Но это рабочий инструмент здесь и сейчас. Не нужно ждать, пока Google или Apple добавят приватный локальный поиск в свои продукты. Можно собрать свой.

И самое главное - ваши фото остаются вашими. Никаких облаков, никаких соглашений о передаче данных, никакого обучения моделей на ваших семейных фотографиях. Просто ваш компьютер, ваша видеокарта и ваш личный поисковик.

P.S. Если у вас несколько GPU и вы хотите масштабировать систему на миллионы изображений, изучите стратегии масштабирования локальных LLM. Те же принципы работают и для векторного поиска изображений.

Makimus-AI: ваш личный Google Photos, который не шпионит и работает на видеокарте