Забудьте про облака. Ваши фото остаются у вас
У вас на диске лежит 50 тысяч фотографий. Свадьбы, отпуска, скриншоты, мемы. Найти конкретную картинку - это квест уровня "Dark Souls". Прокручиваешь папки, вспоминаешь даты, молишься на превью. Google Photos решает проблему, но забирает вашу приватность. А что если сделать свой Google Photos, который работает локально и использует вашу видеокарту?
Makimus-AI - это open-source ответ на этот вопрос. Инструмент, который превращает вашу коллекцию изображений в поисковую базу, где можно искать не только по тегам, но и по смыслу. "Найди все фото с закатами на море", "покажи скриншоты с ошибками Python", "где тот кот в коробке?" - и система понимает, что вы имеете в виду.
На 19 февраля 2026 года Makimus-AI использует модель CLIP-ViT-L/14 с дообучением на мультиязычных данных. Это не просто старый CLIP 2021 года - разработчики дообучили его на актуальных датасетах, включая русскоязычные описания изображений.
Что умеет Makimus-AI (и чего не умеет)
Основная фишка - семантический поиск. Вы пишете запрос на естественном языке, система преобразует его в вектор, сравнивает с векторами изображений и выдает наиболее релевантные результаты. Но есть нюансы, о которых молчат в README.md.
Работает хорошо:
- Поиск по объектам и сценам - "кошка на диване", "горный пейзаж", "офисное кресло"
- Поиск по стилям - "акварельный рисунок", "пиксель-арт", "фотография в стиле ню"
- Поиск по цветам - "красное платье", "синий автомобиль", "зеленые глаза"
- Image-to-image поиск - загружаете картинку, находите похожие
Работает так себе:
- Поиск по лицам конкретных людей - нужна отдельная модель для распознавания лиц
- Точные текстовые надписи на изображениях - CLIP не OCR
- Поиск по дате или метаданным - это нужно реализовывать отдельно
- Очень абстрактные запросы - "фото, которое вызывает ностальгию"
С чем сравнивать? Альтернативы на 2026 год
| Инструмент | Локальный | GPU | Open Source | Особенность |
|---|---|---|---|---|
| Makimus-AI | Да | Да (CUDA) | Да | Простая установка, веб-интерфейс |
| PhotoPrism | Да | Нет | Да | Полноценный менеджер фото |
| Immich | Да | Ограниченно | Да | Клон Google Photos |
| Vectara | Нет | Облако | Нет | Промышленное решение |
| Свой на FAISS | Да | Да | Да | Максимальная гибкость |
Главное преимущество Makimus-AI перед PhotoPrism и Immich - GPU-ускорение. Обработка 50 тысяч изображений занимает не часы, а десятки минут. И поиск работает в реальном времени, а не с задержкой в 2-3 секунды.
Но если вам нужна максимальная производительность на больших объемах, придется собирать свое решение. Например, использовать гибридный подход к RAG - строить индекс на GPU, а обслуживать запросы на CPU.
Установка: от копирования репозитория до первого поиска
Разработчики обещают простую установку. На практике получается "просто, если у вас уже стоит Python, CUDA и знаете, что такое виртуальное окружение".
1 Подготовка системы
Проверяем, что у нас есть GPU с поддержкой CUDA 12.1 или новее. На февраль 2026 года это практически любая карта NVIDIA последних 5 лет. С AMD сложнее - нужно проверять совместимость через ROCm.
Владельцам AMD: если у вас Radeon RX 7900 XTX, сначала прочитайте статью про Stable Diffusion на AMD. Там те же проблемы с совместимостью. Makimus-AI официально поддерживает только CUDA.
2 Клонирование и установка
git clone https://github.com/makimus-ai/makimus-ai.git
cd makimus-ai
python -m venv venv
source venv/bin/activate # или venv\Scripts\activate на Windows
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt
Здесь первая засада. Файл requirements.txt может содержать устаревшие версии пакетов. На февраль 2026 актуальные версии:
pip install transformers==4.45.0 # вместо 4.30 из requirements
pip install sentence-transformers==3.0.0
pip install fastapi==0.115.0
pip install chromadb==0.5.0
3 Первая настройка
python scripts/download_models.py
python scripts/create_config.py --path /путь/к/вашим/фото
Модели весят около 2.5 ГБ. CLIP-ViT-L/14 - основная рабочая лошадка. Если у вас мало места на SSD, можно использовать меньшую модель CLIP-ViT-B/32 (500 МБ), но качество поиска упадет.
4 Индексация и запуск
python index_images.py --config config.yaml
python run_server.py --port 7860
Открываем браузер, переходим на http://localhost:7860. Видим минималистичный интерфейс с полем поиска. Пробуем: "красная машина", "закат на пляже", "скриншот кода Python".
Реальные кейсы: кому это нужно?
Фотографам-любителям с терабайтами RAW-файлов. "Найди все портреты с боке", "покажи ночные городские пейзажи", "где фото с той модели в красном платье?".
Разработчикам с тысячами скриншотов ошибок. "Ищу скриншот с ошибкой PostgreSQL connection refused", "где тот UI-баг с кнопкой на мобильном?".
Художникам и дизайнерам. Коллекция референсов, мудборды, скетчи. "Покажи все изображения в стиле киберпанк", "найди референсы архитектуры брутализма".
Исследователям и аналитикам. Скриншоты графиков, диаграмм, визуализаций данных. "Ищу график с ростом акций NVIDIA за 2025 год", "где heatmap корреляций наших метрик?".
Проблемы, которые встретятся (и как их решить)
Out of memory при индексации. По умолчанию Makimus-AI пытается загрузить все изображения в память GPU. Решение: добавить флаг --batch-size 32 или меньше.
Медленный поиск после 100k изображений. Встроенная векторная база Chroma не оптимизирована для больших объемов. Решение: экспортировать векторы и использовать FAISS или Qdrant.
Не понимает русские запросы. Базовая модель CLIP обучена в основном на английском. Решение: использовать мультиязычную версию модели или дообучить на своих данных.
Нет фильтрации по дате/размеру/формату. Makimus-AI работает только с семантикой. Решение: написать обертку, которая комбинирует семантический поиск с фильтрами по метаданным.
Что дальше? Куда развивать систему
Makimus-AI - хорошая основа, но это только начало. Вот что можно добавить:
- Интеграцию с Qwen-Image-2512 для генерации описаний изображений
- Распознавание лиц через InsightFace или DeepFace
- Поиск по тексту на изображениях через OCR (EasyOCR, PaddleOCR)
- Кластеризацию похожих изображений для автоматической организации
- API для интеграции с другими приложениями
Самое интересное - комбинировать Makimus-AI с локальными LLM. Представьте: вы спрашиваете "Какие фото у меня есть с прошлого отпуска в Италии?", а система не просто находит изображения, но и генерирует описание: "На этих 47 фотографиях вы посещали Рим, Флоренцию и Венецию в июне 2025. Основные достопримечательности: Колизей, собор Санта-Мария-дель-Фьоре, Гранд-канал".
На 2026 год уже есть эксперименты по интеграции векторного поиска изображений с локальными LLM через гибридные архитектуры. Это следующий шаг эволюции.
Makimus-AI не идеален. Интерфейс минималистичный до аскетизма, документация скудная, поддержка только NVIDIA раздражает владельцев AMD. Но это рабочий инструмент здесь и сейчас. Не нужно ждать, пока Google или Apple добавят приватный локальный поиск в свои продукты. Можно собрать свой.
И самое главное - ваши фото остаются вашими. Никаких облаков, никаких соглашений о передаче данных, никакого обучения моделей на ваших семейных фотографиях. Просто ваш компьютер, ваша видеокарта и ваш личный поисковик.
P.S. Если у вас несколько GPU и вы хотите масштабировать систему на миллионы изображений, изучите стратегии масштабирования локальных LLM. Те же принципы работают и для векторного поиска изображений.