ИИ в кармане, который не шпионит
Представьте GPT-4o, который помещается в память телефона, не требует интернета и никогда не отправляет ваши фото и разговоры в облако. Звучит как фантастика? На 10.02.2026 это реальность под названием MiniCPM-o 4.5. Модель с 9 миллиардами параметров, которая понимает текст, изображения и голос, причем на английском и китайском. И да, она обходит оригинальный GPT-4o в стандартных бенчмарках по мультимодальному пониманию.
Что внутри этого цифрового зверя?
Цифра 9B (миллиардов параметров) многих пугает. Кажется, что для такого монстра нужен сервер. Но тут сработала магия квантования и оптимизации под мобильные чипы, включая NPU. В итоге модель занимает около 4.5 ГБ памяти. Для сравнения, Llama.cpp на телефоне с 7B параметрами требует похожих ресурсов.
| Возможность | MiniCPM-o 4.5 | Типичные облачные аналоги |
|---|---|---|
| Описание изображений | Да, в реальном времени | Да, но с задержкой сети |
| Голосовой диалог | Билингуальный (EN/CN) | Часто только один язык |
| Требует интернет | Нет | Всегда |
| Плата за запросы | 0 рублей | От 0.5$ за 1K токенов |
Почему она, а не Llama 3.2 или Qwen?
Выбор локальных моделей на 2026 год огромен. Gemma3 и Qwen3 отлично работают на ноутбуках. Но для телефона ключевое — мультимодальность из коробки. MiniCPM-o 4.5 создавалась именно для этого. В отличие от чистых текстовых моделей, она с рождения училась понимать связь между изображением и текстом. Аппаратное ускорение через NPU на Android работает здесь лучше, чем у многих конкурентов.
Главный нюанс: модель билингуальная, с сильным акцентом на английский и китайский. Русский она понимает на базовом уровне, но для сложных задач на русском лучше смотреть в сторону других решений. Хотя для описания фото или простого диалога хватает.
Запускаем за 15 минут. Серьезно
Если вы думаете, что нужно компилировать исходники и танцевать с бубном — нет. Все упростилось. Берем телефон с Android 10+, 6 ГБ ОЗУ (желательно 8) и 5 ГБ свободного места. И идем по шагам.
1 Ставим Termux и обновляем
Termux — наша песочница для Linux на Android. Качаем с F-Droid (версия на 10.02.2026 — 0.125.0). После установки сразу обновляем пакеты.
pkg update && pkg upgrade -y
pkg install git wget python python-pip -y
2 Качаем модель и клиент
Официальный репозиторий на Hugging Face содержит несколько квантованных версий. Нам нужна GGUF версия для llama.cpp. Я рекомендую версию Q4_K_M — баланс качества и скорости.
cd ~
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make clean && make -j4
Пока компилируется, в другом окне Termux качаем саму модель.
cd ~
wget https://huggingface.co/OpenBMB/MiniCPM-o-4.5-GGUF/resolve/main/MiniCPM-o-4B-gguf-model-q4_k_m.gguf
# Переименовываем для удобства
mv MiniCPM-o-4B-gguf-model-q4_k_m.gguf minicpm.gguf
pkg install clang и запустите компиляцию с флагом LLAMA_CLBLAST=1 make для использования OpenCL.3 Первый запуск и тест
Перемещаем модель в папку llama.cpp и запускаем инференс. Ключевой параметр -ngl 20 — это количество слоев, которые будут загружены в GPU (если он есть). Для процессоного режима уберите этот флаг.
cd ~/llama.cpp
mv ../minicpm.gguf ./
./main -m minicpm.gguf -ngl 20 -p "Describe this image: [img-1]" --image-path ~/Pictures/my_photo.jpg
Если все настроено правильно, через 10-20 секунд вы получите текстовое описание вашей фотографии. Скорость генерации: 5-15 токенов в секунду на Snapdragon 8 Gen 3. Медленнее, чем в облаке, но бесплатно и приватно.
Что с этим делать? Реальные кейсы
- Перевод меню в ресторане: наведите камеру на китайское меню, получите английский перевод с описанием блюд.
- Голосовые заметки с анализом: записываете мысль на английском, модель суммирует и раскладывает по тегам.
- Описание интерьера для слепых: приложение-компаньон, которое в реальном времени рассказывает, что вокруг.
- Оффлайн-помощник в походе: сфотографируйте гриб или растение, узнайте, съедобно ли оно. Без интернета.
Для более сложной автоматизации можно связать модель с автономным AI-агентом на смартфоне. Или даже распределить вычисления на несколько устройств, как в AI-Doomsday-Toolbox.
Кому это вообще нужно?
Разработчикам, которые тестируют мультимодальные приложения без облачных API. Путешественникам в зонах без покрытия. Параноикам, которые не доверяют Big Tech (и правильно делают). Преподавателям, показывающим, как работает ИИ без магии. И всем, кому надоело платить за каждый запрос к ChatGPT.
Не обольщайтесь: это не замена полноценному GPT-4o для сложных аналитических задач на русском. Контекстное окно модели ограничено, а логика в длинных диалогах может «поплыть». Но для конкретных, четких запросов по изображениям или коротких диалогов — работает на удивление стабильно.
Прогноз на 2026-2027: такие модели окончательно переедут в firmware телефонов. Производители уже договариваются о предустановке. Через год запуск MiniCPM-o будет в два клика в настройках. А пока — приходится немного повозиться с Termux. Но игра стоит свеч: ваш личный, приватный ИИ, который не исчезнет, когда отключат интернет.