Запуск MiniCPM-o 4.5 на Android: 9B модель локально | Гайд 2026 | AiManual
AiManual Logo Ai / Manual.
10 Фев 2026 Инструмент

MiniCPM-o 4.5: как запустить 9B мультимодальную модель на телефоне

Полный гайд по установке мультимодальной модели MiniCPM-o 4.5 на смартфон. 9 млрд параметров, работа без интернета, билингуальные диалоги. Сравнение с Llama.cpp

ИИ в кармане, который не шпионит

Представьте GPT-4o, который помещается в память телефона, не требует интернета и никогда не отправляет ваши фото и разговоры в облако. Звучит как фантастика? На 10.02.2026 это реальность под названием MiniCPM-o 4.5. Модель с 9 миллиардами параметров, которая понимает текст, изображения и голос, причем на английском и китайском. И да, она обходит оригинальный GPT-4o в стандартных бенчмарках по мультимодальному пониманию.

💡
На февраль 2026 года MiniCPM-o 4.5 остается самой мощной мультимодальной моделью, оптимизированной для мобильных устройств. Ее архитектура специально доработана для эффективного использования памяти и процессора смартфонов.

Что внутри этого цифрового зверя?

Цифра 9B (миллиардов параметров) многих пугает. Кажется, что для такого монстра нужен сервер. Но тут сработала магия квантования и оптимизации под мобильные чипы, включая NPU. В итоге модель занимает около 4.5 ГБ памяти. Для сравнения, Llama.cpp на телефоне с 7B параметрами требует похожих ресурсов.

Возможность MiniCPM-o 4.5 Типичные облачные аналоги
Описание изображений Да, в реальном времени Да, но с задержкой сети
Голосовой диалог Билингуальный (EN/CN) Часто только один язык
Требует интернет Нет Всегда
Плата за запросы 0 рублей От 0.5$ за 1K токенов

Почему она, а не Llama 3.2 или Qwen?

Выбор локальных моделей на 2026 год огромен. Gemma3 и Qwen3 отлично работают на ноутбуках. Но для телефона ключевое — мультимодальность из коробки. MiniCPM-o 4.5 создавалась именно для этого. В отличие от чистых текстовых моделей, она с рождения училась понимать связь между изображением и текстом. Аппаратное ускорение через NPU на Android работает здесь лучше, чем у многих конкурентов.

Главный нюанс: модель билингуальная, с сильным акцентом на английский и китайский. Русский она понимает на базовом уровне, но для сложных задач на русском лучше смотреть в сторону других решений. Хотя для описания фото или простого диалога хватает.

Запускаем за 15 минут. Серьезно

Если вы думаете, что нужно компилировать исходники и танцевать с бубном — нет. Все упростилось. Берем телефон с Android 10+, 6 ГБ ОЗУ (желательно 8) и 5 ГБ свободного места. И идем по шагам.

1 Ставим Termux и обновляем

Termux — наша песочница для Linux на Android. Качаем с F-Droid (версия на 10.02.2026 — 0.125.0). После установки сразу обновляем пакеты.

pkg update && pkg upgrade -y
pkg install git wget python python-pip -y

2 Качаем модель и клиент

Официальный репозиторий на Hugging Face содержит несколько квантованных версий. Нам нужна GGUF версия для llama.cpp. Я рекомендую версию Q4_K_M — баланс качества и скорости.

cd ~
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make clean && make -j4

Пока компилируется, в другом окне Termux качаем саму модель.

cd ~
wget https://huggingface.co/OpenBMB/MiniCPM-o-4.5-GGUF/resolve/main/MiniCPM-o-4B-gguf-model-q4_k_m.gguf
# Переименовываем для удобства
mv MiniCPM-o-4B-gguf-model-q4_k_m.gguf minicpm.gguf
💡
На февраль 2026 года актуальная версия llama.cpp — v3.5.1. Она включает все оптимизации для ARM-процессоров смартфонов. Если make падает с ошибкой, установите пакет clang: pkg install clang и запустите компиляцию с флагом LLAMA_CLBLAST=1 make для использования OpenCL.

3 Первый запуск и тест

Перемещаем модель в папку llama.cpp и запускаем инференс. Ключевой параметр -ngl 20 — это количество слоев, которые будут загружены в GPU (если он есть). Для процессоного режима уберите этот флаг.

cd ~/llama.cpp
mv ../minicpm.gguf ./
./main -m minicpm.gguf -ngl 20 -p "Describe this image: [img-1]" --image-path ~/Pictures/my_photo.jpg

Если все настроено правильно, через 10-20 секунд вы получите текстовое описание вашей фотографии. Скорость генерации: 5-15 токенов в секунду на Snapdragon 8 Gen 3. Медленнее, чем в облаке, но бесплатно и приватно.

Что с этим делать? Реальные кейсы

  • Перевод меню в ресторане: наведите камеру на китайское меню, получите английский перевод с описанием блюд.
  • Голосовые заметки с анализом: записываете мысль на английском, модель суммирует и раскладывает по тегам.
  • Описание интерьера для слепых: приложение-компаньон, которое в реальном времени рассказывает, что вокруг.
  • Оффлайн-помощник в походе: сфотографируйте гриб или растение, узнайте, съедобно ли оно. Без интернета.

Для более сложной автоматизации можно связать модель с автономным AI-агентом на смартфоне. Или даже распределить вычисления на несколько устройств, как в AI-Doomsday-Toolbox.

Кому это вообще нужно?

Разработчикам, которые тестируют мультимодальные приложения без облачных API. Путешественникам в зонах без покрытия. Параноикам, которые не доверяют Big Tech (и правильно делают). Преподавателям, показывающим, как работает ИИ без магии. И всем, кому надоело платить за каждый запрос к ChatGPT.

Не обольщайтесь: это не замена полноценному GPT-4o для сложных аналитических задач на русском. Контекстное окно модели ограничено, а логика в длинных диалогах может «поплыть». Но для конкретных, четких запросов по изображениям или коротких диалогов — работает на удивление стабильно.

Прогноз на 2026-2027: такие модели окончательно переедут в firmware телефонов. Производители уже договариваются о предустановке. Через год запуск MiniCPM-o будет в два клика в настройках. А пока — приходится немного повозиться с Termux. Но игра стоит свеч: ваш личный, приватный ИИ, который не исчезнет, когда отключат интернет.