Обзор MiniCPM-o-4.5: 9B модель с речью, зрением и полным дуплексом | AiManual
AiManual Logo Ai / Manual.
03 Фев 2026 Инструмент

MiniCPM-o-4.5: Модель размером с кошку, но с мозгами слона

Полный обзор MiniCPM-o-4.5 - 9-миллиардной мультимодальной модели с речью, зрением и полным дуплексом для локального запуска. Сравнение, примеры, установка.

Что это за зверь такой, MiniCPM-o-4.5?

Представьте себе модель, которая умеет все: видит картинки, понимает речь, отвечает голосом, делает это одновременно и при этом помещается на средний ноутбук. Звучит как фантастика? А вот и нет. MiniCPM-o-4.5 от OpenBMB - это именно такая штука.

Всего 9 миллиардов параметров. Для сравнения: GPT-4o весит под 2 триллиона. Claude 3.5 Sonnet - около 70 миллиардов. А эта малютка - 9. И она не просто болтает. Она делает то, что многие большие модели до сих пор не умеют.

💡
На 03.02.2026 MiniCPM-o-4.5 - самая новая версия в линейке MiniCPM. Предыдущая была MiniCPM-o-2.6, но эта в 3.5 раза больше и в разы умнее. Если видите где-то упоминания старых версий - игнорируйте.

Полный дуплекс? Это как?

Вот здесь начинается самое интересное. Большинство голосовых моделей работают по принципу walkie-talkie: ты говоришь - она молчит, ты замолчал - она отвечает. Утомительно, неестественно, раздражает.

MiniCPM-o-4.5 умеет говорить и слушать одновременно. Как живой человек. Ты можешь перебивать ее, она может перебивать тебя, можно вести нормальный диалог, а не церемонию с передачей эстафетной палочки.

Технически это чертовски сложно. Нужно обрабатывать аудиопоток в реальном времени, определять интонацию, паузы, понимать, когда человек закончил мысль, а когда просто взял дыхание. И все это с задержкой меньше 300 миллисекунд. У MiniCPM-o-4.5 получается.

Что она умеет конкретно?

Давайте по пунктам, потому что список длинный:

  • Зрение: Загружаешь картинку - она ее описывает, отвечает на вопросы, находит объекты. Не просто «я вижу кошку», а «кошка сидит на красном диване, смотрит в окно, на улице дождь».
  • Речь в текст: Превращает голос в текст с контекстным пониманием. Отличает «замок» (дверной) от «замка» (строения) по смыслу разговора.
  • Текст в речь: Генерирует человеческий голос с интонациями. Не робот из 80-х, а вполне естественная речь.
  • Дуплексный диалог: Тот самый режим, где можно перебивать. Работает локально, без облаков.
  • Кодинг: Пишет код, объясняет ошибки, рефакторит. Не дотягивает до специализированных кодеров вроде DYNAMIC, но для 9B - впечатляет.
Возможность MiniCPM-o-4.5 Типичные большие модели
Полный дуплекс Да Нет (или облачный API)
Локальный запуск На ноутбуке Требует сервер
Мультимодальность Видео, аудио, текст Обычно только текст+изображение
Задержка ответа ~300 мс 500 мс - 2 с

А что с железом? На чем это бегает?

Вот здесь магия. Для базового режима (только текст) хватит 8 ГБ RAM. Для полного мультимодального режима с дуплексом - 16 ГБ. GPU не обязателен, но с ним быстрее.

Сравните с HyperNova-60B, которой нужно 40+ ГБ RAM. Или с гигантами на 120B+, которые вообще не помещаются в обычную машину.

MiniCPM-o-4.5 работает там, где другие даже не запускаются. Старый игровой ноутбук? Легко. Компьютер пятилетней давности? Без проблем. Это делает ее идеальной для всяких DIY-проектов, умных устройств, кастомных ассистентов.

Внимание: полный дуплекс требует хорошего микрофона и акустики. Если у вас в комнате эхо или фонят соседи, модель может начать «слышать» себя и уйти в рекурсию. Шумоподавление помогает, но не идеально.

Кому это реально нужно?

Список длиннее, чем кажется:

  • Разработчики embedded-систем: Хотите голосового ассистента в умный холодильник? Вот он, готовый, локальный, не требующий облаков.
  • Исследователи с ограниченным бюджетом: Нет денег на AWS с GPU? Запускайте на своем ноуте.
  • Любители приватности: Все данные остаются у вас. Никаких логов в облаке.
  • Образовательные проекты: Интерактивный учебник, который видит, что вы рисуете, и объясняет ошибки в реальном времени.
  • Геймдев: NPC, которые действительно слушают игрока и отвечают без задержек.

Как это сравнивается с другими компактными моделями?

Есть же Liquid AI LFM2-2.6B - еще меньше, но и возможностей меньше. Нет дуплекса, нет полноценного зрения.

Или MiniMax-M2.1 - отличный кодер, но опять же, только текст.

MiniCPM-o-4.5 занимает уникальную нишу: она достаточно маленькая, чтобы работать везде, но достаточно умная, чтобы делать то, что раньше требовало трех разных моделей.

Где взять и как попробовать?

Все открыто. Модель доступна на Hugging Face, код - на GitHub.

Установка стандартная для моделей на Transformers:

pip install transformers torch
# Загрузка модели
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("openbmb/MiniCPM-o-4.5")
tokenizer = AutoTokenizer.from_pretrained("openbmb/MiniCPM-o-4.5")

Для голосового режима нужно дополнительно установить audio-зависимости, все есть в документации.

💡
На 03.02.2026 самая свежая версия репозитория включает примеры для дуплексного режима с использованием WebRTC. Если в вашей версии их нет - обновитесь.

Подводные камни (потому что они всегда есть)

Идеальных технологий не бывает. Вот что бесит в MiniCPM-o-4.5:

  • Английский лучше китайского: Модель китайская, но английский знает отлично. Русский... ну, сойдет для базовых вещей, но не ждите шедевров.
  • Память короткая: Контекст 32K токенов - нормально, но не феноменально. Для длинных документов лучше специализированные модели.
  • Голос иногда «плавает»: В дуплексном режиме, если говорить слишком быстро, модель может пропустить часть фразы или перепутать интонацию.
  • Документация на английском и китайском: Русской нет. Придется либо переводить, либо разбираться методом тыка.

Стоит ли игра свеч?

Если вам нужна одна модель, которая делает все понемногу, и при этом помещается на обычный компьютер - да, определенно стоит.

Если нужен специалист по коду - берите MiniMax-M2.1. Если нужна максимальная компактность - Falcon 90M. Но если хотите именно мультимодальность с голосом и дуплексом - альтернатив MiniCPM-o-4.5 на 03.02.2026 просто нет.

Мой прогноз? Такие модели - будущее локального AI. Не монстры на 100B+, которые жрут электричество как небольшой город, а умные компактные системы, которые работают там, где нужно. Через год их будет десятки. Но MiniCPM-o-4.5 - одна из первых, кто сделал это хорошо.

Попробуйте. Хотя бы ради того, чтобы перебить AI и услышать, как она отвечает, не дожидаясь вашей паузы. Это тот опыт, после которого обычные голосовые ассистенты кажутся допотопными.