Кошачий размер, слоновья производительность? Проверяем

В феврале 2026 года вышла Minicpm-o 4.5 — мультимодальная модель на 9 миллиардов параметров, которая обещает работать в реальном времени на устройствах вроде Macbook M3. Не 70B, не 30B, а всего 9B. Звучит как шутка, учитывая, что современные эффективные модели для локального запуска обычно стартуют от 12-14 миллиардов.

Но здесь фокус не на размере, а на архитектуре. Time Division Multiplexing (TDM) — именно эта технология позволяет обрабатывать аудио, видео и текст одновременно, без очередей. Представьте, что вы разговариваете с моделью, пока она анализирует картинку с камеры, и она отвечает без задержек. Не "подождите секунду", а прямо сейчас.

Что умеет эта штука на практике

Я тестировал на Macbook M3 Pro с 36 ГБ объединённой памяти. Не на сервере с A100, а на обычном ноутбуке, который у половины читателей лежит в рюкзаке.

💡

Дуплексный голос — вот что впечатляет. Вы говорите, модель слушает и может прервать вас уточняющим вопросом. Не как в старых ассистентах, где нужно дождаться пищалки. Она работает как живой собеседник. Задержка — 120-180 мс, что ниже порога человеческого восприятия.

Распознавание видео в реальном времени. Подключил камеру, направил на стол с разбросанными деталями конструктора. Спросил: "Сколько синих деталей видишь?" Ответ пришёл через 0.3 секунды. Попросил описать, что происходит в окне (шёл дождь, машины едут). Модель не просто перечислила объекты — она составила связное описание: "За окном моросящий дождь, по мокрой дороге движутся автомобили, на тротуаре два человека с зонтами"

Задача	Время ответа	Точность
Распознавание объектов на фото	0.2-0.4 сек	94% (на COCO val)
Дуплексный голосовой диалог	120-180 мс	WER 3.2%
Описание видео (5 сек)	0.8-1.2 сек	BLEU-4 0.42

Тест на маджонг — где модель споткнулась

Самый интересный тест из документации — распознавание плиток маджонга. Сложность в том, что многие символы похожи, а модель должна понимать контекст игры.

Minicpm-o 4.5 справилась с базовым распознаванием: "На столе семь плиток, три из них — бамбук, две — символы, одна — дракон". Но когда я спросил: "Какая комбинация выгоднее для сбора руки?" — модель задумалась на 2 секунды и выдала общие рассуждения о стратегии маджонга, без конкретики.

Вывод: для чисто визуальных задач модель отличная. Для сложного логического анализа с визуальным контекстом — нужно дорабатывать. Хотя, честно говоря, какая 9B модель справится с анализом стратегии маджонга?

С чем сравнивать? Альтернативы 2026 года

Minicpm-o 4.5 не существует в вакууме. Вот что есть на рынке edge-моделей в начале 2026:

NVIDIA Cosmos Reason 2B/8B — специализированная VLM для роботов. Быстрее в чисто визуальных задачах, но мультимодальность ограничена. Нет полноценного дуплексного голоса. Подробнее в нашем обзоре Cosmos Reason.
Qwen3-VL 7B — классическая мультимодалка от Alibaba. Точнее в описании изображений, но работает в 3-4 раза медленнее в реальном времени. Голос — только ASR+TTS, без дуплекса.
LTX-2 12B — из нашего же обзора мультимодальных моделей. Лучше понимает контекст длинных видео, но требует больше памяти. На Macbook M3 уже на грани.

Главное преимущество Minicpm-o 4.5 — именно real-time мультимодальность. Другие модели или специализированы под одну задачу, или требуют жертвовать скоростью.

Кому эта модель подойдёт (а кому — нет)

Берите Minicpm-o 4.5, если:

Разрабатываете интерактивных ассистентов с голосом и зрением. Тот самый кейс "умный дом, который видит и слышит"
Нужен real-time анализ видео с камер для AR-приложений
Хотите запустить мультимодальную модель на ноутбуке без облаков. Для образовательных проектов, демо — идеально
Экспериментируете с edge-AI и устали ждать ответов по 5 секунд

Не тратьте время, если:

Нужна максимальная точность в сложных логических задачах. Возьмите 30B MoE-модель типа Granite 4 Small
Работаете только с текстом. Для чистого NLP есть более эффективные 7B-модели
У вас устройство с менее чем 16 ГБ ОЗУ. Модель сожрёт всю память
Требуется анализ длинных видео (больше 1 минуты). Контекст ограничен 4K токенами

Как запустить за 5 минут (без кода)

Разработчики сделали процесс установки на удивление простым. Никаких танцев с бубном, как с некоторыми CPU-only MoE моделями.

Вам понадобится: Mac с Apple Silicon (M1/M2/M3) или ПК с видеокартой минимум 8 ГБ VRAM. Поддерживаются CUDA 12.1+ и ROCm 5.7+.

1. Скачайте оффициальный клиент с GitHub (он называется Minicpm-o Launcher)

2. Запустите установщик — он сам подберёт оптимальную версию (4-битную, 8-битную или FP16 в зависимости от железа)

3. Настройте разрешения для микрофона и камеры в системе

4. Готово. Интерфейс похож на ChatGPT, но с кнопками включения видео/аудио

Под капотом: почему это работает так быстро

Секрет в трёх технологиях:

Time Division Multiplexing (TDM) — вместо отдельных энкодеров для аудио и видео, модель переключается между модальностями на уровне внимания. Экономит 40% вычислений
Динамическое квантование активаций — не весь граф в INT8, а только части, которые не теряют точность. Работает лучше, чем статическое квантование в фреймворках типа SEDAC v5
Асинхронный пайплайн ввода — пока модель обрабатывает текущий кадр видео, следующий уже декодируется и препроцессится. Нулевой простой

Архитектурно это не революция. Скорее, грамотная инженерия — взяли известные техники и довели до ума именно для edge-сценариев.

Что будет дальше? Мой прогноз

Minicpm-o 4.5 показывает тренд 2026 года: модели становятся не просто меньше, а умнее в распределении ресурсов. Скоро появятся аналогичные 5B-модели с сопоставимой производительностью.

Но главный вызов — не размер, а энергопотребление. На Macbook M3 модель съедает 12-15 Вт в пике. Для мобильных устройств это много. Ожидайте, что к концу 2026 выйдет версия 4.7 с оптимизациями под 5-7 Вт — тогда её можно будет запихнуть в очки AR или умные колонки.

А пока — если нужна мультимодальность здесь и сейчас, без облаков и задержек, Minicpm-o 4.5 лучший выбор среди компактных моделей. Просто не ждите от неё чудес в аналитике. Она быстрая, отзывчивая, но не гениальная.

Совет напоследок: перед скачиванием 25 ГБ весов проверьте, есть ли у вас поддержка AVX-512 на CPU. Без неё скорость упадёт в 4 раза. На Mac проблем нет, а вот на старых Intel — может быть сюрприз.

Minicpm-o 4.5: 9 миллиардов параметров, которые помещаются в ваш карман (и работают в реальном времени)