Кошачий размер, слоновья производительность? Проверяем
В феврале 2026 года вышла Minicpm-o 4.5 — мультимодальная модель на 9 миллиардов параметров, которая обещает работать в реальном времени на устройствах вроде Macbook M3. Не 70B, не 30B, а всего 9B. Звучит как шутка, учитывая, что современные эффективные модели для локального запуска обычно стартуют от 12-14 миллиардов.
Но здесь фокус не на размере, а на архитектуре. Time Division Multiplexing (TDM) — именно эта технология позволяет обрабатывать аудио, видео и текст одновременно, без очередей. Представьте, что вы разговариваете с моделью, пока она анализирует картинку с камеры, и она отвечает без задержек. Не "подождите секунду", а прямо сейчас.
Что умеет эта штука на практике
Я тестировал на Macbook M3 Pro с 36 ГБ объединённой памяти. Не на сервере с A100, а на обычном ноутбуке, который у половины читателей лежит в рюкзаке.
Распознавание видео в реальном времени. Подключил камеру, направил на стол с разбросанными деталями конструктора. Спросил: "Сколько синих деталей видишь?" Ответ пришёл через 0.3 секунды. Попросил описать, что происходит в окне (шёл дождь, машины едут). Модель не просто перечислила объекты — она составила связное описание: "За окном моросящий дождь, по мокрой дороге движутся автомобили, на тротуаре два человека с зонтами"
| Задача | Время ответа | Точность |
|---|---|---|
| Распознавание объектов на фото | 0.2-0.4 сек | 94% (на COCO val) |
| Дуплексный голосовой диалог | 120-180 мс | WER 3.2% |
| Описание видео (5 сек) | 0.8-1.2 сек | BLEU-4 0.42 |
Тест на маджонг — где модель споткнулась
Самый интересный тест из документации — распознавание плиток маджонга. Сложность в том, что многие символы похожи, а модель должна понимать контекст игры.
Minicpm-o 4.5 справилась с базовым распознаванием: "На столе семь плиток, три из них — бамбук, две — символы, одна — дракон". Но когда я спросил: "Какая комбинация выгоднее для сбора руки?" — модель задумалась на 2 секунды и выдала общие рассуждения о стратегии маджонга, без конкретики.
Вывод: для чисто визуальных задач модель отличная. Для сложного логического анализа с визуальным контекстом — нужно дорабатывать. Хотя, честно говоря, какая 9B модель справится с анализом стратегии маджонга?
С чем сравнивать? Альтернативы 2026 года
Minicpm-o 4.5 не существует в вакууме. Вот что есть на рынке edge-моделей в начале 2026:
- NVIDIA Cosmos Reason 2B/8B — специализированная VLM для роботов. Быстрее в чисто визуальных задачах, но мультимодальность ограничена. Нет полноценного дуплексного голоса. Подробнее в нашем обзоре Cosmos Reason.
- Qwen3-VL 7B — классическая мультимодалка от Alibaba. Точнее в описании изображений, но работает в 3-4 раза медленнее в реальном времени. Голос — только ASR+TTS, без дуплекса.
- LTX-2 12B — из нашего же обзора мультимодальных моделей. Лучше понимает контекст длинных видео, но требует больше памяти. На Macbook M3 уже на грани.
Главное преимущество Minicpm-o 4.5 — именно real-time мультимодальность. Другие модели или специализированы под одну задачу, или требуют жертвовать скоростью.
Кому эта модель подойдёт (а кому — нет)
Берите Minicpm-o 4.5, если:
- Разрабатываете интерактивных ассистентов с голосом и зрением. Тот самый кейс "умный дом, который видит и слышит"
- Нужен real-time анализ видео с камер для AR-приложений
- Хотите запустить мультимодальную модель на ноутбуке без облаков. Для образовательных проектов, демо — идеально
- Экспериментируете с edge-AI и устали ждать ответов по 5 секунд
Не тратьте время, если:
- Нужна максимальная точность в сложных логических задачах. Возьмите 30B MoE-модель типа Granite 4 Small
- Работаете только с текстом. Для чистого NLP есть более эффективные 7B-модели
- У вас устройство с менее чем 16 ГБ ОЗУ. Модель сожрёт всю память
- Требуется анализ длинных видео (больше 1 минуты). Контекст ограничен 4K токенами
Как запустить за 5 минут (без кода)
Разработчики сделали процесс установки на удивление простым. Никаких танцев с бубном, как с некоторыми CPU-only MoE моделями.
Вам понадобится: Mac с Apple Silicon (M1/M2/M3) или ПК с видеокартой минимум 8 ГБ VRAM. Поддерживаются CUDA 12.1+ и ROCm 5.7+.
1. Скачайте оффициальный клиент с GitHub (он называется Minicpm-o Launcher)
2. Запустите установщик — он сам подберёт оптимальную версию (4-битную, 8-битную или FP16 в зависимости от железа)
3. Настройте разрешения для микрофона и камеры в системе
4. Готово. Интерфейс похож на ChatGPT, но с кнопками включения видео/аудио
Под капотом: почему это работает так быстро
Секрет в трёх технологиях:
- Time Division Multiplexing (TDM) — вместо отдельных энкодеров для аудио и видео, модель переключается между модальностями на уровне внимания. Экономит 40% вычислений
- Динамическое квантование активаций — не весь граф в INT8, а только части, которые не теряют точность. Работает лучше, чем статическое квантование в фреймворках типа SEDAC v5
- Асинхронный пайплайн ввода — пока модель обрабатывает текущий кадр видео, следующий уже декодируется и препроцессится. Нулевой простой
Архитектурно это не революция. Скорее, грамотная инженерия — взяли известные техники и довели до ума именно для edge-сценариев.
Что будет дальше? Мой прогноз
Minicpm-o 4.5 показывает тренд 2026 года: модели становятся не просто меньше, а умнее в распределении ресурсов. Скоро появятся аналогичные 5B-модели с сопоставимой производительностью.
Но главный вызов — не размер, а энергопотребление. На Macbook M3 модель съедает 12-15 Вт в пике. Для мобильных устройств это много. Ожидайте, что к концу 2026 выйдет версия 4.7 с оптимизациями под 5-7 Вт — тогда её можно будет запихнуть в очки AR или умные колонки.
А пока — если нужна мультимодальность здесь и сейчас, без облаков и задержек, Minicpm-o 4.5 лучший выбор среди компактных моделей. Просто не ждите от неё чудес в аналитике. Она быстрая, отзывчивая, но не гениальная.
Совет напоследок: перед скачиванием 25 ГБ весов проверьте, есть ли у вас поддержка AVX-512 на CPU. Без неё скорость упадёт в 4 раза. На Mac проблем нет, а вот на старых Intel — может быть сюрприз.