Когда 4.6 — это не просто цифра после запятой
OpenBMB снова выстрелили. В конце апреля 2026 года на HuggingFace появилась модель MiniCPM-V 4.6 — наследница уже легендарной линейки компактных мультимодальных моделей. Если вы следили за MiniCPM-o 4.5, то знаете, что команда умеет упаковывать слоновьи способности в кошачий размер. Новая версия — не просто бамп-ап, а полноценный апгрейд архитектуры. Давайте разберемся, что изменилось и стоит ли бежать обновлять свои локальные пайплайны.
Ключевое улучшение — новая голова визуального энкодера и расширенный контекст до 512К токенов. Но обо всём по порядку.
Что под капотом: архитектурные вкусняшки
MiniCPM-V 4.6 базируется на том же 9B LLM-бэкбоне (на базе Qwen2.5-7B с дообучением), но визуальный энкодер заменили на SigLIP-400M — очень шуструю штуку, которая выкусывает из картинки гораздо больше деталей, чем старый ViT. В результате модель:
- Распознаёт текст на изображениях с точностью, близкой к Google Cloud Vision, но локально.
- Понимает сложные сцены: например, различает перекрывающиеся объекты на загруженном складе.
- Работает с видео (да, кадр за кадром, до 2 минут) — функция, которая раньше была только в MiniCPM-o 4.5, но тут её улучшили.
- Поддерживает многоязычность, включая русский, китайский, японский, корейский.
Главная фишка — динамическое разрешение: модель сама решает, сколько патчей выделить на разные участки картинки. Это ускоряет инференс на 30% по сравнению с MiniCPM-o 4.5 при том же качестве.
Сравнение с предшественником: цифры не врут
Давайте пройдемся по бенчмаркам. Данные — из официальных репортов OpenBMB на 1 мая 2026.
| Бенчмарк | MiniCPM-o 4.5 | MiniCPM-V 4.6 | Прирост |
|---|---|---|---|
| OCRBench (точность) | 78.4% | 84.1% | +5.7% |
| MMVet (понимание сцен) | 62.3% | 67.8% | +5.5% |
| MMBench (вопрос-ответ) | 76.1% | 79.9% | +3.8% |
| Inference latency (1 картинка, A100) | 420 мс | 310 мс | -26% |
Обратите внимание на латентность — динамическое разрешение и новый энкoder дали отличный прирост скорости. На практике это означает, что на RTX 4090 вы получите около 3-4 кадров в секунду при анализе видео.
Но есть нюанс: GPU-память. 4.6 требует чуть больше видеопамяти (~12 ГБ для 4-битной квантизации против 10 ГБ у 4.5) из-за более тяжелого визуального энкодера. Впрочем, если у вас карта на 8 ГБ, можно использовать 2-битную квантизацию через llama.cpp или AWQ — здесь советую глянуть статью про LM Studio, там есть лайфхак с кастомными пресетами.
А что с конкурентами?
Прямые конкуренты — Qwen2-VL (7B), LLaVA-NeXT (8B), и более старый Phi-3.5-vision. MiniCPM-V 4.6 выигрывает у Qwen2-VL на OCR-задачах (84% против 81%), но уступает в чистых языковых тестах. Зато MiniCPM-V 4.6 занимает в 2 раза меньше места на диске (6 ГБ в FP16 против 14 ГБ у Qwen2-VL). В дайджесте локальных VLM мы уже упоминали, что компактность часто важнее среднего балла на бенчмарках. Для локального инференса на потребительских картах MiniCPM-V 4.6 — currently лучший выбор.
Сравнение с PaliGemma 2 (3B) не в пользу последнего: MiniCPM-V 4.6 превосходит его почти во всех визуальных задачах, хотя PaliGemma работает быстрее на устройствах Apple Silicon. Зато у MiniCPM-V есть важное преимущество — поддержка видео.
Как попробовать: быстрый старт
Всё традиционно через transformers. Минимум кода.
from transformers import AutoModelForVision2Seq, AutoProcessor
import torch
model = AutoModelForVision2Seq.from_pretrained(
"openbmb/MiniCPM-V-4_6",
trust_remote_code=True,
torch_dtype=torch.bfloat16
).to("cuda")
processor = AutoProcessor.from_pretrained("openbmb/MiniCPM-V-4_6", trust_remote_code=True)
# Загружаем картинку
from PIL import Image
image = Image.open("receipt.jpg")
# Промпт
messages = [{"role": "user", "content": "Извлеки все суммы из чека"}]
inputs = processor(text=messages, images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)
print(processor.decode(outputs[0], skip_special_tokens=True))
Для видео нужно разбить на кадры и подать как последовательность изображений. В статье про MiniCPM-o 4.5 описан похожий пайплайн — он полностью применим и к 4.6.
Кому это нужно: сценарии, где MiniCPM-V 4.6 рулит
Я выделяю три категории пользователей, которым модель пригодится особенно:
- Разработчики OCR-сервисов — если вам нужно распознавать чеки, паспорта, визитки, но лень платить за облачные API. Допиливаете локальный сервис на FastAPI — и готово.
- Исследователи данных — когда нужно разметить датасет с картинками и вопросами по ним. Модель отлично справляется с генерацией caption и аннотаций.
- Фанаты локального AI — те, кто хочет смотреть на мир через нейросетку, не выходя из дома. Подключаете к камере, задаёте вопросы — получаете голосового ассистента с глазами.
Про последнее — в статье про Full Duplex голосовой чат описано, как MiniCPM-o 4.5 ожил голосом. У 4.6 такая же фича, но качество распознавания речи на изображениях стало лучше.
Тормозить локально — не тормозить
Если у вас RTX 3060 12GB, 4-битная версия (через bitsandbytes) работает как часы. Загрузка модели — около 12 ГБ RAM/VRAM. На Mac Studio M2 Ultra — через mlx-lm, но нужно ждать официальной поддержки от Apple (обещают в мае 2026). Пока что на Apple Silicon можно использовать MPS-бэкенд из PyTorch, но он несколько сыроват.
Главный сюрприз — 4.6 научилась корректно обрабатывать тёмные изображения и ночные сцены (раньше MiniCPM-o 4.5 выдавал кашу при low-light условиях). Это заслуга нового энкодера и специального датасета с синтетическим шумом, на котором дообучали модель.
Стоит ли обновляться?
Однозначно да, если вы используете MiniCPM-o 4.5 для задач, связанных с текстом на картинках или пониманием сложных сцен. Если же ваши сценарии — просто ответы на вопросы по картинке (например, “что это за животное?”), то прирост незначительный, и можно не спешить. Но учтите, что команда OpenBMB анонсировала прекращение поддержки 4.5 после июня 2026 — так что безопаснее переехать заранее.
Мой прогноз: в ближайшие пару месяцев MiniCPM-V 4.6 вытеснит предшественника из топов локальных VLM, а со временем, возможно, появится и версия с 32K видеоокном. Пока же — единственная по-настоящему рабочая мультимодалка под кастомные инференсы на домашнем железе.