Когда 4.6 — это не просто цифра после запятой

OpenBMB снова выстрелили. В конце апреля 2026 года на HuggingFace появилась модель MiniCPM-V 4.6 — наследница уже легендарной линейки компактных мультимодальных моделей. Если вы следили за MiniCPM-o 4.5, то знаете, что команда умеет упаковывать слоновьи способности в кошачий размер. Новая версия — не просто бамп-ап, а полноценный апгрейд архитектуры. Давайте разберемся, что изменилось и стоит ли бежать обновлять свои локальные пайплайны.

Ключевое улучшение — новая голова визуального энкодера и расширенный контекст до 512К токенов. Но обо всём по порядку.

Что под капотом: архитектурные вкусняшки

MiniCPM-V 4.6 базируется на том же 9B LLM-бэкбоне (на базе Qwen2.5-7B с дообучением), но визуальный энкодер заменили на SigLIP-400M — очень шуструю штуку, которая выкусывает из картинки гораздо больше деталей, чем старый ViT. В результате модель:

Распознаёт текст на изображениях с точностью, близкой к Google Cloud Vision, но локально.
Понимает сложные сцены: например, различает перекрывающиеся объекты на загруженном складе.
Работает с видео (да, кадр за кадром, до 2 минут) — функция, которая раньше была только в MiniCPM-o 4.5, но тут её улучшили.
Поддерживает многоязычность, включая русский, китайский, японский, корейский.

Главная фишка — динамическое разрешение: модель сама решает, сколько патчей выделить на разные участки картинки. Это ускоряет инференс на 30% по сравнению с MiniCPM-o 4.5 при том же качестве.

Сравнение с предшественником: цифры не врут

Давайте пройдемся по бенчмаркам. Данные — из официальных репортов OpenBMB на 1 мая 2026.

Бенчмарк	MiniCPM-o 4.5	MiniCPM-V 4.6	Прирост
OCRBench (точность)	78.4%	84.1%	+5.7%
MMVet (понимание сцен)	62.3%	67.8%	+5.5%
MMBench (вопрос-ответ)	76.1%	79.9%	+3.8%
Inference latency (1 картинка, A100)	420 мс	310 мс	-26%

Обратите внимание на латентность — динамическое разрешение и новый энкoder дали отличный прирост скорости. На практике это означает, что на RTX 4090 вы получите около 3-4 кадров в секунду при анализе видео.

Но есть нюанс: GPU-память. 4.6 требует чуть больше видеопамяти (~12 ГБ для 4-битной квантизации против 10 ГБ у 4.5) из-за более тяжелого визуального энкодера. Впрочем, если у вас карта на 8 ГБ, можно использовать 2-битную квантизацию через llama.cpp или AWQ — здесь советую глянуть статью про LM Studio, там есть лайфхак с кастомными пресетами.

А что с конкурентами?

Прямые конкуренты — Qwen2-VL (7B), LLaVA-NeXT (8B), и более старый Phi-3.5-vision. MiniCPM-V 4.6 выигрывает у Qwen2-VL на OCR-задачах (84% против 81%), но уступает в чистых языковых тестах. Зато MiniCPM-V 4.6 занимает в 2 раза меньше места на диске (6 ГБ в FP16 против 14 ГБ у Qwen2-VL). В дайджесте локальных VLM мы уже упоминали, что компактность часто важнее среднего балла на бенчмарках. Для локального инференса на потребительских картах MiniCPM-V 4.6 — currently лучший выбор.

Сравнение с PaliGemma 2 (3B) не в пользу последнего: MiniCPM-V 4.6 превосходит его почти во всех визуальных задачах, хотя PaliGemma работает быстрее на устройствах Apple Silicon. Зато у MiniCPM-V есть важное преимущество — поддержка видео.

Как попробовать: быстрый старт

Всё традиционно через transformers. Минимум кода.

from transformers import AutoModelForVision2Seq, AutoProcessor
import torch

model = AutoModelForVision2Seq.from_pretrained(
    "openbmb/MiniCPM-V-4_6",
    trust_remote_code=True,
    torch_dtype=torch.bfloat16
).to("cuda")

processor = AutoProcessor.from_pretrained("openbmb/MiniCPM-V-4_6", trust_remote_code=True)

# Загружаем картинку
from PIL import Image
image = Image.open("receipt.jpg")

# Промпт
messages = [{"role": "user", "content": "Извлеки все суммы из чека"}]
inputs = processor(text=messages, images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)
print(processor.decode(outputs[0], skip_special_tokens=True))

Для видео нужно разбить на кадры и подать как последовательность изображений. В статье про MiniCPM-o 4.5 описан похожий пайплайн — он полностью применим и к 4.6.

⚠️

Внимание: код работает только с transformers >= 4.50.0 и требует свежий PyTorch. Если вы используете LM Studio или Ollama, придётся подождать их поддержки — она пока в бете.

Кому это нужно: сценарии, где MiniCPM-V 4.6 рулит

Я выделяю три категории пользователей, которым модель пригодится особенно:

Разработчики OCR-сервисов — если вам нужно распознавать чеки, паспорта, визитки, но лень платить за облачные API. Допиливаете локальный сервис на FastAPI — и готово.
Исследователи данных — когда нужно разметить датасет с картинками и вопросами по ним. Модель отлично справляется с генерацией caption и аннотаций.
Фанаты локального AI — те, кто хочет смотреть на мир через нейросетку, не выходя из дома. Подключаете к камере, задаёте вопросы — получаете голосового ассистента с глазами.

Про последнее — в статье про Full Duplex голосовой чат описано, как MiniCPM-o 4.5 ожил голосом. У 4.6 такая же фича, но качество распознавания речи на изображениях стало лучше.

Тормозить локально — не тормозить

Если у вас RTX 3060 12GB, 4-битная версия (через bitsandbytes) работает как часы. Загрузка модели — около 12 ГБ RAM/VRAM. На Mac Studio M2 Ultra — через mlx-lm, но нужно ждать официальной поддержки от Apple (обещают в мае 2026). Пока что на Apple Silicon можно использовать MPS-бэкенд из PyTorch, но он несколько сыроват.

Главный сюрприз — 4.6 научилась корректно обрабатывать тёмные изображения и ночные сцены (раньше MiniCPM-o 4.5 выдавал кашу при low-light условиях). Это заслуга нового энкодера и специального датасета с синтетическим шумом, на котором дообучали модель.

Стоит ли обновляться?

Однозначно да, если вы используете MiniCPM-o 4.5 для задач, связанных с текстом на картинках или пониманием сложных сцен. Если же ваши сценарии — просто ответы на вопросы по картинке (например, “что это за животное?”), то прирост незначительный, и можно не спешить. Но учтите, что команда OpenBMB анонсировала прекращение поддержки 4.5 после июня 2026 — так что безопаснее переехать заранее.

Мой прогноз: в ближайшие пару месяцев MiniCPM-V 4.6 вытеснит предшественника из топов локальных VLM, а со временем, возможно, появится и версия с 32K видеоокном. Пока же — единственная по-настоящему рабочая мультимодалка под кастомные инференсы на домашнем железе.

Подписаться на канал

MiniCPM-V 4.6: карманный осьминог, который видит больше, чем вы думаете