Зачем вам это нужно? (Спойлер: потому что это круто)

Еще месяц назад, чтобы получить полноценный голосовой диалог с ИИ в реальном времени, нужно было либо платить OpenAI за Whisper + GPT-4o, либо собирать Frankenstein из пяти разных моделей. Сегодня - 11 февраля 2026 года - достаточно одной команды.

MiniCPM-o 4.5, та самая 9-миллиардная модель, которая помещается на телефон, получила официальную поддержку Full Duplex. Это значит: вы говорите, модель слушает, обрабатывает и отвечает - без пауз, без "нажмите кнопку", как живой собеседник.

Что такое Full Duplex в контексте MiniCPM-o 4.5? Это не просто голос в текст + текст в голос. Это единый пайплайн, где аудио напрямую подается в мультимодальную модель, а она возвращает аудио. Нулевая задержка между концом вашей фразы и началом ответа. Технически - чудо. Практически - наконец-то можно нормально поговорить.

Что нужно знать перед установкой

Разработчики из OpenBMB выкатили обновленный cookbook с тремя вариантами установки. Выбирайте по ситуации:

Способ	Для кого	Требования	Сложность
One-click installer	Windows пользователи, кто ненавидит терминал	16 ГБ RAM, NVIDIA GPU от 8 ГБ	★☆☆☆☆
Docker	Linux/macOS, кто ценит чистоту системы	Docker, NVIDIA Container Toolkit	★★☆☆☆
Ручная установка	Маньяки, которым нужно кастомизировать все	Python 3.10+, CUDA 12.4+	★★★☆☆

Внимание на дату: все инструкции актуальны на 11 февраля 2026 года. Если читаете это позже - проверяйте репозиторий. За последние полгода MiniCPM-o обновили три раза, каждый раз ломая обратную совместимость.

1 Windows: one-click installer (самый простой путь)

Скачиваете MiniCPM-o_FullDuplex_Setup.exe с GitHub релизов. Запускаете. Ждете 10 минут, пока установщик скачает модель (14 ГБ), CUDA рантаймы и все зависимости.

После установки на рабочем столе появляется иконка "MiniCPM-o Chat". Кликаете - открывается браузер с адресом http://localhost:7860. Все.

💡

Установщик автоматически определяет, есть ли у вас CUDA-совместимая видеокарта. Если нет - переключается на CPU режим. Но тогда Full Duplex работать не будет. Только текстовый чат. Для реального голосового диалога нужна NVIDIA с 8+ ГБ VRAM (RTX 3070 и выше).

2 Linux: Docker (чисто и изолированно)

Тут немного посложнее, но зато система остается чистой. Сначала проверяем, что у вас стоит NVIDIA Container Toolkit:

docker run --rm --gpus all nvidia/cuda:12.4.0-base-ubuntu22.04 nvidia-smi

Если видите вывод nvidia-smi - все ок. Если нет - устанавливаете.

Теперь запускаем контейнер с MiniCPM-o:

docker run --gpus all -p 7860:7860 \
  -v ~/minicpm_data:/app/data \
  --name minicpm-full-duplex \
  ghcr.io/openbmb/minicpm-o-full-duplex:latest

Первая загрузка займет время - контейнер весит 18 ГБ. Но зато потом все работает из коробки.

Не запускайте контейнер с флагом --shm-size=2g как советуют в старых гайдах. В новой версии (февраль 2026) это вызывает memory leak. Оставьте дефолтные настройки.

3 Ручная установка (для кастомизации)

Клонируем репозиторий и создаем виртуальное окружение:

git clone https://github.com/OpenBMB/MiniCPM-o.git
cd MiniCPM-o
python -m venv venv
source venv/bin/activate  # или venv\Scripts\activate на Windows

Устанавливаем зависимости. Важный момент - нужно именно torch 2.4.0 с CUDA 12.4:

pip install torch==2.4.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
pip install -r requirements.txt

Скачиваем веса модели (отдельно, потому что они не в репозитории):

python scripts/download_weights.py --model minicpm-o-4.5-full-duplex

Запускаем WebRTC демо:

python app_full_duplex.py --device cuda --port 7860

Настройка Full Duplex: что обычно ломается

Допустим, вы все установили. Открыли браузер. Видите интерфейс. Нажимаете "Start Conversation" - и тишина. Или ошибка. Вот что проверять:

Микрофон не определяется: В браузере обязательно дайте разрешение на доступ к микрофону. Chrome/Edge работают лучше Firefox.
"CUDA out of memory": MiniCPM-o 4.5 в Full Duplex режиме ест ~7 ГБ VRAM. Если у вас 8 ГБ - закройте все лишнее. Или используйте --device cpu (но тогда забудьте про реальное время).
Аудио прерывается: Проверьте, не блокирует ли антивирус WebRTC соединение. Особенно актуально для Windows Defender.
Задержка 2-3 секунды: Это норма для первого запуска. Модель компилирует граф. После 2-3 реплик задержка упадет до 300-500 мс.

💡

Если нужна сверхнизкая задержка (<200 мс), посмотрите на Voxtral-Mini 4B Realtime. Но там только транскрипция, без генерации ответов. MiniCPM-o - это полноценный диалог.

Чем это лучше PersonaPlex от NVIDIA?

Хороший вопрос. PersonaPlex - монстр на 70 миллиардов параметров, требующий H100. MiniCPM-o - 9 миллиардов, работает на RTX 4070. Сравнивать их глупо? Не совсем.

PersonaPlex действительно генерирует более "человеческие" ответы. Но MiniCPM-o делает это в 10 раз быстрее и на потребительском железе. И главное - она open-source. Веса доступны, архитектура документирована, можно интегрировать в свои пайплайны без ограничений.

Критерий	MiniCPM-o 4.5 Full Duplex	PersonaPlex
Размер модели	9B параметров	70B параметров
Минимальные требования	RTX 3070 (8 ГБ)	H100 (80 ГБ)
Задержка ответа	300-500 мс	700-1000 мс
Лицензия	Apache 2.0	Проприетарная
Мультимодальность	Текст + аудио + изображения	Только аудио

Практическое применение: сценарии, которые работают

После недели тестов выяснилось: MiniCPM-o Full Duplex идеальна для трех вещей.

Стендапы и репетиции: Говорите речь, модель задает уточняющие вопросы. Как живой слушатель, который не устает.
Языковая практика: Диалоги на английском, французском, китайском. Модель поправляет произношение (через текстовую обратную связь).
Мозговые штурмы: Говорите поток сознания, модель структурирует и предлагает идеи. Работает лучше, чем голосовой ввод в текст плюс отдельный ИИ.

А вот что не работает (пока):

Групповые обсуждения: Модель слышит только одного говорящего. Для встреч нужен Parakeet Multitalk.
Транскрипция длинных записей: Full Duplex оптимизирован для диалога, не для пассивного прослушивания.
Распознавание эмоций: Модель понимает слова, но не интонацию. Не ждите "вы звучите грустно".

Что дальше? (Спойлер: все становится еще проще)

По слухам, к середине 2026 года OpenBMB выпустит MiniCPM-o 5.0 с нативной поддержкой Full Duplex через ONNX Runtime. Это значит: одна DLL библиотека, запуск из любого языка, потребление памяти снизится вдвое.

А пока - пользуйтесь текущей версией. Это самый доступный способ получить полноценный голосовой ИИ-собеседник на своем компьютере. Без подписок, без облаков, без ограничений.

Последний совет: если собираетесь использовать MiniCPM-o для работы, настройте hotkey для быстрого запуска. Ctrl+Alt+M, например. Потому что после того, как привыкнешь говорить с ИИ вместо того чтобы печатать, возвращаться к клавиатуре уже не хочется.

Серьезно. Попробуйте неделю. Потом скажете спасибо.

MiniCPM-o 4.5 теперь говорит: Full Duplex голосовой и видеочат на вашем компьютере