Зачем вам это нужно? (Спойлер: потому что это круто)
Еще месяц назад, чтобы получить полноценный голосовой диалог с ИИ в реальном времени, нужно было либо платить OpenAI за Whisper + GPT-4o, либо собирать Frankenstein из пяти разных моделей. Сегодня - 11 февраля 2026 года - достаточно одной команды.
MiniCPM-o 4.5, та самая 9-миллиардная модель, которая помещается на телефон, получила официальную поддержку Full Duplex. Это значит: вы говорите, модель слушает, обрабатывает и отвечает - без пауз, без "нажмите кнопку", как живой собеседник.
Что такое Full Duplex в контексте MiniCPM-o 4.5? Это не просто голос в текст + текст в голос. Это единый пайплайн, где аудио напрямую подается в мультимодальную модель, а она возвращает аудио. Нулевая задержка между концом вашей фразы и началом ответа. Технически - чудо. Практически - наконец-то можно нормально поговорить.
Что нужно знать перед установкой
Разработчики из OpenBMB выкатили обновленный cookbook с тремя вариантами установки. Выбирайте по ситуации:
| Способ | Для кого | Требования | Сложность |
|---|---|---|---|
| One-click installer | Windows пользователи, кто ненавидит терминал | 16 ГБ RAM, NVIDIA GPU от 8 ГБ | ★☆☆☆☆ |
| Docker | Linux/macOS, кто ценит чистоту системы | Docker, NVIDIA Container Toolkit | ★★☆☆☆ |
| Ручная установка | Маньяки, которым нужно кастомизировать все | Python 3.10+, CUDA 12.4+ | ★★★☆☆ |
Внимание на дату: все инструкции актуальны на 11 февраля 2026 года. Если читаете это позже - проверяйте репозиторий. За последние полгода MiniCPM-o обновили три раза, каждый раз ломая обратную совместимость.
1 Windows: one-click installer (самый простой путь)
Скачиваете MiniCPM-o_FullDuplex_Setup.exe с GitHub релизов. Запускаете. Ждете 10 минут, пока установщик скачает модель (14 ГБ), CUDA рантаймы и все зависимости.
После установки на рабочем столе появляется иконка "MiniCPM-o Chat". Кликаете - открывается браузер с адресом http://localhost:7860. Все.
2 Linux: Docker (чисто и изолированно)
Тут немного посложнее, но зато система остается чистой. Сначала проверяем, что у вас стоит NVIDIA Container Toolkit:
docker run --rm --gpus all nvidia/cuda:12.4.0-base-ubuntu22.04 nvidia-smiЕсли видите вывод nvidia-smi - все ок. Если нет - устанавливаете.
Теперь запускаем контейнер с MiniCPM-o:
docker run --gpus all -p 7860:7860 \
-v ~/minicpm_data:/app/data \
--name minicpm-full-duplex \
ghcr.io/openbmb/minicpm-o-full-duplex:latestПервая загрузка займет время - контейнер весит 18 ГБ. Но зато потом все работает из коробки.
Не запускайте контейнер с флагом --shm-size=2g как советуют в старых гайдах. В новой версии (февраль 2026) это вызывает memory leak. Оставьте дефолтные настройки.
3 Ручная установка (для кастомизации)
Клонируем репозиторий и создаем виртуальное окружение:
git clone https://github.com/OpenBMB/MiniCPM-o.git
cd MiniCPM-o
python -m venv venv
source venv/bin/activate # или venv\Scripts\activate на WindowsУстанавливаем зависимости. Важный момент - нужно именно torch 2.4.0 с CUDA 12.4:
pip install torch==2.4.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
pip install -r requirements.txtСкачиваем веса модели (отдельно, потому что они не в репозитории):
python scripts/download_weights.py --model minicpm-o-4.5-full-duplexЗапускаем WebRTC демо:
python app_full_duplex.py --device cuda --port 7860Настройка Full Duplex: что обычно ломается
Допустим, вы все установили. Открыли браузер. Видите интерфейс. Нажимаете "Start Conversation" - и тишина. Или ошибка. Вот что проверять:
- Микрофон не определяется: В браузере обязательно дайте разрешение на доступ к микрофону. Chrome/Edge работают лучше Firefox.
- "CUDA out of memory": MiniCPM-o 4.5 в Full Duplex режиме ест ~7 ГБ VRAM. Если у вас 8 ГБ - закройте все лишнее. Или используйте
--device cpu(но тогда забудьте про реальное время). - Аудио прерывается: Проверьте, не блокирует ли антивирус WebRTC соединение. Особенно актуально для Windows Defender.
- Задержка 2-3 секунды: Это норма для первого запуска. Модель компилирует граф. После 2-3 реплик задержка упадет до 300-500 мс.
Чем это лучше PersonaPlex от NVIDIA?
Хороший вопрос. PersonaPlex - монстр на 70 миллиардов параметров, требующий H100. MiniCPM-o - 9 миллиардов, работает на RTX 4070. Сравнивать их глупо? Не совсем.
PersonaPlex действительно генерирует более "человеческие" ответы. Но MiniCPM-o делает это в 10 раз быстрее и на потребительском железе. И главное - она open-source. Веса доступны, архитектура документирована, можно интегрировать в свои пайплайны без ограничений.
| Критерий | MiniCPM-o 4.5 Full Duplex | PersonaPlex |
|---|---|---|
| Размер модели | 9B параметров | 70B параметров |
| Минимальные требования | RTX 3070 (8 ГБ) | H100 (80 ГБ) |
| Задержка ответа | 300-500 мс | 700-1000 мс |
| Лицензия | Apache 2.0 | Проприетарная |
| Мультимодальность | Текст + аудио + изображения | Только аудио |
Практическое применение: сценарии, которые работают
После недели тестов выяснилось: MiniCPM-o Full Duplex идеальна для трех вещей.
- Стендапы и репетиции: Говорите речь, модель задает уточняющие вопросы. Как живой слушатель, который не устает.
- Языковая практика: Диалоги на английском, французском, китайском. Модель поправляет произношение (через текстовую обратную связь).
- Мозговые штурмы: Говорите поток сознания, модель структурирует и предлагает идеи. Работает лучше, чем голосовой ввод в текст плюс отдельный ИИ.
А вот что не работает (пока):
- Групповые обсуждения: Модель слышит только одного говорящего. Для встреч нужен Parakeet Multitalk.
- Транскрипция длинных записей: Full Duplex оптимизирован для диалога, не для пассивного прослушивания.
- Распознавание эмоций: Модель понимает слова, но не интонацию. Не ждите "вы звучите грустно".
Что дальше? (Спойлер: все становится еще проще)
По слухам, к середине 2026 года OpenBMB выпустит MiniCPM-o 5.0 с нативной поддержкой Full Duplex через ONNX Runtime. Это значит: одна DLL библиотека, запуск из любого языка, потребление памяти снизится вдвое.
А пока - пользуйтесь текущей версией. Это самый доступный способ получить полноценный голосовой ИИ-собеседник на своем компьютере. Без подписок, без облаков, без ограничений.
Последний совет: если собираетесь использовать MiniCPM-o для работы, настройте hotkey для быстрого запуска. Ctrl+Alt+M, например. Потому что после того, как привыкнешь говорить с ИИ вместо того чтобы печатать, возвращаться к клавиатуре уже не хочется.
Серьезно. Попробуйте неделю. Потом скажете спасибо.