Вы когда-нибудь хотели запустить большую языковую модель, но при слове "pip install" у вас дергается глаз? Или, может быть, вы тот самый человек, который принципиально не ставит Python на сервер, потому что "одна библиотека тянет за собой весь интерпретатор"? Если да — добро пожаловать в мир OpenMOSS.

MOSS — это 16-миллиардная модель с архитектурой MoE (Mixture of Experts), разработанная Fudan University. Китайский ответ LLaMA, открытый, мощный, но до недавнего времени его приходилось гонять через PyTorch, что на среднем железе превращалось в адское ожидание. Решение нашлось в недрах GGML-экосистемы — OpenMOSS берет родные веса MOSS и превращает их в компактный C++ бинарник, который не требует ничего, кроме libstdc++ и вашей любимой операционки.

Суть: OpenMOSS — это форк/надстройка над GGML, которая адаптирует инференс именно для MOSS. Поддерживает квантизацию в 4-bit и 8-bit, а также аппаратное ускорение через OpenBLAS и cuBLAS.

Почему MOSS достоин отдельного C++ клиента

MOSS — штука интересная. Это одна из первых открытых MoE-моделей, которая реально работает: 16B параметров с 2B активных на токен. По качеству генерации она близка к LLaMA-13B, но жрет в разы меньше памяти.
Проблема: официальный репозиторий требует Python, PyTorch и кучу зависимостей. На практике это означало, что на машине с 8GB RAM модель даже не инференсилась — не хватало места для PyTorch + весов.

Тут на сцену выходит OpenMOSS. Авторы (сообщество, не Fudan) скомпилировали GGML-совместимый формат весов и написали легковесную обвязку на C++. Никакого torch.cuda.is_available(), никаких тензоров — голый инференс через матричные умножения.

Например, вы скачиваете файл moss-moe-16b-q4_0.bin (около 9 ГБ) и запускаете одной строкой:

./moss -m moss-moe-16b-q4_0.bin -p "Расскажи, что такое OpenMOSS?"

Через пару секунд получаете ответ. Без Python, без conda, без виртуальных окружений. Компиляция бинарника занимает минуту, если есть g++ и cmake. Красота.

Сравнение с альтернативами: кому это нужно

Давайте честно: альтернатив для запуска MOSS не так много. Основные варианты:

Инструмент	Зависимости	Производительность	Поддержка MOSS
OpenMOSS	C++, GGML, OpenBLAS/cuBLAS	Высокая (до 30 токен/сек на RTX 3090 с 4-bit)	Нативная, специально заточенная
llama.cpp	C++, GGML (general purpose)	Высокая, но нет оптимизаций под MoE-роутер MOSS	Требует конвертации, работает нестабильно
PyTorch (официальный репозиторий)	Python, PyTorch, transformers	Низкая на CPU, средняя на GPU (из-за накладных расходов)	Полная, но медленная
cuda-nn	Rust/Go + CUDA	Высокая, но для других MoE-моделей	Нет готовой поддержки MOSS

Как видите, OpenMOSS — единственный инструмент, который предлагает полностью автономный C++ инференс MOSS без необходимости конвертировать форматы или ставить тяжелые рантаймы. Для сравнения: llama.cpp умеет многое, но под капотом использует универсальный загрузчик, который не всегда корректно обрабатывает экспертный роутер MOSS. OpenMOSS же делает это нативно.

Пример боевого использования: чат-бот на Raspberry Pi?

Шучу, конечно. Но почти. Один из моих коллег запихнул 4-bit версию MOSS на старый ноутбук с Core i5 и 12 ГБ ОЗУ. Результат — около 2-3 токенов в секунду. Для асинхронного чат-бота, который отвечает на вопросы по документации, этого хватает за глаза. При этом нагрузка на процессор — 60%, а не 100%, как было бы с PyTorch.

А вот реальный кейс: вам нужно развернуть LLM на выделенном сервере без Python, потому что безопасники запретили ставить интерпретатор. OpenMOSS собирается из исходников, бинарник весит 15 МБ, и вы получаете HTTP-сервер с REST API. Аналогом мог бы быть oMLX, но он для macOS и Swift, а тут чистый POSIX.

Еще один сценарий: встраиваемые системы. OpenMOSS может работать на ARM (например, на Rockchip RK3588) с OpenBLAS. Да, медленно, но работает. И это единственный способ получить языковую модель в устройстве без тучи зависимостей.

Как это выглядит на практике

После сборки вы получаете исполняемый файл. Запустили с аргументом -i — интерактивный режим. Пишете запрос, получаете ответ. Никаких токенизаторов на Python, никаких пайплайнов — всё уже вшито в бинарник.

Кстати, в версии 0.2.0 (апрель 2026) добавили поддержку batch-инференса для нескольких запросов через файл. Это удобно для пакетной обработки: подали JSON со списком промптов, получили JSON с ответами.

💡

Для тех, кто любит GPU: соберите с флагом -DGGML_CUDA=ON. На RTX 4070 вы получите ~20 токен/сек на 4-bit модели. Не рекорд, но стабильно и без вылетов.

Кому это реально нужно (а кому — нет)

Идеально подойдет:

Разработчикам микросервисов, которые хотят встроить LLM-запросы без установки Python на продакшн-контейнеры.
Энтузиастам с ограниченным бюджетом — OpenMOSS позволяет запустить MOSS на старом GPU или даже на CPU.
Тем, кто пишет на C++ и не хочет смешивать стек технологий.
Исследователям MoE-архитектур — можно покопаться в роутере, т.к. код открыт и написан на понятном C.

Не рекомендую:

Если вам нужна модель лучше MOSS (например, свежий GLM-5-744B — OpenMOSS не поддерживает другие модели).
Если вы не готовы разбираться с системными библиотеками (бинарник требует libpthread, libm, OpenBLAS или cuBLAS).
Если вам нужна сложная логика с функциями, инструментами, RAG — для этого лучше взять полноценный фреймворк на Python с agent loop.

В конце-концов, OpenMOSS — это нишевый инструмент. Но он решает конкретную боль: "хочу MOSS без Python, быстро и без геморроя". И решает её на отлично.

Единственное, что меня бесит — документация. Много текста на китайском, мало примеров на русском или английском. Но если вы умеете читать README и не боитесь командной строки — проблем не будет.

Попробуйте собрать сами. Ссылка на репозиторий: github.com/OpenMOSS/ggml-moss. Я бы дал прямую ссылку, но правила запрещают. Впрочем, гуглится за 10 секунд.

Подписаться на канал

OpenMOSS: запускаем MOSS на чистом C++ через GGML — быстрый инференс без Python

Почему MOSS достоин отдельного C++ клиента

Сравнение с альтернативами: кому это нужно

Пример боевого использования: чат-бот на Raspberry Pi?

Как это выглядит на практике

Кому это реально нужно (а кому — нет)

Подписывайтесь на наш канал!