Что это вообще такое и зачем оно вам?
Забудьте про установку Python, CUDA-драйверов и борьбу с виртуальными окружениями. MDST Engine — это движок на Rust и C++, который запускает GGUF-модели прямо в браузере. Через WebGPU. Без сервера. Без Docker. Без головной боли.
Открыли вкладку, загрузили модель — и вот уже Llama 3.3 8B на 4-битных квантах отвечает на вопросы. На обычном ноутбуке с интегрированной графикой. На телефоне. На старом компьютере в офисе, где админ запретил ставить что-либо кроме Chrome.
Что там внутри и как оно работает
Движок построен на трёх китах:
- WebGPU — низкоуровневый API для графики и вычислений. В 3-5 раз быстрее WebGL на матричных операциях. Именно то, что нужно для трансформеров.
- WASM — WebAssembly модули на Rust. Вся логика загрузки моделей, управления контекстом, токенизации.
- GGUF-формат — тот самый, что используют llama.cpp и все локальные энтузиасты. Поддерживает квантование от Q2_K до Q8_0.
Модель загружается кусками по мере необходимости. Сначала веса для первых слоёв, потом остальные. Если у вас 8 ГБ оперативки, а модель весит 12 ГБ — MDST Engine будет подкачивать её частями. Умно? Да. Работает? На удивление — да.
Что можно запустить прямо сейчас
На февраль 2026 года MDST Engine стабильно работает с моделями до 13 миллиардов параметров. Больше — можно, но осторожно. Список проверенных:
| Модель | Размер (Q4_K_M) | Токенов в секунду | Минимальные требования |
|---|---|---|---|
| Llama 3.2 3B | 1.8 ГБ | 25-35 | Любой ноутбук с WebGPU |
| Phi-4 7B | 4.2 ГБ | 15-22 | 8 ГБ RAM + iGPU |
| Qwen 2.5 14B | 8.5 ГБ | 8-12 | 16 ГБ RAM + дискретная графика |
| Mistral Small 24B | 14 ГБ | 4-7 | 32 ГБ RAM + RTX 4060+ |
Не ждите чудес. 14B-модель на Q4 будет работать в 5-7 раз медленнее, чем через llama.cpp с CUDA. Но зато — в браузере. Без установки. На любой операционке. Компромисс? Да. Приемлемый? Для многих случаев — абсолютно.
А чем это лучше других браузерных решений?
В мире браузерных LLM сейчас три основных игрока: Transformers.js, MLC и MDST Engine. Давайте без воды:
- Transformers.js — от Hugging Face. Хорош для мелких моделей (до 2B), но с большими начинает захлёбываться. Поддерживает только модели из их хаба. GGUF? Нет.
- MLC — мощно, но сложно. Нужно компилировать модели в свой формат. Попробуйте объяснить коллеге-маркетологу, как скомпилировать Llama 3.3 в MLC-формат. Правильно — не попробуете.
- MDST Engine — взяли GGUF-файл с Hugging Face, закинули в движок, работает. Никакой компиляции. Никаких конвертаций.
Есть ещё Open WebUI и подобные системы, но они требуют сервер. MDST Engine — чисто клиентское решение. Никакого бэкенда.
Реальные кейсы, где это работает
Теория — это хорошо, но давайте о практике. Где MDST Engine выстреливает:
Образовательные платформы
Представьте: студент открывает учебный портал, и там встроен AI-ассистент на Mistral 7B. Объясняет темы, проверяет код, помогает с задачами. Никаких API-ключей. Никаких лимитов. Модель работает локально в браузере студента.
Демо для инвесторов и клиентов
Вам нужно показать работу вашей fine-tuned модели? Отправляете ссылку — человек открывает, модель загружается, можно общаться. Никаких «установите вот этот пакет, обновите драйверы, скачайте 20 ГБ». Просто ссылка.
Быстрое прототипирование
Хотите потестить, как будет работать интерфейс с конкретной моделью? Загружаете GGUF в MDST Engine, делаете прототип за день. Не нужно разворачивать сервер, настраивать API, думать об авторизации.
Подводные камни (потому что они всегда есть)
Всё звучит слишком хорошо? Почти. Вот что бесит в MDST Engine:
- Первая загрузка модели — если у вас медленный интернет и модель на 8 ГБ, придётся ждать. Минут 10-20. Дальше браузер кэширует, но первый раз — боль.
- Ограничения браузера — Chrome не даст сайту использовать больше ~4 ГБ RAM без специальных флагов. Для больших моделей нужно просить пользователя включить флаг chrome://flags/#enable-large-memory. Удачи объяснить бабушке, как это сделать.
- Нет batch-обработки — модель обрабатывает один запрос за раз. Хотите параллельно обрабатывать 10 промптов? Не получится. Архитектурное ограничение WebGPU.
И да, если вы думаете запустить огромные модели типа GLM-4.7 — забудьте. 179 миллиардов параметров не влезут ни в один браузер. Даже в трёх.
Как начать использовать (без кода, обещаю)
Есть три пути:
MDST Playground
Готовый веб-интерфейс на их сайте. Выбираете модель из списка (или загружаете свою GGUF), жмёте «Start» — и всё. Интерфейс похож на ChatGPT, но модель работает у вас в браузере. Бесплатно, без регистрации.
MDST IDE
Для разработчиков. Встроенный редактор кода, возможность писать плагины, кастомные интерфейсы. По сути — низкоуровневый доступ к движку через JavaScript API.
Встраивание в свой проект
Подключаете JavaScript-библиотеку, инициализируете движок, загружаете модель. Документация есть, но местами сыровата. Если привыкли к polished API от больших компаний — готовьтесь к некоторой боли.
Кому это реально нужно (а кому нет)
MDST Engine — не для всех. Вот кому стоит присмотреться:
- Преподаватели и создатели образовательного контента — возможность дать студентам AI-ассистента без сложных установок.
- Стартапы на ранней стадии — быстрое прототипирование AI-фич без развёртывания инфраструктуры.
- Компании с жёсткими требованиями к безопасности — данные не уходят с устройства, всё обрабатывается локально.
- Разработчики демо и интерактивных примеров — «поиграться» с разными моделями без скачивания гигабайтов.
А кому не подойдёт:
- Тем, кому нужна максимальная производительность — берите llama.cpp с CUDA и не мучайтесь.
- Для продакшена с высокой нагрузкой — браузерные ограничения не позволят обрабатывать тысячи запросов в минуту.
- Если нужны самые свежие модели — поддержка новых архитектур появляется с задержкой в несколько месяцев.
Что будет дальше (прогноз на 2026-2027)
WebGPU стандартизирован. Браузеры активно его внедряют. Жёсткие диски и интернет становятся быстрее. Всё это играет на руку MDST Engine и подобным технологиям.
Мой прогноз: к концу 2026 года мы увидим:
- Поддержку моделей до 30B параметров на средних компьютерах
- Встроенную оптимизацию под разные GPU (не только десктопные, но и мобильные)
- Интеграцию с техниками сжатия для слабого железа
- Готовые шаблоны для популярных use cases (чат-боты, код-ассистенты, анализ текста)
А самое интересное — когда браузеры начнут кэшировать модели между сайтами. Открыли один сайт, загрузили Llama 3.2 3B — и на другом сайте она уже доступна без повторной загрузки. Звучит как фантастика? На февраль 2026 года это уже обсуждают в W3C.
Не ждите, что MDST Engine заменит облачные API. Но для конкретных сценариев — демо, образование, безопасные приложения — это лучший вариант из доступных. Простой, бесплатный, работающий здесь и сейчас.
Попробуйте. Откройте MDST Playground, выберите Phi-4 7B и задайте вопрос. Удивитесь, что это действительно работает. Потом закройте вкладку и забудьте — потому что ничего устанавливать не пришлось.
Именно в этом и есть главная магия: AI, который появляется по щелчку и исчезает без следа. Как должно быть.