MDST Engine: запуск GGUF-моделей в браузере через WebGPU и WASM | AiManual
AiManual Logo Ai / Manual.
11 Фев 2026 Инструмент

MDST Engine: браузерные нейросети без установки и танцев с бубном

Обзор MDST Engine — инструмента для запуска локальных LLM прямо в браузере без установки ПО. WebGPU, WASM, GGUF-модели и реальные кейсы использования.

Что это вообще такое и зачем оно вам?

Забудьте про установку Python, CUDA-драйверов и борьбу с виртуальными окружениями. MDST Engine — это движок на Rust и C++, который запускает GGUF-модели прямо в браузере. Через WebGPU. Без сервера. Без Docker. Без головной боли.

Открыли вкладку, загрузили модель — и вот уже Llama 3.3 8B на 4-битных квантах отвечает на вопросы. На обычном ноутбуке с интегрированной графикой. На телефоне. На старом компьютере в офисе, где админ запретил ставить что-либо кроме Chrome.

💡
На февраль 2026 года MDST Engine поддерживает все основные браузеры с WebGPU: Chrome 125+, Edge 125+, Firefox 130+. Safari пока в подвешенном состоянии — Apple движется со скоростью черепахи в одностороннем движении.

Что там внутри и как оно работает

Движок построен на трёх китах:

  • WebGPU — низкоуровневый API для графики и вычислений. В 3-5 раз быстрее WebGL на матричных операциях. Именно то, что нужно для трансформеров.
  • WASM — WebAssembly модули на Rust. Вся логика загрузки моделей, управления контекстом, токенизации.
  • GGUF-формат — тот самый, что используют llama.cpp и все локальные энтузиасты. Поддерживает квантование от Q2_K до Q8_0.

Модель загружается кусками по мере необходимости. Сначала веса для первых слоёв, потом остальные. Если у вас 8 ГБ оперативки, а модель весит 12 ГБ — MDST Engine будет подкачивать её частями. Умно? Да. Работает? На удивление — да.

Что можно запустить прямо сейчас

На февраль 2026 года MDST Engine стабильно работает с моделями до 13 миллиардов параметров. Больше — можно, но осторожно. Список проверенных:

Модель Размер (Q4_K_M) Токенов в секунду Минимальные требования
Llama 3.2 3B 1.8 ГБ 25-35 Любой ноутбук с WebGPU
Phi-4 7B 4.2 ГБ 15-22 8 ГБ RAM + iGPU
Qwen 2.5 14B 8.5 ГБ 8-12 16 ГБ RAM + дискретная графика
Mistral Small 24B 14 ГБ 4-7 32 ГБ RAM + RTX 4060+

Не ждите чудес. 14B-модель на Q4 будет работать в 5-7 раз медленнее, чем через llama.cpp с CUDA. Но зато — в браузере. Без установки. На любой операционке. Компромисс? Да. Приемлемый? Для многих случаев — абсолютно.

А чем это лучше других браузерных решений?

В мире браузерных LLM сейчас три основных игрока: Transformers.js, MLC и MDST Engine. Давайте без воды:

  • Transformers.js — от Hugging Face. Хорош для мелких моделей (до 2B), но с большими начинает захлёбываться. Поддерживает только модели из их хаба. GGUF? Нет.
  • MLC — мощно, но сложно. Нужно компилировать модели в свой формат. Попробуйте объяснить коллеге-маркетологу, как скомпилировать Llama 3.3 в MLC-формат. Правильно — не попробуете.
  • MDST Engine — взяли GGUF-файл с Hugging Face, закинули в движок, работает. Никакой компиляции. Никаких конвертаций.

Есть ещё Open WebUI и подобные системы, но они требуют сервер. MDST Engine — чисто клиентское решение. Никакого бэкенда.

Реальные кейсы, где это работает

Теория — это хорошо, но давайте о практике. Где MDST Engine выстреливает:

Образовательные платформы

Представьте: студент открывает учебный портал, и там встроен AI-ассистент на Mistral 7B. Объясняет темы, проверяет код, помогает с задачами. Никаких API-ключей. Никаких лимитов. Модель работает локально в браузере студента.

Демо для инвесторов и клиентов

Вам нужно показать работу вашей fine-tuned модели? Отправляете ссылку — человек открывает, модель загружается, можно общаться. Никаких «установите вот этот пакет, обновите драйверы, скачайте 20 ГБ». Просто ссылка.

Быстрое прототипирование

Хотите потестить, как будет работать интерфейс с конкретной моделью? Загружаете GGUF в MDST Engine, делаете прототип за день. Не нужно разворачивать сервер, настраивать API, думать об авторизации.

💡
На февраль 2026 года команда MDST Engine анонсировала поддержку мультимодальных моделей. Планируют запустить LLaVA и подобные архитектуры. Если получится — это будет прорыв: анализ изображений прямо в браузере, без отправки на сервер.

Подводные камни (потому что они всегда есть)

Всё звучит слишком хорошо? Почти. Вот что бесит в MDST Engine:

  • Первая загрузка модели — если у вас медленный интернет и модель на 8 ГБ, придётся ждать. Минут 10-20. Дальше браузер кэширует, но первый раз — боль.
  • Ограничения браузера — Chrome не даст сайту использовать больше ~4 ГБ RAM без специальных флагов. Для больших моделей нужно просить пользователя включить флаг chrome://flags/#enable-large-memory. Удачи объяснить бабушке, как это сделать.
  • Нет batch-обработки — модель обрабатывает один запрос за раз. Хотите параллельно обрабатывать 10 промптов? Не получится. Архитектурное ограничение WebGPU.

И да, если вы думаете запустить огромные модели типа GLM-4.7 — забудьте. 179 миллиардов параметров не влезут ни в один браузер. Даже в трёх.

Как начать использовать (без кода, обещаю)

Есть три пути:

MDST Playground

Готовый веб-интерфейс на их сайте. Выбираете модель из списка (или загружаете свою GGUF), жмёте «Start» — и всё. Интерфейс похож на ChatGPT, но модель работает у вас в браузере. Бесплатно, без регистрации.

MDST IDE

Для разработчиков. Встроенный редактор кода, возможность писать плагины, кастомные интерфейсы. По сути — низкоуровневый доступ к движку через JavaScript API.

Встраивание в свой проект

Подключаете JavaScript-библиотеку, инициализируете движок, загружаете модель. Документация есть, но местами сыровата. Если привыкли к polished API от больших компаний — готовьтесь к некоторой боли.

Кому это реально нужно (а кому нет)

MDST Engine — не для всех. Вот кому стоит присмотреться:

  • Преподаватели и создатели образовательного контента — возможность дать студентам AI-ассистента без сложных установок.
  • Стартапы на ранней стадии — быстрое прототипирование AI-фич без развёртывания инфраструктуры.
  • Компании с жёсткими требованиями к безопасности — данные не уходят с устройства, всё обрабатывается локально.
  • Разработчики демо и интерактивных примеров — «поиграться» с разными моделями без скачивания гигабайтов.

А кому не подойдёт:

  • Тем, кому нужна максимальная производительность — берите llama.cpp с CUDA и не мучайтесь.
  • Для продакшена с высокой нагрузкой — браузерные ограничения не позволят обрабатывать тысячи запросов в минуту.
  • Если нужны самые свежие модели — поддержка новых архитектур появляется с задержкой в несколько месяцев.

Что будет дальше (прогноз на 2026-2027)

WebGPU стандартизирован. Браузеры активно его внедряют. Жёсткие диски и интернет становятся быстрее. Всё это играет на руку MDST Engine и подобным технологиям.

Мой прогноз: к концу 2026 года мы увидим:

  • Поддержку моделей до 30B параметров на средних компьютерах
  • Встроенную оптимизацию под разные GPU (не только десктопные, но и мобильные)
  • Интеграцию с техниками сжатия для слабого железа
  • Готовые шаблоны для популярных use cases (чат-боты, код-ассистенты, анализ текста)

А самое интересное — когда браузеры начнут кэшировать модели между сайтами. Открыли один сайт, загрузили Llama 3.2 3B — и на другом сайте она уже доступна без повторной загрузки. Звучит как фантастика? На февраль 2026 года это уже обсуждают в W3C.

Не ждите, что MDST Engine заменит облачные API. Но для конкретных сценариев — демо, образование, безопасные приложения — это лучший вариант из доступных. Простой, бесплатный, работающий здесь и сейчас.

Попробуйте. Откройте MDST Playground, выберите Phi-4 7B и задайте вопрос. Удивитесь, что это действительно работает. Потом закройте вкладку и забудьте — потому что ничего устанавливать не пришлось.

Именно в этом и есть главная магия: AI, который появляется по щелчку и исчезает без следа. Как должно быть.