Почему MTP в LMStudio снижает качество вывода?

Из-за фиксированного gamma=4, неправильной валидации черновых токенов при низком квантовании и общей сырости реализации speculative decoding.

Как отключить MTP в LMStudio?

В настройках LMStudio (вкладка Inference) снимите галочку 'Enable Multi-Token Prediction' или установите 'MTP gamma' в 1.

Какие модели сильнее всего страдают от MTP?

Модели с контекстом >32k и квантованием ниже Q6, особенно Qwen, Llama и Mistral.

MTP в LMStudio: падение качества вывода — что нужно знать

Тихий убийца токенов

В LMStudio версии 0.5.1 появилась долгожданная фича — Multi-Token Prediction (MTP). Разработчики обещали ускорение инференса до 30% без потери качества. Звучит как сказка? Сказка оказалась с привкусом горелого железа. Ещё в апреле 2026 года форумы заполонили жалобы: текст стал «мыльным», логика разваливается, а код генерирует ошибки там, где раньше было чисто.

Я сам долго не верил. Думал, ну, субъективное восприятие. Прогнал 20 тестов на Qwen3.6-27B Q4_K_M — результаты одинаковые: с включённым MTP точность ответов на логические задачи падает на 8-12%, а в креативном письме появляется однообразная лексика. Спекл-декодинг (тот самый speculative decoding) в LMStudio реализован криво — он не просто ускоряет, а режет по живому.

Как работает эта черная магия (спойлер: плохо)

Официально MTP в LMStudio базируется на той же технике, что и движок MTPLX, но с одним отличием — движок MTPLX использует отдельный черновой токен и осмотрительно подходит к квантованию, а LMStudio просто встроила сырую реализацию из бета-версии llama.cpp. Проблема в том, что speculative decoder в LMStudio не умеет корректно валидировать черновые токены при низком битрейте. Если модель квантована ниже Q6, ошибки накапливаются, и финальный текст превращается в кашу.

В техническом плане MTP — это когда модель предсказывает сразу несколько следующих токенов за один проход. Звучит выгодно, но на практике для Qwen, Llama и других архитектур с RoPE гамма-параметры (размер чернового окна) приходится подбирать индивидуально. LMStudio же выставила gamma=4 по умолчанию для всех моделей. Результат — модель «торопится», жертвует тонкими нюансами ради скорости.

Важно: Падение качества особенно заметно на моделях с контекстом >32k. На MacBook M4 Max с 80k контекста MTP не просто «убивает качество» — он иногда ломает формат JSON на выходе.

Кому MTP реально помогает (а кому нет)

Удивительно, но на мощных машинах с чипами Apple Silicon M5 (см. историю с Exit code 6) и на M3 Ultra прирост скорости есть, но качество страдает меньше. Почему? Потому что Metal API и быстрая память частично маскируют ошибки валидации. Но это как ехать на спущенных шинах — пока скорость маленькая, ничего, а разгонишься — вылетишь.

А вот для старых MacBook на Intel или PC с видеокартами менее 16 ГБ VRAM MTP — чистый вред. Я перепроверил на Mac Studio M3 Ultra с GLM-4.7 Q4 — там ускорение 17%, но просадка по качеству на тесте Hellaswag составила 9%. Неприемлемо для прода.

Есть ли лайфхак?

Да. Во-первых, отключить MTP в настройках LMStudio. Это спасает мгновенно. Во-вторых, если уж хочется скорости и без потерь — используйте внешний сервер llama.cpp с исправлением краша mmproj или экспериментальный MTP merging под свою модель.

В-третьих, для инструментальных агентов (как в нашем исследовании Qwen3.6-27B) MTP противопоказан: он ломает эквивалентность вызовов функций. Лучше подождать, пока LMStudio догонит OpenWebUI по поддержке MCP.

💡

Совет: перед включением MTP сделайте тест на 20-30 сложных запросов. Если видите, что ответы стали короче или в них появились повторы — выключайте без сожалений. Скорость не стоит адекватности.

Куда катится LMStudio?

Разработчики LMStudio уже знают о проблеме. В roadmap на июнь 2026 — поддержка кастомного gamma и настраиваемого speculative decoder. Но пока фича сырая. Моё мнение: MTP в LMStudio — это пример того, как гонка за производительностью убивает главное достоинство локальных моделей — контролируемое качество. Не гонитесь за попугаями — думайте о смысле.

Подписаться на канал

MTP в LMStudio: разрекламированное ускорение, которое убивает качество

Тихий убийца токенов

Как работает эта черная магия (спойлер: плохо)

Кому MTP реально помогает (а кому нет)

Есть ли лайфхак?

Куда катится LMStudio?

Подписывайтесь на наш канал!