Тихий убийца токенов
В LMStudio версии 0.5.1 появилась долгожданная фича — Multi-Token Prediction (MTP). Разработчики обещали ускорение инференса до 30% без потери качества. Звучит как сказка? Сказка оказалась с привкусом горелого железа. Ещё в апреле 2026 года форумы заполонили жалобы: текст стал «мыльным», логика разваливается, а код генерирует ошибки там, где раньше было чисто.
Я сам долго не верил. Думал, ну, субъективное восприятие. Прогнал 20 тестов на Qwen3.6-27B Q4_K_M — результаты одинаковые: с включённым MTP точность ответов на логические задачи падает на 8-12%, а в креативном письме появляется однообразная лексика. Спекл-декодинг (тот самый speculative decoding) в LMStudio реализован криво — он не просто ускоряет, а режет по живому.
Как работает эта черная магия (спойлер: плохо)
Официально MTP в LMStudio базируется на той же технике, что и движок MTPLX, но с одним отличием — движок MTPLX использует отдельный черновой токен и осмотрительно подходит к квантованию, а LMStudio просто встроила сырую реализацию из бета-версии llama.cpp. Проблема в том, что speculative decoder в LMStudio не умеет корректно валидировать черновые токены при низком битрейте. Если модель квантована ниже Q6, ошибки накапливаются, и финальный текст превращается в кашу.
В техническом плане MTP — это когда модель предсказывает сразу несколько следующих токенов за один проход. Звучит выгодно, но на практике для Qwen, Llama и других архитектур с RoPE гамма-параметры (размер чернового окна) приходится подбирать индивидуально. LMStudio же выставила gamma=4 по умолчанию для всех моделей. Результат — модель «торопится», жертвует тонкими нюансами ради скорости.
Важно: Падение качества особенно заметно на моделях с контекстом >32k. На MacBook M4 Max с 80k контекста MTP не просто «убивает качество» — он иногда ломает формат JSON на выходе.
Кому MTP реально помогает (а кому нет)
Удивительно, но на мощных машинах с чипами Apple Silicon M5 (см. историю с Exit code 6) и на M3 Ultra прирост скорости есть, но качество страдает меньше. Почему? Потому что Metal API и быстрая память частично маскируют ошибки валидации. Но это как ехать на спущенных шинах — пока скорость маленькая, ничего, а разгонишься — вылетишь.
А вот для старых MacBook на Intel или PC с видеокартами менее 16 ГБ VRAM MTP — чистый вред. Я перепроверил на Mac Studio M3 Ultra с GLM-4.7 Q4 — там ускорение 17%, но просадка по качеству на тесте Hellaswag составила 9%. Неприемлемо для прода.
Есть ли лайфхак?
Да. Во-первых, отключить MTP в настройках LMStudio. Это спасает мгновенно. Во-вторых, если уж хочется скорости и без потерь — используйте внешний сервер llama.cpp с исправлением краша mmproj или экспериментальный MTP merging под свою модель.
В-третьих, для инструментальных агентов (как в нашем исследовании Qwen3.6-27B) MTP противопоказан: он ломает эквивалентность вызовов функций. Лучше подождать, пока LMStudio догонит OpenWebUI по поддержке MCP.
Куда катится LMStudio?
Разработчики LMStudio уже знают о проблеме. В roadmap на июнь 2026 — поддержка кастомного gamma и настраиваемого speculative decoder. Но пока фича сырая. Моё мнение: MTP в LMStudio — это пример того, как гонка за производительностью убивает главное достоинство локальных моделей — контролируемое качество. Не гонитесь за попугаями — думайте о смысле.