Турбоквантование, которое не всегда ускоряет

В марте 2026 года все GitHub, связанные с оптимизацией LLM, сходят с ума по Turboquant. Это новая техника послойного квантования, которая обещает держать модель и быстрой, и умной. В теории. На практике, особенно на флагманском Apple M5 Max с 128GB, она ведет себя как капризный спорткар: феноменальный разгон на прямой, но убийственная задержка на старте. Эта задержка — prefill latency — и есть главная драма сезона.

💡

Prefill latency — это время, которое модель тратит на первичную обработку вашего запроса (промпта) перед тем, как начать генерировать ответ. На длинных промптах или контекстах в десятки тысяч токенов эта пауза может растянуться с секунд до минут, сводя на нет все преимущества быстрой генерации.

Что ломается на M5 Max: цифры вместо хайпа

Я прогнал через Turboquant две рабочие лошадки: Qwen 3.5 32B и Step 3.5 MoE-16B. Сравнивал с актуальными на 28.03.2026 эталонами — квантованиями GGUF Q4_K_M и нативным форматом MLX. Все тесты на Mac Studio (M5 Max, 128GB, macOS Sequoia 15.4.1), с использованием форка llama.cpp с поддержкой Turboquant (коммит от 25.03.2026).

Модель / Метод	Скорость генерации (токен/с)	Prefill (промпт 4k токенов)	Память (нагрузка)
Qwen 3.5 32B (GGUF Q4_K_M)	28-32	1.2 с	~42 ГБ
Qwen 3.5 32B (Turboquant T3)	48-55	8.7 с	~38 ГБ
Step 3.5 MoE-16B (MLX 8-bit)	62-68	0.8 с	~29 ГБ
Step 3.5 MoE-16B (Turboquant T2)	85-95	4.1 с	~26 ГБ

Видите разрыв? Генерация ускоряется на 60-80%, что невероятно. Но prefill замедляется в 4-7 раз. В чем подвох? Turboquant использует гибридную схему: часть слоев в 2-битном формате для скорости, часть — в 4-битном для точности. При кодировании промпта система вынуждена «переключать» форматы на лету, а архитектура памяти M5 Max (при всей ее пропускной способности в 500 ГБ/с) не любит такие хаотичные доступы. Особенно это заметно на длинных контекстах. Промпт в 32к токенов может «грузиться» 30-40 секунд. Представьте, что вы задаете вопрос и ждете минуту, прежде чем модель начнет печатать ответ. Это убивает интерактивность.

Turboquant против мира: а альтернативы-то лучше?

Пока все восхищаются Turboquant, тихие гиганты вроде MLX 2.1 от Apple и обновленный llama.cpp с интеллектуальным батчингом делают свое дело. Их главное преимущество — предсказуемость.

MLX-нативные модели (особенно для MoE, как Qwen3 Next): prefill почти мгновенный, потому что вся оптимизация заточена под Neural Engine M5. Но максимальная скорость генерации ниже, чем у Turboquant.
GGUF с smart batching: золотая середина. Prefill стабильный, память оптимизирована. Идеально для долгих сессий кодирования или агентных задач, где важна отзывчивость.
Turboquant — это инструмент для специфичных сценариев. Нужно сгенерировать огромный текст одним потоком? Да, он будет быстрее. Но для диалога, где каждый ответ — новый короткий промпт, просадка в prefill замучает.

Важный нюанс 2026 года: многие сравнивают Turboquant со старыми квантованиями вроде Q8_0 или даже FP16. Это нечестно. Сравнивать нужно с актуальными GGUF Q4_K_M или Q5_K_S, которые за год серьезно эволюционировали.

Кому это сдалось? Реальные сценарии

Turboquant — не для всех. Если вы запускаете модель в LM Studio для общения или быстрого рефакторинга кода, он принесет больше разочарований. Но есть три сценария, где он блистает.

1 Пакетная генерация контента

Нужно создать сто SEO-статей, преобразовать тонну технической документации? Загружаете начальный промпт один раз (потерпите долгий prefill), а потом модель штампует текст с невероятной скоростью. Prefill — разовые затраты.

2 Оффлайн-инференс на встроенном железе

Для мобильных разработчиков, которые встраивают легкую модель в приложение на iPhone или iPad с чипом M5. Там контексты короткие, prefill не так страшен, а экономия памяти и скорость генерации критичны. Turboquant T1 (самый агрессивный) может стать спасением.

3 Исследовательские эксперименты

Если вы тестируете новые архитектуры и вам нужно быстро прогнать тысячи итераций генерации, чтобы собрать статистику. Скорость вывода здесь важнее задержки на входе.

Будущее Turboquant на Apple Silicon: прогноз на 2026-2027

Проблема prefill известна. В issue основных репозиториев уже лежат тикеты, а инженеры Apple, кажется, начали шевелиться. Мой прогноз: к концу 2026 года мы увидим либо:

Специальную оптимизацию Turboquant в следующем обновлении MLX (версия 2.2 или 2.3), которая будет использовать Neural Engine для предварительного кэширования данных формата, сглаживая провал.
Появление аппаратной поддержки смешанного квантования в будущем чипе M6. Слухи об этом уже ходят.

А пока что, если вы выбираете железо для работы с локальными LLM и разрываетесь между M4 Max и M5 Max, знайте: для Turboquant разница будет не так велика, как в других сценариях. Проблема — в алгоритме, не в железе. И да, если вам нужна максимальная мощность для моделей 70B+ с длинным контекстом, MacBook Pro на M4 Max все еще отличный выбор, но не ждите от Turboquant чудес.

Итог? Turboquant — это крутой, но сырой инструмент. Он не заменит проверенные методы вроде GGUF для агентской работы. Скачайте, поэкспериментируйте, но в продакшн на Mac, где важна отзывчивость, пока не несите. Ждите обновлений. Или лучше потратьте время на тонкую настройку интеграции в MLX Studio — это даст больше стабильного выигрыша прямо сейчас.

Подписаться на канал

Turboquant на Apple M5 Max: когда скорость prefill убивает всю магию