Турбоквантование, которое не всегда ускоряет
В марте 2026 года все GitHub, связанные с оптимизацией LLM, сходят с ума по Turboquant. Это новая техника послойного квантования, которая обещает держать модель и быстрой, и умной. В теории. На практике, особенно на флагманском Apple M5 Max с 128GB, она ведет себя как капризный спорткар: феноменальный разгон на прямой, но убийственная задержка на старте. Эта задержка — prefill latency — и есть главная драма сезона.
Что ломается на M5 Max: цифры вместо хайпа
Я прогнал через Turboquant две рабочие лошадки: Qwen 3.5 32B и Step 3.5 MoE-16B. Сравнивал с актуальными на 28.03.2026 эталонами — квантованиями GGUF Q4_K_M и нативным форматом MLX. Все тесты на Mac Studio (M5 Max, 128GB, macOS Sequoia 15.4.1), с использованием форка llama.cpp с поддержкой Turboquant (коммит от 25.03.2026).
| Модель / Метод | Скорость генерации (токен/с) | Prefill (промпт 4k токенов) | Память (нагрузка) |
|---|---|---|---|
| Qwen 3.5 32B (GGUF Q4_K_M) | 28-32 | 1.2 с | ~42 ГБ |
| Qwen 3.5 32B (Turboquant T3) | 48-55 | 8.7 с | ~38 ГБ |
| Step 3.5 MoE-16B (MLX 8-bit) | 62-68 | 0.8 с | ~29 ГБ |
| Step 3.5 MoE-16B (Turboquant T2) | 85-95 | 4.1 с | ~26 ГБ |
Видите разрыв? Генерация ускоряется на 60-80%, что невероятно. Но prefill замедляется в 4-7 раз. В чем подвох? Turboquant использует гибридную схему: часть слоев в 2-битном формате для скорости, часть — в 4-битном для точности. При кодировании промпта система вынуждена «переключать» форматы на лету, а архитектура памяти M5 Max (при всей ее пропускной способности в 500 ГБ/с) не любит такие хаотичные доступы. Особенно это заметно на длинных контекстах. Промпт в 32к токенов может «грузиться» 30-40 секунд. Представьте, что вы задаете вопрос и ждете минуту, прежде чем модель начнет печатать ответ. Это убивает интерактивность.
Turboquant против мира: а альтернативы-то лучше?
Пока все восхищаются Turboquant, тихие гиганты вроде MLX 2.1 от Apple и обновленный llama.cpp с интеллектуальным батчингом делают свое дело. Их главное преимущество — предсказуемость.
- MLX-нативные модели (особенно для MoE, как Qwen3 Next): prefill почти мгновенный, потому что вся оптимизация заточена под Neural Engine M5. Но максимальная скорость генерации ниже, чем у Turboquant.
- GGUF с smart batching: золотая середина. Prefill стабильный, память оптимизирована. Идеально для долгих сессий кодирования или агентных задач, где важна отзывчивость.
- Turboquant — это инструмент для специфичных сценариев. Нужно сгенерировать огромный текст одним потоком? Да, он будет быстрее. Но для диалога, где каждый ответ — новый короткий промпт, просадка в prefill замучает.
Важный нюанс 2026 года: многие сравнивают Turboquant со старыми квантованиями вроде Q8_0 или даже FP16. Это нечестно. Сравнивать нужно с актуальными GGUF Q4_K_M или Q5_K_S, которые за год серьезно эволюционировали.
Кому это сдалось? Реальные сценарии
Turboquant — не для всех. Если вы запускаете модель в LM Studio для общения или быстрого рефакторинга кода, он принесет больше разочарований. Но есть три сценария, где он блистает.
1 Пакетная генерация контента
Нужно создать сто SEO-статей, преобразовать тонну технической документации? Загружаете начальный промпт один раз (потерпите долгий prefill), а потом модель штампует текст с невероятной скоростью. Prefill — разовые затраты.
2 Оффлайн-инференс на встроенном железе
Для мобильных разработчиков, которые встраивают легкую модель в приложение на iPhone или iPad с чипом M5. Там контексты короткие, prefill не так страшен, а экономия памяти и скорость генерации критичны. Turboquant T1 (самый агрессивный) может стать спасением.
3 Исследовательские эксперименты
Если вы тестируете новые архитектуры и вам нужно быстро прогнать тысячи итераций генерации, чтобы собрать статистику. Скорость вывода здесь важнее задержки на входе.
Будущее Turboquant на Apple Silicon: прогноз на 2026-2027
Проблема prefill известна. В issue основных репозиториев уже лежат тикеты, а инженеры Apple, кажется, начали шевелиться. Мой прогноз: к концу 2026 года мы увидим либо:
- Специальную оптимизацию Turboquant в следующем обновлении MLX (версия 2.2 или 2.3), которая будет использовать Neural Engine для предварительного кэширования данных формата, сглаживая провал.
- Появление аппаратной поддержки смешанного квантования в будущем чипе M6. Слухи об этом уже ходят.
А пока что, если вы выбираете железо для работы с локальными LLM и разрываетесь между M4 Max и M5 Max, знайте: для Turboquant разница будет не так велика, как в других сценариях. Проблема — в алгоритме, не в железе. И да, если вам нужна максимальная мощность для моделей 70B+ с длинным контекстом, MacBook Pro на M4 Max все еще отличный выбор, но не ждите от Turboquant чудес.
Итог? Turboquant — это крутой, но сырой инструмент. Он не заменит проверенные методы вроде GGUF для агентской работы. Скачайте, поэкспериментируйте, но в продакшн на Mac, где важна отзывчивость, пока не несите. Ждите обновлений. Или лучше потратьте время на тонкую настройку интеграции в MLX Studio — это даст больше стабильного выигрыша прямо сейчас.