Bonsai: когда 1 бит круче 8
Помните, как все квантовали модели до Q4 или Q3 и радовались приросту в 2-3 раза? Забудьте. На 02.04.2026 PrismML выкатила Bonsai - 1-битную версию Qwen3-8B. И она не просто быстрая. Она бешеная. 107 токенов в секунду на скромной RTX 4060 - это не опечатка. Это новый этап гонки за эффективность.
Важно: Bonsai - это не магия, а специальный форк llama.cpp от PrismML. Обычный llama.cpp с ней не справится. И да, точность по MMLU-R держится на уровне 65.7, что для 1-битного квантования звучит как шутка.
Что там под капотом? 1-битное квантование - это вообще законно?
PrismML не просто обрезала веса. Они переписали правила игры. Традиционное квантование теряет информацию, сжимая 16 или 32 бита в 4 или 3. Bonsai использует метод, где каждый вес - это буквально 1 или 0. Звучит как катастрофа для качества, но их подход с компенсацией ошибок и пересчетом активаций на лету дает невероятный результат. Модель весит смешные 1.2 ГБ вместо исходных 16+ ГБ.
Запускаем зверя: два шага к рекордной скорости
Теория - это хорошо, но хочется увидеть эти цифры своими глазами. Вот как заставить Bonsai летать на вашем железе.
1 Качаем модель и движок
Первым делом берем саму модель. Официальная страница на Hugging Face - PrismML/Bonsai-8B. Там лежит файл с суффиксом Q1_K_L.gguf. Да, именно один бит. Параллельно клонируем специальный форк llama.cpp. Обычный, даже последний на 02.04.2026, не подойдет.
git clone https://github.com/PrismML/llama.cpp-bonsai
cd llama.cpp-bonsai
make -j
Сборка ничем не отличается от стандартной. Если у вас NVIDIA, убедитесь, что CUDA установлена. Для процессоров тоже работает, но магия скорости раскрывается на GPU.
2 Запускаем и удивляемся
Команда запуска проста. Главный флаг здесь - -ngl 99, чтобы все слои улетели на GPU. На CPU это будет медленнее, но все равно быстрее большинства 4-битных квантований.
./main -m ./Bonsai-8B-Q1_K_L.gguf -n 512 -ngl 99 -t 8 --color -p "Твой промпт здесь"
Через пару секунд вы увидите, как токены сыплются как из рога изобилия. На моей RTX 4060 (8 ГБ VRAM) стабильно держится 105-109 t/s. На более мощных картах цифры будут еще выше.
Цифры не врут: сравнение с альтернативами
Окей, Bonsai быстрая. Но насколько? Давайте сравним с другими способами запуска Qwen3-8B на том же железе. Я провел тесты с генерацией 512 токенов, промпт - 128 токенов.
| Модель / Инструмент | Квантование | Скорость (t/s) | Замечания |
|---|---|---|---|
| Qwen3-8B (стандартный llama.cpp) | Q4_K_M | ~42-48 | Базовая линия. Детали в нашей статье про настройку Qwen. |
| Qwen3-8B (стандартный llama.cpp) | FP16 | ~22-26 | Точность максимальна, скорость минимальна. |
| Bonsai-8B (форк llama.cpp) | Q1_K_L (1-битное) | 105-109 | Рекордсмен. Точность MMLU-R ~65.7. |
| Другие форки (ik_llama.cpp) | Q4_K_M | ~55-60 | Хороший прирост, но не чета Bonsai. Наш тест тут. |
Разница в 2.5 раза против Q4. Это не эволюция, это революция. Особенно для тех, кто мучился с запуском 14B или 32B моделей на ограниченном VRAM. Теперь 8B модель работает на скорости, которая раньше и не снилась.
А что с качеством? Она ведь должна быть тупой
Вот самый частый вопрос. Да, логично предположить, что сжатие до 1 бита уничтожает смысл. Но PrismML провели титаническую работу по пост-тренингу и калибровке. На практике, для генерации кода, ответов на вопросы, summary - разница с Q4_K_M почти незаметна. Для сложных логических задач или точных математических вычислений может проседать. Но для 95% бытовых задач - она более чем адекватна.
Попробуйте задать ей что-то вроде: "Напиши функцию на Python, которая находит пересечение двух списков". Ответ будет корректным и быстрым. Очень быстрым.
Ловушка: Bonsai - это специфичный форк. Если вам нужен tool calling или другие расширенные функции Qwen3, проверяйте совместимость. Для обычной генерации текста и кода проблем нет, но, как мы уже писали, с квантованными моделями всегда есть нюансы.
Кому прямо сейчас стоит смотреть в сторону Bonsai?
- Обладатели слабых GPU (типа RTX 3060/4060 с 8-12 ГБ). Теперь можно запускать модель, которая чувствует себя как 70B на стероидах по скорости.
- Энтузиасты, которые гоняются за максимальными t/s. Здесь просто нет конкурентов на 02.04.2026.
- Разработчики, которым нужна быстрая локальная модель для прототипирования или задач, где качество ответа "нормальное", но скорость критична.
- Те, кто устал ждать загрузки 20 ГБ моделей. Скачал 1.2 ГБ и через минуту уже генерируешь.
А вот кому не стоит: если ваша задача - научные исследования, где важна максимальная точность каждого веса, или вы используете специфичные features модели, которых нет в этом форке. Тогда смотрите в сторону более точных, но медленных конвейеров.
Что дальше? Прогноз на 2026-2027
Bonsai - это первый, но громкий выстрел в мире 1-битного квантования. Уже ходят слухи, что команды Meta и Google смотрят в эту сторону. Ожидаем, что в течение года появятся 1-битные версии Llama-4 и каких-нибудь смешанных экспертных моделей. Скорость в 200+ t/s на потребительских картах станет нормой. А может, мы увидим 1-битное квантование для мультимодальных моделей? Поживем - увидим. Но одно ясно точно: эпоха 4-битного квантования как золотого стандарта для локального запуска подходит к концу. Добро пожаловать в эру бинарных нейросетей.
P.S. Если ваш интерес к локальным моделям начался именно с этой статьи, рекомендую к прочтению базовый гайд по Bonsai и материал про то, почему Linux дает максимум производительности. Там много деталей, которые помогут выжать из вашего железа все.