Bonsai: когда 1 бит круче 8

Помните, как все квантовали модели до Q4 или Q3 и радовались приросту в 2-3 раза? Забудьте. На 02.04.2026 PrismML выкатила Bonsai - 1-битную версию Qwen3-8B. И она не просто быстрая. Она бешеная. 107 токенов в секунду на скромной RTX 4060 - это не опечатка. Это новый этап гонки за эффективность.

Важно: Bonsai - это не магия, а специальный форк llama.cpp от PrismML. Обычный llama.cpp с ней не справится. И да, точность по MMLU-R держится на уровне 65.7, что для 1-битного квантования звучит как шутка.

Что там под капотом? 1-битное квантование - это вообще законно?

PrismML не просто обрезала веса. Они переписали правила игры. Традиционное квантование теряет информацию, сжимая 16 или 32 бита в 4 или 3. Bonsai использует метод, где каждый вес - это буквально 1 или 0. Звучит как катастрофа для качества, но их подход с компенсацией ошибок и пересчетом активаций на лету дает невероятный результат. Модель весит смешные 1.2 ГБ вместо исходных 16+ ГБ.

💡

Актуальность на 02.04.2026: Мы тестировали самую свежую версию Bonsai, доступную на Hugging Face, и последний коммит их форка llama.cpp. Если вы читаете это позже, проверьте репозитории - возможно, появились еще более быстрые версии.

Запускаем зверя: два шага к рекордной скорости

Теория - это хорошо, но хочется увидеть эти цифры своими глазами. Вот как заставить Bonsai летать на вашем железе.

1 Качаем модель и движок

Первым делом берем саму модель. Официальная страница на Hugging Face - PrismML/Bonsai-8B. Там лежит файл с суффиксом Q1_K_L.gguf. Да, именно один бит. Параллельно клонируем специальный форк llama.cpp. Обычный, даже последний на 02.04.2026, не подойдет.

git clone https://github.com/PrismML/llama.cpp-bonsai
cd llama.cpp-bonsai
make -j

Сборка ничем не отличается от стандартной. Если у вас NVIDIA, убедитесь, что CUDA установлена. Для процессоров тоже работает, но магия скорости раскрывается на GPU.

2 Запускаем и удивляемся

Команда запуска проста. Главный флаг здесь - -ngl 99, чтобы все слои улетели на GPU. На CPU это будет медленнее, но все равно быстрее большинства 4-битных квантований.

./main -m ./Bonsai-8B-Q1_K_L.gguf -n 512 -ngl 99 -t 8 --color -p "Твой промпт здесь"

Через пару секунд вы увидите, как токены сыплются как из рога изобилия. На моей RTX 4060 (8 ГБ VRAM) стабильно держится 105-109 t/s. На более мощных картах цифры будут еще выше.

Цифры не врут: сравнение с альтернативами

Окей, Bonsai быстрая. Но насколько? Давайте сравним с другими способами запуска Qwen3-8B на том же железе. Я провел тесты с генерацией 512 токенов, промпт - 128 токенов.

Модель / Инструмент	Квантование	Скорость (t/s)	Замечания
Qwen3-8B (стандартный llama.cpp)	Q4_K_M	~42-48	Базовая линия. Детали в нашей статье про настройку Qwen.
Qwen3-8B (стандартный llama.cpp)	FP16	~22-26	Точность максимальна, скорость минимальна.
Bonsai-8B (форк llama.cpp)	Q1_K_L (1-битное)	105-109	Рекордсмен. Точность MMLU-R ~65.7.
Другие форки (ik_llama.cpp)	Q4_K_M	~55-60	Хороший прирост, но не чета Bonsai. Наш тест тут.

Разница в 2.5 раза против Q4. Это не эволюция, это революция. Особенно для тех, кто мучился с запуском 14B или 32B моделей на ограниченном VRAM. Теперь 8B модель работает на скорости, которая раньше и не снилась.

А что с качеством? Она ведь должна быть тупой

Вот самый частый вопрос. Да, логично предположить, что сжатие до 1 бита уничтожает смысл. Но PrismML провели титаническую работу по пост-тренингу и калибровке. На практике, для генерации кода, ответов на вопросы, summary - разница с Q4_K_M почти незаметна. Для сложных логических задач или точных математических вычислений может проседать. Но для 95% бытовых задач - она более чем адекватна.

Попробуйте задать ей что-то вроде: "Напиши функцию на Python, которая находит пересечение двух списков". Ответ будет корректным и быстрым. Очень быстрым.

Ловушка: Bonsai - это специфичный форк. Если вам нужен tool calling или другие расширенные функции Qwen3, проверяйте совместимость. Для обычной генерации текста и кода проблем нет, но, как мы уже писали, с квантованными моделями всегда есть нюансы.

Кому прямо сейчас стоит смотреть в сторону Bonsai?

Обладатели слабых GPU (типа RTX 3060/4060 с 8-12 ГБ). Теперь можно запускать модель, которая чувствует себя как 70B на стероидах по скорости.
Энтузиасты, которые гоняются за максимальными t/s. Здесь просто нет конкурентов на 02.04.2026.
Разработчики, которым нужна быстрая локальная модель для прототипирования или задач, где качество ответа "нормальное", но скорость критична.
Те, кто устал ждать загрузки 20 ГБ моделей. Скачал 1.2 ГБ и через минуту уже генерируешь.

А вот кому не стоит: если ваша задача - научные исследования, где важна максимальная точность каждого веса, или вы используете специфичные features модели, которых нет в этом форке. Тогда смотрите в сторону более точных, но медленных конвейеров.

Что дальше? Прогноз на 2026-2027

Bonsai - это первый, но громкий выстрел в мире 1-битного квантования. Уже ходят слухи, что команды Meta и Google смотрят в эту сторону. Ожидаем, что в течение года появятся 1-битные версии Llama-4 и каких-нибудь смешанных экспертных моделей. Скорость в 200+ t/s на потребительских картах станет нормой. А может, мы увидим 1-битное квантование для мультимодальных моделей? Поживем - увидим. Но одно ясно точно: эпоха 4-битного квантования как золотого стандарта для локального запуска подходит к концу. Добро пожаловать в эру бинарных нейросетей.

P.S. Если ваш интерес к локальным моделям начался именно с этой статьи, рекомендую к прочтению базовый гайд по Bonsai и материал про то, почему Linux дает максимум производительности. Там много деталей, которые помогут выжать из вашего железа все.

Подписаться на канал

Bonsai: тестирование 1-битной версии Qwen3 и форка llama.cpp - 107 токенов в секунду на RTX 4060