Bonsai: 1-битная Qwen3, тесты скорости и форк llama.cpp | AiManual
AiManual Logo Ai / Manual.
02 Апр 2026 Инструмент

Bonsai: тестирование 1-битной версии Qwen3 и форка llama.cpp - 107 токенов в секунду на RTX 4060

Тестирование Bonsai - 1-битной модели Qwen3 от PrismML. Рекорд 107 t/s на RTX 4060. Установка, сравнение с альтернативами, кому подойдет. Актуально на 02.04.202

Bonsai: когда 1 бит круче 8

Помните, как все квантовали модели до Q4 или Q3 и радовались приросту в 2-3 раза? Забудьте. На 02.04.2026 PrismML выкатила Bonsai - 1-битную версию Qwen3-8B. И она не просто быстрая. Она бешеная. 107 токенов в секунду на скромной RTX 4060 - это не опечатка. Это новый этап гонки за эффективность.

Важно: Bonsai - это не магия, а специальный форк llama.cpp от PrismML. Обычный llama.cpp с ней не справится. И да, точность по MMLU-R держится на уровне 65.7, что для 1-битного квантования звучит как шутка.

Что там под капотом? 1-битное квантование - это вообще законно?

PrismML не просто обрезала веса. Они переписали правила игры. Традиционное квантование теряет информацию, сжимая 16 или 32 бита в 4 или 3. Bonsai использует метод, где каждый вес - это буквально 1 или 0. Звучит как катастрофа для качества, но их подход с компенсацией ошибок и пересчетом активаций на лету дает невероятный результат. Модель весит смешные 1.2 ГБ вместо исходных 16+ ГБ.

💡
Актуальность на 02.04.2026: Мы тестировали самую свежую версию Bonsai, доступную на Hugging Face, и последний коммит их форка llama.cpp. Если вы читаете это позже, проверьте репозитории - возможно, появились еще более быстрые версии.

Запускаем зверя: два шага к рекордной скорости

Теория - это хорошо, но хочется увидеть эти цифры своими глазами. Вот как заставить Bonsai летать на вашем железе.

1 Качаем модель и движок

Первым делом берем саму модель. Официальная страница на Hugging Face - PrismML/Bonsai-8B. Там лежит файл с суффиксом Q1_K_L.gguf. Да, именно один бит. Параллельно клонируем специальный форк llama.cpp. Обычный, даже последний на 02.04.2026, не подойдет.

git clone https://github.com/PrismML/llama.cpp-bonsai
cd llama.cpp-bonsai
make -j

Сборка ничем не отличается от стандартной. Если у вас NVIDIA, убедитесь, что CUDA установлена. Для процессоров тоже работает, но магия скорости раскрывается на GPU.

2 Запускаем и удивляемся

Команда запуска проста. Главный флаг здесь - -ngl 99, чтобы все слои улетели на GPU. На CPU это будет медленнее, но все равно быстрее большинства 4-битных квантований.

./main -m ./Bonsai-8B-Q1_K_L.gguf -n 512 -ngl 99 -t 8 --color -p "Твой промпт здесь"

Через пару секунд вы увидите, как токены сыплются как из рога изобилия. На моей RTX 4060 (8 ГБ VRAM) стабильно держится 105-109 t/s. На более мощных картах цифры будут еще выше.

Цифры не врут: сравнение с альтернативами

Окей, Bonsai быстрая. Но насколько? Давайте сравним с другими способами запуска Qwen3-8B на том же железе. Я провел тесты с генерацией 512 токенов, промпт - 128 токенов.

Модель / Инструмент Квантование Скорость (t/s) Замечания
Qwen3-8B (стандартный llama.cpp) Q4_K_M ~42-48 Базовая линия. Детали в нашей статье про настройку Qwen.
Qwen3-8B (стандартный llama.cpp) FP16 ~22-26 Точность максимальна, скорость минимальна.
Bonsai-8B (форк llama.cpp) Q1_K_L (1-битное) 105-109 Рекордсмен. Точность MMLU-R ~65.7.
Другие форки (ik_llama.cpp) Q4_K_M ~55-60 Хороший прирост, но не чета Bonsai. Наш тест тут.

Разница в 2.5 раза против Q4. Это не эволюция, это революция. Особенно для тех, кто мучился с запуском 14B или 32B моделей на ограниченном VRAM. Теперь 8B модель работает на скорости, которая раньше и не снилась.

А что с качеством? Она ведь должна быть тупой

Вот самый частый вопрос. Да, логично предположить, что сжатие до 1 бита уничтожает смысл. Но PrismML провели титаническую работу по пост-тренингу и калибровке. На практике, для генерации кода, ответов на вопросы, summary - разница с Q4_K_M почти незаметна. Для сложных логических задач или точных математических вычислений может проседать. Но для 95% бытовых задач - она более чем адекватна.

Попробуйте задать ей что-то вроде: "Напиши функцию на Python, которая находит пересечение двух списков". Ответ будет корректным и быстрым. Очень быстрым.

Ловушка: Bonsai - это специфичный форк. Если вам нужен tool calling или другие расширенные функции Qwen3, проверяйте совместимость. Для обычной генерации текста и кода проблем нет, но, как мы уже писали, с квантованными моделями всегда есть нюансы.

Кому прямо сейчас стоит смотреть в сторону Bonsai?

  • Обладатели слабых GPU (типа RTX 3060/4060 с 8-12 ГБ). Теперь можно запускать модель, которая чувствует себя как 70B на стероидах по скорости.
  • Энтузиасты, которые гоняются за максимальными t/s. Здесь просто нет конкурентов на 02.04.2026.
  • Разработчики, которым нужна быстрая локальная модель для прототипирования или задач, где качество ответа "нормальное", но скорость критична.
  • Те, кто устал ждать загрузки 20 ГБ моделей. Скачал 1.2 ГБ и через минуту уже генерируешь.

А вот кому не стоит: если ваша задача - научные исследования, где важна максимальная точность каждого веса, или вы используете специфичные features модели, которых нет в этом форке. Тогда смотрите в сторону более точных, но медленных конвейеров.

Что дальше? Прогноз на 2026-2027

Bonsai - это первый, но громкий выстрел в мире 1-битного квантования. Уже ходят слухи, что команды Meta и Google смотрят в эту сторону. Ожидаем, что в течение года появятся 1-битные версии Llama-4 и каких-нибудь смешанных экспертных моделей. Скорость в 200+ t/s на потребительских картах станет нормой. А может, мы увидим 1-битное квантование для мультимодальных моделей? Поживем - увидим. Но одно ясно точно: эпоха 4-битного квантования как золотого стандарта для локального запуска подходит к концу. Добро пожаловать в эру бинарных нейросетей.

P.S. Если ваш интерес к локальным моделям начался именно с этой статьи, рекомендую к прочтению базовый гайд по Bonsai и материал про то, почему Linux дает максимум производительности. Там много деталей, которые помогут выжать из вашего железа все.

Подписаться на канал