Публикация AiManual

1-bit Bonsai Image 4B и Ternary: два гигабайта, которые заменят видеокарту за 2000 баксов

Модели весом меньше 1.2 ГБ запускают генерацию картинок на процессоре, в браузере и на мобилах. Тестируем обе версии, сравниваем с FLUX и Qwen-Image.

5 мин чтения 02.06.2026

Коротко

Что будет в материале

01
Куда делись 16 гигабайт?
02
1 бит vs. Ternary — в чём соль?
03
Как это работает на практике?
04
Сравнение с альтернативами: кто кого?

Куда делись 16 гигабайт?

Помните времена, когда для генерации картинки с космонавтом на лошади нужен был A100 за 30 тысяч долларов? А теперь посмотрите на модели от команды Bonsai. 1-bit Bonsai Image 4B весит 0.93 ГБ. Ternary версия — 1.21 ГБ. Это меньше, чем установочник Half-Life 2. И они реально генерируют изображения. На CPU. В браузере. На мобильном телефоне. Я не шучу.

Ключевой прорыв — экстремальное квантование. Обычная 4B модель в FP16 весила бы ~8 ГБ. Bonsai сжали её в 8–9 раз, пожертвовав минимумом качества.

1 бит vs. Ternary — в чём соль?

1-bit Bonsai — это модель, где каждый вес хранится как один бит: -1 или +1. Ternary — трёхуровневое квантование: -1, 0, +1. Казалось бы, разница в 0.28 ГБ, но на практике Ternary даёт заметно более детализированные текстуры и лучше передаёт мелкие элементы вроде текста или лица. 1-bit версия чуть «мыльнее», но для мемов, иконок или концептов её хватает за глаза.

Обе модели используют архитектуру Diffusion Transformer (DiT) — это не U-Net, как в Stable Diffusion, а трансформер, который обрабатывает скрытые патчи. Благодаря этому квантование даёт меньше артефактов, чем на свёртках. Подробнее про архитектуру читайте в обзоре Bonsai Image 4B.

Как это работает на практике?

Скачиваете бинарник bonsai-image — форк llama.cpp с поддержкой 1-bit тензоров. Команда запуска выглядит до смешного просто:

git clone https://github.com/Bonsai-AI/bonsai-image.git
cd bonsai-image
mkdir models
cd models
wget https://huggingface.co/bonsai/1-bit-bonsai-image-4B-GGUF/resolve/main/bonsai-image-4b-1bit.q4_0.gguf
cd ..
./build/bin/bonsai-image -m models/bonsai-image-4b-1bit.q4_0.gguf -p "a cat with sunglasses, retro style" -o output.png

На RTX 4060 одна картинка в разрешении 512×768 генерируется за 4–6 секунд. На чистом CPU (Ryzen 5950X) — около 40 секунд. На iPhone 15 Pro в браузере через WebGPU — примерно минута. Да, не мгновенно, но оно работает!

Сравнение с альтернативами: кто кого?

Давайте честно: по качеству картинок Bonsai не дотягивает до FLUX.2 Klein 9B или Qwen-Image-2512. FLUX.2 Klein 9B требует 16 ГБ VRAM и выдаёт фотореализм, который отличить от реального можно только под микроскопом. Но Bonsai запускается на 4 ГБ RAM и GPU без CUDA. Это trade-off, который для многих оправдан.

Qwen-Image-2512 — китайский монстр на 2.5B параметров, но в FP16 он весит 5 ГБ, а для инференса нужно хотя бы 6 ГБ VRAM. Bonsai же помещается в оперативку смартфона. Сводное сравнение локальных моделей показывает, что по соотношению качество/вес Bonsai — единственный, кто способен работать на устройствах без выделенного GPU.

Модель	Вес (ГБ)	Минимальная RAM	Качество (1-10)	Скорость на CPU
1-bit Bonsai 4B	0.93	2 ГБ	6	~40 сек
Ternary Bonsai 4B	1.21	3 ГБ	7	~35 сек
FLUX.2 Klein 9B (4bit)	5.2	10 ГБ VRAM	9	только GPU
Qwen-Image-2512	5.0	6 ГБ VRAM	8	~20 сек (GPU)

Кому это реально нужно?

Сценариев масса. Во-первых, владельцы ноутбуков с Intel Iris Xe или AMD Vega — раньше они могли только смотреть чужие картинки. Теперь они могут генерировать свои. Во-вторых, энтузиасты, которые хотят запустить AI на Raspberry Pi 5 (да, Bonsai уже тестировали на ARM). В-третьих, разработчики мобильных приложений — встроить генерацию изображений в приложение без облачной подписки наконец-то реально.

Особенно хороша Ternary версия для создания аватарок, обложек, постов в соцсети. 1-bit — для быстрых набросков и прототипирования. Лично я заменил Midjourney на Bonsai для внутренних креативов: платить $30 в месяц, когда локальная модель делает 80% того же самого — сомнительное удовольствие.

💡

Если у вас есть хоть какая-то видеокарта с 8+ ГБ VRAM — лучше смотреть в сторону FLUX.2-dev-Turbo. Но если бюджет железный — Bonsai вытащит.

Чего не хватает?

Тексты. Bonsai пока не умеет нормально рисовать буквы. Попросите его сделать вывеску «COFFEE» — получите каракули. Это проблема всех маленьких моделей, но здесь она особенно заметна. Также высокие разрешения (1024+ по любой стороне) требуют больше шагов денойзинга, и на CPU время улетает за 2–3 минуты. И да, в модели нет control-сетей — никаких Canny, глубины, поз.

С другой стороны, Bonsai-8B для текста тоже существует. Совместное использование двух 1-битных моделей — текстовая генерация + визуальная — открывает дверь к полностью офлайн AI-помощнику. Это уже не фантастика, а текущий релиз.

Будущее за однобитными сетями?

Скорее всего, да. Когда модель весом с пару фильмов в 4K может нарисовать вам что угодно — это меняет правила игры. Bonsai Image 4B показал, что diffusion модели можно сжимать без потери функциональности. Ternary версия — компромисс между размером и качеством, который сегодня оптимален. Через год-два мы увидим 1-битные аналоги Stable Diffusion 4 или FLUX.2 — и вот тогда локальная генерация станет таким же обычным делом, как печать документов.

Мой совет: скачайте обе модели. 1-bit — для экспериментов, Ternary — для реальных задач. Они не конкурируют, они дополняют друг друга. И вы удивитесь, насколько часто вы будете выбирать локальную картинку вместо похода в Midjourney.

Подписаться на канал