Куда делись 16 гигабайт?
Помните времена, когда для генерации картинки с космонавтом на лошади нужен был A100 за 30 тысяч долларов? А теперь посмотрите на модели от команды Bonsai. 1-bit Bonsai Image 4B весит 0.93 ГБ. Ternary версия — 1.21 ГБ. Это меньше, чем установочник Half-Life 2. И они реально генерируют изображения. На CPU. В браузере. На мобильном телефоне. Я не шучу.
Ключевой прорыв — экстремальное квантование. Обычная 4B модель в FP16 весила бы ~8 ГБ. Bonsai сжали её в 8–9 раз, пожертвовав минимумом качества.
1 бит vs. Ternary — в чём соль?
1-bit Bonsai — это модель, где каждый вес хранится как один бит: -1 или +1. Ternary — трёхуровневое квантование: -1, 0, +1. Казалось бы, разница в 0.28 ГБ, но на практике Ternary даёт заметно более детализированные текстуры и лучше передаёт мелкие элементы вроде текста или лица. 1-bit версия чуть «мыльнее», но для мемов, иконок или концептов её хватает за глаза.
Обе модели используют архитектуру Diffusion Transformer (DiT) — это не U-Net, как в Stable Diffusion, а трансформер, который обрабатывает скрытые патчи. Благодаря этому квантование даёт меньше артефактов, чем на свёртках. Подробнее про архитектуру читайте в обзоре Bonsai Image 4B.
Как это работает на практике?
Скачиваете бинарник bonsai-image — форк llama.cpp с поддержкой 1-bit тензоров. Команда запуска выглядит до смешного просто:
git clone https://github.com/Bonsai-AI/bonsai-image.git
cd bonsai-image
mkdir models
cd models
wget https://huggingface.co/bonsai/1-bit-bonsai-image-4B-GGUF/resolve/main/bonsai-image-4b-1bit.q4_0.gguf
cd ..
./build/bin/bonsai-image -m models/bonsai-image-4b-1bit.q4_0.gguf -p "a cat with sunglasses, retro style" -o output.png
На RTX 4060 одна картинка в разрешении 512×768 генерируется за 4–6 секунд. На чистом CPU (Ryzen 5950X) — около 40 секунд. На iPhone 15 Pro в браузере через WebGPU — примерно минута. Да, не мгновенно, но оно работает!
Сравнение с альтернативами: кто кого?
Давайте честно: по качеству картинок Bonsai не дотягивает до FLUX.2 Klein 9B или Qwen-Image-2512. FLUX.2 Klein 9B требует 16 ГБ VRAM и выдаёт фотореализм, который отличить от реального можно только под микроскопом. Но Bonsai запускается на 4 ГБ RAM и GPU без CUDA. Это trade-off, который для многих оправдан.
Qwen-Image-2512 — китайский монстр на 2.5B параметров, но в FP16 он весит 5 ГБ, а для инференса нужно хотя бы 6 ГБ VRAM. Bonsai же помещается в оперативку смартфона. Сводное сравнение локальных моделей показывает, что по соотношению качество/вес Bonsai — единственный, кто способен работать на устройствах без выделенного GPU.
| Модель | Вес (ГБ) | Минимальная RAM | Качество (1-10) | Скорость на CPU |
|---|---|---|---|---|
| 1-bit Bonsai 4B | 0.93 | 2 ГБ | 6 | ~40 сек |
| Ternary Bonsai 4B | 1.21 | 3 ГБ | 7 | ~35 сек |
| FLUX.2 Klein 9B (4bit) | 5.2 | 10 ГБ VRAM | 9 | только GPU |
| Qwen-Image-2512 | 5.0 | 6 ГБ VRAM | 8 | ~20 сек (GPU) |
Кому это реально нужно?
Сценариев масса. Во-первых, владельцы ноутбуков с Intel Iris Xe или AMD Vega — раньше они могли только смотреть чужие картинки. Теперь они могут генерировать свои. Во-вторых, энтузиасты, которые хотят запустить AI на Raspberry Pi 5 (да, Bonsai уже тестировали на ARM). В-третьих, разработчики мобильных приложений — встроить генерацию изображений в приложение без облачной подписки наконец-то реально.
Особенно хороша Ternary версия для создания аватарок, обложек, постов в соцсети. 1-bit — для быстрых набросков и прототипирования. Лично я заменил Midjourney на Bonsai для внутренних креативов: платить $30 в месяц, когда локальная модель делает 80% того же самого — сомнительное удовольствие.
Чего не хватает?
Тексты. Bonsai пока не умеет нормально рисовать буквы. Попросите его сделать вывеску «COFFEE» — получите каракули. Это проблема всех маленьких моделей, но здесь она особенно заметна. Также высокие разрешения (1024+ по любой стороне) требуют больше шагов денойзинга, и на CPU время улетает за 2–3 минуты. И да, в модели нет control-сетей — никаких Canny, глубины, поз.
С другой стороны, Bonsai-8B для текста тоже существует. Совместное использование двух 1-битных моделей — текстовая генерация + визуальная — открывает дверь к полностью офлайн AI-помощнику. Это уже не фантастика, а текущий релиз.
Будущее за однобитными сетями?
Скорее всего, да. Когда модель весом с пару фильмов в 4K может нарисовать вам что угодно — это меняет правила игры. Bonsai Image 4B показал, что diffusion модели можно сжимать без потери функциональности. Ternary версия — компромисс между размером и качеством, который сегодня оптимален. Через год-два мы увидим 1-битные аналоги Stable Diffusion 4 или FLUX.2 — и вот тогда локальная генерация станет таким же обычным делом, как печать документов.
Мой совет: скачайте обе модели. 1-bit — для экспериментов, Ternary — для реальных задач. Они не конкурируют, они дополняют друг друга. И вы удивитесь, насколько часто вы будете выбирать локальную картинку вместо похода в Midjourney.