Четыре – красивое число. Особенно когда речь идет о множителе скорости. Но когда рядом с ним всплывает шестерка – множитель ошибок, красивым уже не пахнет. Diffusion Gemma от Google – тот случай, когда хочется крикнуть «Вау!», но язык прилипает к небу после первого же сгенерированного изображения.
Как LLM научили рисовать, не думая
Обычные диффузионные модели (Stable Diffusion, Midjourney) работают итеративно: берут шум, шаг за шагом приближаются к картинке. Медленно, но качественно. Diffusion Gemma – это попытка выкинуть итерации в мусорку. Модель учится генерировать изображение за один проход, как языковая модель генерирует текст. В предыдущей статье мы подробно разбирали, как Google превратил Gemma в такой генератор – механика там изящная, но дьявол в деталях.
Осторожно: скорость в 4 раза выше – это не бесплатно. За каждый миллисекунду приходится платить адекватностью ответа.
Те самые 6x ошибок
Цифра 6x – не моя фантазия. По заявлениям исследователей, на стандартных бенчмарках (FID, CLIP score, человеческая оценка) количество артефактов, галлюцинаций и откровенно кривых изображений у Diffusion Gemma в 5-7 раз выше, чем у итерационных аналогов. Как показывает пользовательский опыт, бенчмарки часто врут – в реальных сценариях модель может выдать шедевр, а может нарисовать трёхрукого кота с шестью глазами.
Типичные проблемы:
- Глаза разного размера и цвета – модель путает асимметрию с «креативом».
- Текст на картинке – превращается в кашу из кириллицы и латиницы, даже если промпт на русском.
- Лишние конечности – классика жанра, но в диффузионных LLM это встречается в 2-3 раза чаще, чем в SD.
- Полное игнорирование негативного промпта – просишь «без фона», а получаешь космическую пыль.
Где эта скорость реально нужна?
Казалось бы, зачем нам генератор, который делает 4 картинки в секунду, если 3 из них – мусор? Но давайте честно: 4x – это про реальное время. Если Stable Diffusion варит одно изображение 2-3 секунды, то Diffusion Gemma – 0.5-0.8 секунды. Для задач, где важна скорость генерации (чат-боты с визуальными ответами, прототипирование в дизайне, итеративный подбор стилей), такая производительность оправдывает часть ошибок.
К тому же модель хорошо держит контекст: если подать ей последовательно несколько промптов на одну тему, она не забывает детали. Как показало сравнение Gemini 2.5 Flash и Gemini 3 Flash, преемственность поколений иногда важнее абсолютного качества.
Анатомия компромисса
Почему модель ошибается? Потому что диффузионная LLM вынуждена предсказывать сразу весь конечный результат, не имея права на исправление. Это как писать роман с первой попытки – без черновиков, без редактуры. Ошибки накапливаются: неточность в положении носа превращается в третий глаз, неправильный вектор освещения – в «солнце с двух сторон».
Google пытается чинить баги через увеличение размера модели (последняя версия Gemma 4 на 26B параметров). Но, как мы выяснили при сравнении квантований Bartowski и Unsloth, большие модели не всегда дают пропорциональный прирост качества – часто это просто пересчёт ошибок в другую размерность.
Кому такое вообще нужно?
Давайте начистоту: Diffusion Gemma – не замена Stable Diffusion или Midjourney, если вы рисуете обложку для журнала. Это инструмент для тех, кто готов фильтровать результаты. Представьте: вам нужно сгенерировать 100 иконок для приложения, из которых 20% пойдут в мусорку. С Diffusion Gemma вы потратите на генерацию 100 штук ~80 секунд вместо 5 минут. Даже с отбраковкой выигрыш во времени – в 3 раза.
Кроме того, модель отлично работает в пайплайне: если подключить к ней автоматический детектор артефактов (например, на основе CLIP), можно отсеивать брак на лету. Unsloth уже выпустил GGUF-квантизации Gemma 4 с QAT и MTP, что позволяет запускать модель даже на CPU – для прототипирования это золото.
Неочевидный совет: не спешите выкидывать итерации
Если ваш босс требует «немедленно внедрить» Diffusion Gemma, потому что «там скорость в 4 раза выше», покажите ему не только красивые демки, но и реальные примеры ошибок. Лучший сценарий использования – гибрид: сначала быстрая генерация Diffusion Gemma для прототипа, затем дорисовка деталей через итерационную модель. Кстати, техника замены SciPy на Diffrax в JAX может ускорить итерационный процесс в 10 раз – тогда компромисс Diffusion Gemma становится не таким уж сладким.
Пока Google не научится убирать 6x ошибок, оставаясь на той же скорости, Diffusion Gemma останется нишевым инструментом. Но как первый шаг к молниеносной генерации – это прорыв. Просто не ждите от неё идеала. Ждите 4x скорости – и фильтруйте результаты.