Diffusion Gemma: 4x скорость против 6x ошибок — разбор компромисса

Четыре – красивое число. Особенно когда речь идет о множителе скорости. Но когда рядом с ним всплывает шестерка – множитель ошибок, красивым уже не пахнет. Diffusion Gemma от Google – тот случай, когда хочется крикнуть «Вау!», но язык прилипает к небу после первого же сгенерированного изображения.

Как LLM научили рисовать, не думая

Обычные диффузионные модели (Stable Diffusion, Midjourney) работают итеративно: берут шум, шаг за шагом приближаются к картинке. Медленно, но качественно. Diffusion Gemma – это попытка выкинуть итерации в мусорку. Модель учится генерировать изображение за один проход, как языковая модель генерирует текст. В предыдущей статье мы подробно разбирали, как Google превратил Gemma в такой генератор – механика там изящная, но дьявол в деталях.

Осторожно: скорость в 4 раза выше – это не бесплатно. За каждый миллисекунду приходится платить адекватностью ответа.

Те самые 6x ошибок

Цифра 6x – не моя фантазия. По заявлениям исследователей, на стандартных бенчмарках (FID, CLIP score, человеческая оценка) количество артефактов, галлюцинаций и откровенно кривых изображений у Diffusion Gemma в 5-7 раз выше, чем у итерационных аналогов. Как показывает пользовательский опыт, бенчмарки часто врут – в реальных сценариях модель может выдать шедевр, а может нарисовать трёхрукого кота с шестью глазами.

Типичные проблемы:

Глаза разного размера и цвета – модель путает асимметрию с «креативом».
Текст на картинке – превращается в кашу из кириллицы и латиницы, даже если промпт на русском.
Лишние конечности – классика жанра, но в диффузионных LLM это встречается в 2-3 раза чаще, чем в SD.
Полное игнорирование негативного промпта – просишь «без фона», а получаешь космическую пыль.

Где эта скорость реально нужна?

Казалось бы, зачем нам генератор, который делает 4 картинки в секунду, если 3 из них – мусор? Но давайте честно: 4x – это про реальное время. Если Stable Diffusion варит одно изображение 2-3 секунды, то Diffusion Gemma – 0.5-0.8 секунды. Для задач, где важна скорость генерации (чат-боты с визуальными ответами, прототипирование в дизайне, итеративный подбор стилей), такая производительность оправдывает часть ошибок.

К тому же модель хорошо держит контекст: если подать ей последовательно несколько промптов на одну тему, она не забывает детали. Как показало сравнение Gemini 2.5 Flash и Gemini 3 Flash, преемственность поколений иногда важнее абсолютного качества.

Анатомия компромисса

Почему модель ошибается? Потому что диффузионная LLM вынуждена предсказывать сразу весь конечный результат, не имея права на исправление. Это как писать роман с первой попытки – без черновиков, без редактуры. Ошибки накапливаются: неточность в положении носа превращается в третий глаз, неправильный вектор освещения – в «солнце с двух сторон».

💡

Кстати, те же проблемы преследуют и другие однопроходные модели, вроде Muse от Google. Но Diffusion Gemma – первая открытая настолько быстрая модель, поэтому шум вокруг неё громче.

Google пытается чинить баги через увеличение размера модели (последняя версия Gemma 4 на 26B параметров). Но, как мы выяснили при сравнении квантований Bartowski и Unsloth, большие модели не всегда дают пропорциональный прирост качества – часто это просто пересчёт ошибок в другую размерность.

Кому такое вообще нужно?

Давайте начистоту: Diffusion Gemma – не замена Stable Diffusion или Midjourney, если вы рисуете обложку для журнала. Это инструмент для тех, кто готов фильтровать результаты. Представьте: вам нужно сгенерировать 100 иконок для приложения, из которых 20% пойдут в мусорку. С Diffusion Gemma вы потратите на генерацию 100 штук ~80 секунд вместо 5 минут. Даже с отбраковкой выигрыш во времени – в 3 раза.

Кроме того, модель отлично работает в пайплайне: если подключить к ней автоматический детектор артефактов (например, на основе CLIP), можно отсеивать брак на лету. Unsloth уже выпустил GGUF-квантизации Gemma 4 с QAT и MTP, что позволяет запускать модель даже на CPU – для прототипирования это золото.

Неочевидный совет: не спешите выкидывать итерации

Если ваш босс требует «немедленно внедрить» Diffusion Gemma, потому что «там скорость в 4 раза выше», покажите ему не только красивые демки, но и реальные примеры ошибок. Лучший сценарий использования – гибрид: сначала быстрая генерация Diffusion Gemma для прототипа, затем дорисовка деталей через итерационную модель. Кстати, техника замены SciPy на Diffrax в JAX может ускорить итерационный процесс в 10 раз – тогда компромисс Diffusion Gemma становится не таким уж сладким.

Пока Google не научится убирать 6x ошибок, оставаясь на той же скорости, Diffusion Gemma останется нишевым инструментом. Но как первый шаг к молниеносной генерации – это прорыв. Просто не ждите от неё идеала. Ждите 4x скорости – и фильтруйте результаты.

Подписаться на канал

Diffusion Gemma: во сколько раз быстрее, но во сколько раз хуже? Разбор компромисса