Публикация AiManual

Реальная производительность DiffusionGemma: почему бенчмарки обманчивы — опыт пользователей

Разбираем расхождения между демо-бенчмарками DiffusionGemma и реальным опытом локального запуска. Почему цифры врут и как не попасться.

4 мин чтения 11.06.2026

Коротко

Что будет в материале

01
Цифры не врут. Бенчмарки — врут
02
Почему так? Три слона, на которых держится обман
03
Опыт первых пользователей: кто победил
04
Аналогии с другими моделями Gemma

Цифры не врут. Бенчмарки — врут

Вы заходите на страницу DiffusionGemma на Hugging Face. Видите красивые графики: скорость генерации 20 изображений в секунду на A100, FID в районе 12, память — 8 ГБ. Красота. Потом скачиваете модель, запускаете на своём RTX 3080 — и получаете 0.3 кадра в секунду, вылет по CUDA out of memory через 10 минут и картинку с тремя головами вместо одной.

Знакомо? Это не баг, а фича — точнее, системный разрыв между лабораторными условиями и реальным железом. В статье "DiffusionGemma: как Google превратил Gemma в генератор изображений" мы подробно разбирали архитектуру модели. Но тогда ещё не знали, что пользователи назовут её "самой обманчивой моделью года".

Reddit-пост от 9 июня 2026 года в r/LocalLLaMA: "Бенчмарки DiffusionGemma показывают 12ms на шаг. Реально — 2.3 секунды на моём 4090. Что я делаю не так?" — и 200+ комментариев с теми же жалобами. Правильный ответ: ничего. Просто бенчмарки врут.

Почему так? Три слона, на которых держится обман

Первое — железо-зависимые оптимизации. Демо-бенчмарки часто запускают на H100 с Flash Attention v2, TensorRT и кастомными CUDA-ядрами от Google. Обычный пользователь — на PyTorch 2.3 с дефолтным `attention`. Результат: скорость падает в 5-10 раз.

Второе — контекст бенчмарка. В статье "Gemma 4 31B лидирует в бенчмарке FoodTruck" мы уже показывали, как один и тот же бенчмарк может быть подобран под модель. DiffusionGemma тестировали на простых промптах вроде "котик". Попробуйте "реалистичный портрет женщины с веснушками, волосы развеваются на ветру" — и время генерации вырастет втрое из-за сложности attention.

Третье — накопление ошибок. DiffusionGemma использует многократные шаги денойзинга. На бумаге — 50 шагов, 0.1 секунды каждый. На практике — первые 10 шагов быстрые, потом на 30-м распухает кэш attention, и шаг начинает занимать 0.8 секунды. Итог: вместо 5 секунд — 25. Ни в одном бенчмарке это не учитывается.

Опыт первых пользователей: кто победил

Мы собрали данные с форумов и Telegra-чатов за последние две недели. Порядка 40 отчётов о запуске DiffusionGemma. Картина неоднозначная.

Конфигурация	Бенчмарк (сек)	Реально (сек)	Проблемы
RTX 4090 24GB	0.3	2.1	Краши при разрешении выше 1024
A5000 24GB	0.4	3.8	Memory leak на 50+ шагах
RTX 3090 24GB	0.5	4.2	Кушает 18 ГБ, хотя обещали 8
Apple M2 Ultra	—	12.0	Работает только через CPU fallback, 1.5 кадра

Истории успеха — единичны. Пользователь из ветки на Reddit настроил Quantized версию (INT4) на RTX 4060 и получил 6 секунд на изображение. Но качество — мыльное, как из 2019 года. Зато хоть не вылетает.

Аналогии с другими моделями Gemma

Проблема не нова. В материале "Почему Gemma 4 проваливает Winogrande, но отлично работает на практике" мы разбирали тот же парадокс наоборот: модель показывает плохие цифры, но в реальности — отличная. Здесь ситуация зеркальная: отличные цифры, убогая реальность.

А вот с "Почему Gemma 3 GGUF тормозит и как это исправить за 5 минут" — прямая параллель. Там тоже бенчмарки занижали latency, а на практике GGUF-версия грузила CPU на 100% и выдавала 6 токенов в секунду. Решение нашлось через тюнинг параметров. С DiffusionGemma такого спасения пока не видно.

Что делать? Не верить. Проверять.

Первое — гоняйте свои бенчмарки. Берете 10 типичных для вас промптов, замеряете время на своей машине. Если в два раза медленнее обещанного — не паникуйте, это норма.

Второе — используйте бенчмарки как ориентир, а не истину в последней инстанции. В статье "Gemma 4: разбор прорывной 31B модели" мы показывали, что стоимость инференса $0.20 за 1M токенов — это про облако, а не про локальный запуск с диффузией. DiffusionGemma на локальном RTX 3090 обойдётся вам в те же $0.20 за одну картинку, если считать по электричеству и износу.

Третье — проверьте community-форки. На Reddit уже появились патчи, которые режут precision до FP16, отключают ненужные слои и дают +40% скорости. Но стабильность — как повезёт.

Главный совет: не покупайте новую видеокарту ради DiffusionGemma, не протестировав её на своей задаче. Сначала запустите урезанную версию, убедитесь, что качество устраивает. И только потом — тратьте деньги.

Кстати, про деньги: в "Gemma 4 26B A4B: тестирование длинного контекста" мы обнаружили, что многие модели Gemma нестабильны при высокой загрузке памяти. DiffusionGemma — не исключение. При попытке генерации 1280x1280 она просто падает с segfault.

Короче, красивые цифры — это дешёвый способ продать модель. Реальная производительность — дорогой опыт, который вы получаете после того, как перепробовали все квантования и выключили всё лишнее в системе. Не верьте бенчмаркам. Верьте секундомеру.

Подписаться на канал