Цифры не врут. Бенчмарки — врут
Вы заходите на страницу DiffusionGemma на Hugging Face. Видите красивые графики: скорость генерации 20 изображений в секунду на A100, FID в районе 12, память — 8 ГБ. Красота. Потом скачиваете модель, запускаете на своём RTX 3080 — и получаете 0.3 кадра в секунду, вылет по CUDA out of memory через 10 минут и картинку с тремя головами вместо одной.
Знакомо? Это не баг, а фича — точнее, системный разрыв между лабораторными условиями и реальным железом. В статье "DiffusionGemma: как Google превратил Gemma в генератор изображений" мы подробно разбирали архитектуру модели. Но тогда ещё не знали, что пользователи назовут её "самой обманчивой моделью года".
Reddit-пост от 9 июня 2026 года в r/LocalLLaMA: "Бенчмарки DiffusionGemma показывают 12ms на шаг. Реально — 2.3 секунды на моём 4090. Что я делаю не так?" — и 200+ комментариев с теми же жалобами. Правильный ответ: ничего. Просто бенчмарки врут.
Почему так? Три слона, на которых держится обман
Первое — железо-зависимые оптимизации. Демо-бенчмарки часто запускают на H100 с Flash Attention v2, TensorRT и кастомными CUDA-ядрами от Google. Обычный пользователь — на PyTorch 2.3 с дефолтным `attention`. Результат: скорость падает в 5-10 раз.
Второе — контекст бенчмарка. В статье "Gemma 4 31B лидирует в бенчмарке FoodTruck" мы уже показывали, как один и тот же бенчмарк может быть подобран под модель. DiffusionGemma тестировали на простых промптах вроде "котик". Попробуйте "реалистичный портрет женщины с веснушками, волосы развеваются на ветру" — и время генерации вырастет втрое из-за сложности attention.
Третье — накопление ошибок. DiffusionGemma использует многократные шаги денойзинга. На бумаге — 50 шагов, 0.1 секунды каждый. На практике — первые 10 шагов быстрые, потом на 30-м распухает кэш attention, и шаг начинает занимать 0.8 секунды. Итог: вместо 5 секунд — 25. Ни в одном бенчмарке это не учитывается.
Опыт первых пользователей: кто победил
Мы собрали данные с форумов и Telegra-чатов за последние две недели. Порядка 40 отчётов о запуске DiffusionGemma. Картина неоднозначная.
| Конфигурация | Бенчмарк (сек) | Реально (сек) | Проблемы |
|---|---|---|---|
| RTX 4090 24GB | 0.3 | 2.1 | Краши при разрешении выше 1024 |
| A5000 24GB | 0.4 | 3.8 | Memory leak на 50+ шагах |
| RTX 3090 24GB | 0.5 | 4.2 | Кушает 18 ГБ, хотя обещали 8 |
| Apple M2 Ultra | — | 12.0 | Работает только через CPU fallback, 1.5 кадра |
Истории успеха — единичны. Пользователь из ветки на Reddit настроил Quantized версию (INT4) на RTX 4060 и получил 6 секунд на изображение. Но качество — мыльное, как из 2019 года. Зато хоть не вылетает.
Аналогии с другими моделями Gemma
Проблема не нова. В материале "Почему Gemma 4 проваливает Winogrande, но отлично работает на практике" мы разбирали тот же парадокс наоборот: модель показывает плохие цифры, но в реальности — отличная. Здесь ситуация зеркальная: отличные цифры, убогая реальность.
А вот с "Почему Gemma 3 GGUF тормозит и как это исправить за 5 минут" — прямая параллель. Там тоже бенчмарки занижали latency, а на практике GGUF-версия грузила CPU на 100% и выдавала 6 токенов в секунду. Решение нашлось через тюнинг параметров. С DiffusionGemma такого спасения пока не видно.
Что делать? Не верить. Проверять.
Первое — гоняйте свои бенчмарки. Берете 10 типичных для вас промптов, замеряете время на своей машине. Если в два раза медленнее обещанного — не паникуйте, это норма.
Второе — используйте бенчмарки как ориентир, а не истину в последней инстанции. В статье "Gemma 4: разбор прорывной 31B модели" мы показывали, что стоимость инференса $0.20 за 1M токенов — это про облако, а не про локальный запуск с диффузией. DiffusionGemma на локальном RTX 3090 обойдётся вам в те же $0.20 за одну картинку, если считать по электричеству и износу.
Третье — проверьте community-форки. На Reddit уже появились патчи, которые режут precision до FP16, отключают ненужные слои и дают +40% скорости. Но стабильность — как повезёт.
Главный совет: не покупайте новую видеокарту ради DiffusionGemma, не протестировав её на своей задаче. Сначала запустите урезанную версию, убедитесь, что качество устраивает. И только потом — тратьте деньги.
Кстати, про деньги: в "Gemma 4 26B A4B: тестирование длинного контекста" мы обнаружили, что многие модели Gemma нестабильны при высокой загрузке памяти. DiffusionGemma — не исключение. При попытке генерации 1280x1280 она просто падает с segfault.
Короче, красивые цифры — это дешёвый способ продать модель. Реальная производительность — дорогой опыт, который вы получаете после того, как перепробовали все квантования и выключили всё лишнее в системе. Не верьте бенчмаркам. Верьте секундомеру.