Зачем тестировать на стеклянном бегемоте?
Потому что все уже устали от "реалистичной фотографии кота в шляпе". Или от "футуристического города в стиле киберпанк". Эти промпты стали настолько предсказуемыми, что модели их заучили как таблицу умножения. Они генерируют идеальные, скучные картинки, которые ничего не говорят о реальных возможностях движка.
Стеклянный бегемот - это проверка на вшивость. Модель должна понять сразу несколько сложных концептов:
- Форма бегемота (крупное животное с характерными пропорциями)
- Материал - стекло (прозрачность, блики, преломление света)
- Внутренняя структура (что видно сквозь стекло?)
- Физические свойства (хрупкость, вес)
- Контекст (где стоит стеклянный бегемот?)
Если модель справляется с этим - она действительно умная. Если нет - она просто умеет комбинировать заученные паттерны.
Важный момент: я тестировал все модели 28 января 2026 года. Версии самые свежие, какие только были доступны. Если вы читаете это позже - некоторые результаты могли устареть. Особенно это касается open-source моделей, которые обновляются каждые пару месяцев.
Методология: как мы тестировали
Одинаковый промпт для всех: "A glass hippopotamus standing in a museum, intricate details, photorealistic, studio lighting, 8k". Никаких дополнительных настроек, если модель их не требует по умолчанию. Размер изображения - максимальный доступный в бесплатном режиме или 1024x1024 для моделей, где можно выбрать.
Каждой модели дали 3 попытки. В таблице - лучший результат.
| Модель | Версия (2026) | Тип | Оценка | Что получилось |
|---|---|---|---|---|
| Midjourney | v7.2 | Проприетарная | 9/10 | Идеальный стеклянный бегемот с бликами и внутренними пузырьками |
| DALL-E 3 | Через ChatGPT-5 | Проприетарная | 8/10 | Хороший бегемот, но стекло выглядит как пластик |
| Flux.2 Pro | 1.2 | Open-source | 8.5/10 | Отличная детализация, но странные пропорции |
| Stable Diffusion 3.5 | Turbo | Open-source | 7/10 | Узнаваемый бегемот, но стекло матовое |
| Nano Banano Ultra | 2026 Edition | Проприетарная | 6.5/10 | Интересная стилизация, но мало похоже на стекло |
| GLM-Image V2 | 3B | Open-source | 5/10 | Бегемот как бегемот, материал не угадан |
| Playground v3 | 2026 | Проприетарная | 7.5/10 | Хорошее стекло, но бегемот слишком стилизованный |
| Ideogram 2.0 | Pro | Проприетарная | 6/10 | Отличный текст (табличка в музее!), но бегемот кривой |
| Firefly 2026 | Creative Suite | Проприетарная | 5.5/10 | Слишком "безопасный" дизайн, скучно |
| Leonardo Phoenix | XL | Проприетарная | 7/10 | Красиво, но больше похоже на хрусталь, чем на стекло |
| Fooocus 2026 | (на SD 3.5) | Open-source UI | 7/10 | Зависит от модели, но с правильными лорами - хорошо |
| ComfyUI + Flux | Последняя сборка | Open-source | 8/10 | Гибкость настройки дает лучший контроль |
Победитель: Midjourney v7.2 (но с оговорками)
Да, скучно. Предсказуемо. Но факт остается фактом - у Midjourney получился самый убедительный стеклянный бегемот. Не просто объект из стекла, а именно бегемот, сделанный из стекла. Видны внутренние дефекты материала, пузырьки воздуха, блики от студийного света падают именно так, как должны падать на глянцевую прозрачную поверхность.
Но вот что бесит: Midjourney до сих пор заточен под "красивые картинки". Если вам нужна техническая иллюстрация или что-то специфичное - будет сложно. И да, подписка стоит как небольшой автомобиль. Ну, почти.
Внимание: Midjourney v7.2 в январе 2026 все еще не умеет генерировать текст на изображениях. Вообще. Совсем. Для таблички "Стеклянный бегемот, 2026" в музее придется использовать другую модель или дорисовывать в фотошопе.
Сюрприз года: Flux.2 Pro
Open-source модель, которая по качеству почти догнала Midjourney. Ключевое слово - почти. Детализация потрясающая, особенно если запускать на хорошем железе. В нашем тесте FLUX.2 Klein 9B показывала невероятную скорость на RTX 4090, но для Pro-версии нужна более серьезная видеокарта.
Проблема Flux.2 Pro в 2026: странные артефакты на границах объектов. Бегемот получился классный, но вокруг него какая-то дымка. Как будто модель не уверена, где заканчивается объект и начинается фон.
DALL-E 3: стабильно, но скучно
Через ChatGPT-5 DALL-E 3 генерирует вполне приличные изображения. Но создается ощущение, что модель слишком заботится о безопасности. Стеклянный бегемот? Без проблем! Но он будет выглядеть как детская игрушка, а не как музейный экспонат. Никаких острых краев, ничего, что могло бы кого-то напугать.
Плюс: отличное понимание контекста. Музей получился именно как музей, с правильным освещением, постаментом, даже тени падают правильно.
Nano Banano Ultra 2026: разочарование
После хайпа вокруг сравнения GPT Image и Nano Banana в 2025, я ожидал большего. Но нет. Модель генерирует интересные, стилизованные изображения, но с конкретными техническими заданиями не справляется. Стекло? Скорее, "что-то блестящее". Бегемот? "Что-то большое и округлое".
Зато если нужна абстрактная иллюстрация для стартапа - Nano Banano вне конкуренции. Все такое гладкое, минималистичное, в духе Apple.
Open-source темная лошадка: GLM-Image V2
Китайская модель, которая, как мы писали в обзоре GLM-Image, отлично работает на альтернативном железе. Для стеклянного бегемота - не самый лучший выбор. Но если нужно сгенерировать изображение с текстом на китайском языке, да еще и на сервере без NVIDIA - это ваш вариант.
Бегемот получился... обычным. Не стеклянным. Зато музейная табличка с иероглифами выглядела аутентично.
Stable Diffusion 3.5 Turbo: для тех, кто любит контролировать процесс
SD3.5 - это не просто модель, это экосистема. Лоры, контролнеты, кастомные тренировки. Стеклянный бегемот из коробки получился средненьким. Но если взять лору "glass texture" и добавить контролнет для точной позы - результат будет не хуже Midjourney.
Проблема в том, что нужно разбираться. Глубоко разбираться. Не каждый готов потратить неделю на изучение нюансов, чтобы сгенерировать одну картинку.
Что выбрать в 2026 году?
Зависит от задачи. Серьезно. Вот мой субъективный гайд:
- Для коммерческой работы, когда важен результат, а не процесс: Midjourney. Дорого, но надежно.
- Для экспериментов и кастомных проектов: Flux.2 Pro через ComfyUI. Нужно мощное железо, зато полный контроль.
- Для интеграции в продукты: DALL-E 3 API. Стабильно, предсказуемо, хорошая документация.
- Для локального запуска без интернета: Stable Diffusion 3.5 с подходящими лорами. Особенно если у вас свежая RTX, как в нашем сравнении моделей на RTX 5090.
- Для арта и абстракций: Nano Banano или Leonardo. Красиво, стильно, но не для технических заданий.
Тренды 2026: куда движется индустрия
После теста со стеклянным бегемотом стало очевидно несколько вещей:
- Конвергенция качества. Разрыв между проприетарными и open-source моделями сокращается. Flux.2 Pro это доказал.
- Специализация. Универсальных моделей больше нет. Есть модели для фотореализма, для арта, для текста в изображениях, для 3D.
- Контроль важнее качества. Пользователи готовы пожертвовать немного качеством ради возможности точно настроить результат. Отсюда популярность ComfyUI и подобных систем.
- Аппаратная независимость. Модели вроде GLM-Image показывают, что можно достигать хороших результатов без гигантских GPU-ферм. Возможно, скоро увидим реализацию идей из статьи про термодинамические вычисления.
Самый важный вывод
Не существует "лучшей модели". Существует "лучшая модель для вашей конкретной задачи".
Стеклянный бегемот это показал. Midjourney сделал самый красивый бегемот. DALL-E 3 - самый безопасный. Flux - самый детализированный. GLM-Image - самый аппаратно-независимый.
Поэтому прежде чем выбирать модель, задайте себе вопросы:
- Что важнее: качество или контроль?
- Где будет работать: в облаке или локально?
- Каков бюджет: бесплатно, подписка, разовая оплата?
- Нужна ли интеграция с другими инструментами?
- Важна ли скорость генерации?
И только потом тестируйте. На своем промпте. На своей задаче. Потому что стеклянный бегемот - это весело, но ваши реальные задачи наверняка другие.
P.S. Если интересно, как эти же модели справляются с генерацией 3D-моделей для печати - посмотрите наш эксперимент "Напечатай на коленке". Там результаты еще интереснее.