Зачем этот тест? И почему промпт должен быть странным

К февралю 2026 года рынок генеративных моделей напоминает джунгли. Каждый месяц появляются новые названия, версии, обещания. "Наша нейросеть рисует лучше, чем художник-сюрреалист!" — кричат маркетологи. А на деле? Большинство моделей хорошо справляются с "котиком в шляпе" или "футуристичным городом". Это база. Это скучно.

Настоящая проверка — сложный, многослойный, сюрреалистичный запрос. Тот, где нужно удерживать в голове десяток объектов, их странные взаимодействия, абсурдную физику, эмоциональный настрой. Если модель проваливает такой промпт, её хваленый "понимание контекста" стоит не больше старого пикселя.

Критерий прост: я даю всем один и тот же промпт. Никаких тонких настроек, никаких "переформулируй запрос". Что выдали из коробки — то и получаете. Это имитирует реальную работу дизайнера или контент-мейкера, у которого нет времени на танцы с бубном.

Испытуемые: кто попал на нашу виртуальную арену

Я отобрал 12 моделей, которые либо лидируют по популярности, либо громко заявили о себе в 2025-2026 годах. Не все из них — самостоятельные продукты. Некоторые работают внутри крупных платформ или как open-source решения.

Нейросеть / Модель	Версия (на 04.02.2026)	Тип доступа	Особенность 2026 года
Midjourney	v7.2 (Alpha)	Discord / Web-панель	Режим "Хаотичная композиция" для сюрреализма
Nano Banano	Proteus-3	API, веб-интерфейс	Гибридная архитектура — диффузия + трансформер
OpenAI DALL-E	4 (с обновлением Jan 2026)	API, ChatGPT интерфейс	Встроенный "редактор абсурда" в ChatGPT
Stable Diffusion 3	5B параметров (Community Turbo)	Локально / Colab	Бесплатный, но требует настройки
Flux	2.0 (Pro)	API, Replicate	Скорость генерации — 2 секунды на картинку
Ideogram	2.5	Веб-сервис	Фокус на типографике внутри изображений
Adobe Firefly	v4 (интегрирован в Photoshop 2026)	Подписка Adobe	Бесшовная работа со слоями PS
Leonardo.AI	Phoenix-2	Веб-платформа	Гипернастройка стилей под игры
CogVideoX	5B (изначально видео, но есть режим фото)	API	Сила в динамичных, "кинематографичных" кадрах
Playground AI	v3 (на базе собственной модели)	Веб-сервис	Бесплатный тариф с лимитами
DeepFloyd IF	I2 (обновление Dec 2025)	Локально / платный хостинг	Лучшее в мире понимание текста внутри изображения
Krea AI	Real-Time v2	Веб-приложение	Генерация в реальном времени, пока вы печатаете

Заметьте — я не включил сюда чисто локальные модели вроде тех, что тестировались для работы на RTX 5090. Это отдельная история, требующая железа и времени. Здесь — сервисы, которые можно запустить за минуту.

Промпт-убийца: что мы заставляем рисовать нейросети

Я долго экспериментировал с разными странными запросами. В итоге остановился на этом:

Промпт: "Сюрреалистичная сцена в стиле Здзислава Бексиньского: механический архив будущего, где книги сделаны из светящегося стекла и хранятся в живых деревьях-полках. На переднем плане — робот-библиотекарь с лицом из старых часовых шестеренок, который грустно смотрит на разбитую книгу-бабочку. Вокруг парят символы утраченных языков, материализованные как геометрические призраки. Мрачная, но поэтичная атмосфера, детализация гиперреализм, контраст между холодным металлом и теплым свечением стекла."

Почему он сложный?

Стилевая отсылка: Бексиньский — польский сюрреалист с уникальной мрачно-органикой. Не просто "сюрреализм", а конкретный художник.
Конфликтующие материалы: Стекло (хрупкое, светящееся) + металл (холодный, твердый) + живые деревья (органические).
Абстрактные концепты: "Символы утраченных языков", "геометрические призраки" — как это визуализировать?
Эмоция: Робот, который грустит. Не просто стоит, а испытывает эмоцию.
Детализация: Лицо из часовых шестеренок, книга-бабочка, деревья-полки.

Это тот случай, когда тест на странном промпте показывает разницу между моделями как день и ночь.

Результаты: кто справился, кто облажался, кто удивил

Я запускал каждую модель три раза с одним промптом (где это позволяли кредиты/лимиты). Смотрю на лучшее из трех. Оценка — субъективная, но по четким критериям.

1 Лидеры: они поняли задачу

Midjourney v7.2 — предсказуемо силен. Его новый режим "Хаотичная композиция" будто создан для такого промпта. Книги из светящегося стекла получились фантастически — полупрозрачные, с внутренним свечением. Робот-библиотекарь действительно выглядел грустным за счет наклона "головы" и теней в "глазницах" из шестеренок. Деревья-полки были одновременно органичными и архитектурными. Минус один: символы языков превратились в просто парящие странные знаки, без "геометрической призрачности". Но атмосферу Бексиньского уловил лучше всех — мрачную, величественную, слегка пугающую.

Nano Banano Proteus-3старое сравнение с GPT Image — прогресс колоссальный.

Flux 2.0 Pro — король скорости и композиции. За 2 секунды она выдала картинку с безупречным чувством пространства. Архив будущего уходил в бесконечную перспективу, создавая ощущение масштаба. Контраст между холодным металлом и теплым свечением стекла был передан через цветовую температуру — синие тени на металле, оранжевое свечение изнутри книг. Где-то проиграла в деталях (шестеренки на лице робота были слишком простыми), но общее впечатление — кинематографичный кадр из дорогого аниме. Прямо просится в видеогенератор как ключевой кадр.

2 Середняки: что-то поняли, что-то проигнорировали

DALL-E 4 — разочаровал. Да, он идеально сгенерировал книги из стекла (почти фотографично). Да, робот был узнаваем как робот. Но где Бексиньский? Где мрачная, гнетущая атмосфера? Получилась чистая sci-fi иллюстрация, яркая, чистая, словно для обложки детской энциклопедии. "Символы утраченных языков" превратились в латинские и греческие буквы, просто парящие в воздухе. Эмоцию робота не уловил вообще. Создалось впечатление, что DALL-E 4 слишком заточен под коммерчески чистые, безопасные изображения. Сюрреализм ему дается только если он милый и нестрашный.

Stable Diffusion 3 (Community Turbo) — показал, почему open-source всё еще отстает. Без тонкой настройки промпта (добавления негативных промптов, весов) результат был средним. Деревья-полки получились хорошо, даже с текстурой коры. Но робот вышел карикатурным, а книга-бабочка выглядела как настоящая бабочка, лежащая на книге. Модель буквально поняла слова, но не поняла метафору. Зато — бесплатно. И если покопаться в бенчмарках open-source AI, можно найти Loras, которые исправят эти недостатки.

Adobe Firefly v4 — интересный кейс. В самом Photoshop он генерирует изображение по частям. Я сначала создал фон (архив), потом отдельно — робота, потом — книги. И затем собрал композицию. Результат? Технически безупречный. Детализация на уровне. Но... стерильный. Слишком "отретушированный", как стоковая фотография. Никакой души, никакой случайности, которая рождает искусство. Зато для дизайнера, которому нужно быстро создать assets для макета — идеально. Интеграция в PS — его суперсила.

3 Аутсайдеры: они не для сюрреализма

Ideogram 2.5 — специалист по тексту в картинках. И он попытался вставить символы языков... везде. На книгах, на деревьях, на роботе. Получилась каша из знаков. Сюрреализм потерялся.

Playground AI v3 — просто не справился со сложностью. Выдал красивую картинку библиотеки с деревьями, но робот был без деталей лица, книги — просто стеклянные кубы, про бабочку забыл. Как будто промпт был обрезан после первых 10 слов.

Krea AI Real-Time — его сила (генерация на лету) стала слабостью. Пока он пытался в реальном времени перерисовывать картинку под каждое новое слово промпта, он потерял целостность. Получился коллаж из непонятных объектов. Отличный инструмент для быстрых скетчей, но не для сложных сцен.

💡

Вывод по результатам: к 2026 году модели разделились на два лагеря. Первые — универсальные солдаты, которые стараются понять весь промпт целиком (Midjourney, Nano Banano). Вторые — специализированные инструменты, которые блестят в своей нише (Ideogram для текста, Flux для композиции, Firefly для дизайна), но проваливают комплексные задачи.

Технические нюансы, которые решают всё

Почему одна модель справилась, а другая — нет? Не только из-за параметров. Вот что я заметил:

Контекстное окно промпта. Старые модели "читали" первые 50-70 слов, остальное игнорировали. В 2026 лидеры (Midjourney v7.2, Nano Banano) явно используют весь промпт, включая эмоциональные описания в конце. DALL-E 4, кажется, всё еще обрезает.
Понимание метафор. "Книга-бабочка" — для слабых моделей это книга рядом с бабочкой. Для сильных — книга, у которой страницы похожи на крылья бабочки, и она "разбита" как насекомое. Это уровень семантического понимания, а не просто связь слов.
Стилевая согласованность. Легко нарисовать "что-то в стиле Бексиньского" — темные тона, странные формы. Но уловить его характерную перспективу, искажение пространства, смешение органики и техники — это другой уровень. Только 3-4 модели из 12 справились.

Интересно, что ни одна модель не справилась с задачей "анализа сотен изображений" для создания своей сцены — но это уже задача для мультимодальных аналитических моделей, а не генеративных.

Так какую нейросеть выбрать в 2026?

Всё зависит от задачи. Но если обобщить:

Для чего нужно	Лучший выбор	Почему
Сложный сюрреализм, арт, концепт-арт	Nano Banano Proteus-3 или Midjourney v7.2	Лучшее понимание контекста, метафор, эмоций. Nano Banano чуть лучше с деталями, Midjourney — с атмосферой.
Быстрая генерация для соцсетей, иллюстрации	Flux 2.0 Pro	2 секунды против 10-15 у других. Композиция всегда на уровне.
Коммерческий дизайн, работа в Photoshop	Adobe Firefly v4	Бесшовная интеграция. Техническое качество. Для клиентов, которые любят "чистоту".
Бесплатные эксперименты, open-source	Stable Diffusion 3 + кастомные Loras	Бесплатно, но нужно время на настройку. Сообщество создало Loras под любой стиль.
Текст внутри изображений	Ideogram 2.5 или DeepFloyd IF I2	Идеально для постеров, логотипов, где текст — часть композиции.

DALL-E 4? Если вы уже в экосистеме OpenAI и вам нужны безопасные, чистые изображения без сюрпризов. Для творческого безумия — есть варианты лучше.

Что будет дальше? Прогноз на 2027

Глядя на эволюцию с 2024 к 2026, я вижу две четкие тенденции:

Специализация. Универсальных моделей-монстров будет меньше. Вместо этого появятся узкие инструменты: для сюрреализма, для типографики, для 3D-рендера, для аниме. Как агентные VLM, но для генерации.
Контекст — король. Победят модели, которые понимают не просто слова, а культурные коды, отсылки, эмоциональные нюансы. Промпт "в стиле Бексиньского" будет обрабатываться не через фильтр "темные цвета + странные формы", а через анализ сотен его картин и выявление паттернов.
Мультимодальность на входе. Зачем описывать словами, если можно загрузить референс-фотографию, эскиз от руки, музыкальный трек для настроения и текстовый промпт? Модель 2027 года будет принимать всё это и синтезировать.

А пока — тестируйте на сложных промптах. Не доверяйте маркетингу. И помните: нейросеть, которая идеально рисует котиков, может полностью провалить книгу-бабочку в архиве из светящегося стекла.

12 нейросетей для картинок в 2026: кто нарисует сюрреалистичный кошмар по одному промпту