Midjourney, Dalle 2, Stable Diffusion… Многие уже слышали эти названия. Но нейросетей для генерации визуального контента намного больше! Мы проверили, как самые известные справляются с созданием картинок по англоязычному промту, и выбрали лидеров. Чтобы сравнение было максимально корректным, использовали три категории изображений: фото человека, предметную фотографию и создание фантастического существа в необычном антураже. А также два типа промтов — краткие и подробные.
Какие нейросети включили в тестирование?
- Midjourney (версия 5.2)
- Stable Diffusion (модель SDXL v1.0)
- Blue Willow
- Starryai
- Шедеврум
- Dalle-2
- Dream by Wombo
- Kandinsky 2.0
Кто в него не попал?
- Все нейросети, работающие на различных версиях Stable Diffusion, так как результаты не имеют принципиальных отличий между собой.
- Нейросети, заточенные под выполнение одной задачи, например создание лиц, такие как Artbreeder.
- И, наконец, те нейросети, чьи результаты не тянут даже на приемлемые, например Craiyon.
Дополнительные ограничения
Мы использовали базовое соотношение сторон, предлагаемое нейросетями. Чаще всего это было 1:1, но не только. Еще одним ограничением было количество генераций. Для получения результата было сделано не более 1 генерации с 4 вариантами результатов.
Фото девушки по простому промту
Используем простейший промт:
photo of a young woman
А теперь сравниваем результаты.
Midjourney

Stable Diffusion

Blue Willow


starryai

Шедеврум

Dalle-2

Dream by Wombo

Kandinsky 2.0

В этом раунде неплохо проявили себя все нейросети. При этом Blue Willow дала максимальный разброс вариантов, а Шедеврум и Dalle 2 продемонстрировали оригинальные типажи. А вот Midjourney, Stable Diffusion и Кандинский сделали максимально реалистичные фото.
Фото женщины по сложному промту
Используем длинный промт, чтобы сделать фото длинноволосой монгольской женщины, одетой в красный лонгслив, сидящей на кухне и пьющей кофе:
Narrative lifestyle photo, medium-full, front view of a 48-year-old long-haired Mongolian woman sitting in her kitchen wearing a long-sleeve red top and looking very happy and smiling with her high quality cup of coffee she's drinking
Midjourney

Stable Diffusion

Blue Willow

starryai

Шедеврум

Dalle-2

Dream by Wombo

Kandinsky 2.0

Проблема с руками, увы, до сих пор остается у большинства нейросетей. Меньше всего замечаний тут у Midjourney, но еще хочется отметить неплохую работу starryai. Да, она сменила цвет и тип одежды, но в целом получилось очень неплохо.
Предметная фотография
Возьмем в качестве объекта бутылку вина и посмотрим на результат. Промт:
product photo of a white wine bottle
Midjourney

Stable Diffusion

Blue Willow

starryai

Шедеврум

Dalle-2

Dream by Wombo

Kandinsky 2.0

Midjourney, Шедеврум и Blue Willow создали изображения, радующие взгляд. Dream by Wombo, Stable Diffusion и Kandinsky тоже постарались, но не дотянули. А вот starryai и Dalle 2 не справились с задачей.
При этом стоит заметить, что когда мы генерируем изображения человека, то самой сложной частью для нейросетей являются руки, а когда работаем с предметной фотографией, то сложность представляют надписи. Пока что возможности нейросетей позволяют создавать лишь наборы букв, напоминающие реальные слова.
Предметная фотография по сложному промту
Попробуем сделать фотографию красной помады на фоне разлетающейся красной пыли:
Commercial photography, powerful explosion of red dust, designer lipstick, white lighting, white background, high resolution photography, motion blur
Midjourney

Stable Diffusion

Blue Willow

starryai

Шедеврум

Dalle-2

Dream by Wombo

Kandinsky 2.0

Midjourney и Stable Diffusion справились с поставленной задачей лучше всех. Dream by Wombo и Шедеврум тоже выдали неплохой результат, а вот остальные не порадовали.
Сказочное существо
Ну а теперь от фотографий перейдем к творчеству и предложим нейросетям создать милое существо:
sweet fantastic creature made full of diamonds
Midjourney

Stable Diffusion

Blue Willow

starryai

Шедеврум

Dalle-2

Dream by Wombo

Kandinsky 2.0

Оценка результатов данного этапа будет очень субъективной, но мне больше всего понравилось то, что получилось у Midjourney и Kandinsky.
Сказочное существо в необычном окружении
Попробуем посмотреть, что создадут нейросети, получив задачу изобразить человекообразного чат-бота на фоне средневековой улицы:
movie scene from film about anthropomorphic chatbot, an old street in a medieval in the background, spatial perspective concept art
Midjourney

Stable Diffusion

Blue Willow

starryai

Шедеврум

Dalle-2

Dream by Wombo

Kandinsky 2.0

Тройка лидеров – Midjourney, Stable Diffusion и starryai. Шедеврум тоже создал неплохой результат, и мог бы попасть в лидеры, если бы он был в цвете.
Итоги
Midjourney – справляется со всем и всегда. Единственный минус этой нейросети – невозможность бесплатного использования.
Хорошей альтернативой станет Stable Diffusion или Шедеврум.
Blue Willow, Starryai и Kandinsky могут выдать неожиданно удачный результат, но далеко не по всем запросам.
А вот Dalle 2 и Dream by Wombo пока оставляют желать лучшего.
Но если вам нужно создать логотип или разработать фирменный стиль, то на нейросети пока полагаться рано. Обращайтесь к профессионалам, поможем!
Читайте также:
Нейросеть Midjourney: полный гайд по созданию фото
Гайд – реалистичные изображения и их обработка в Stable Diffusion
Как составлять запросы к нейросетям: примеры, настройки, параметры