В последнее время число нейросетей, генерирующих изображения, растет как на дрожжах. Но вот китайский техногигант Baidu заявляет, что его новый алгоритм ERNIE-ViLG ничуть не хуже популярных Stable Diffusion, Midjourney и DALL-E. Что ж, давайте проверим.
Чем примечательна нейросеть от Baidu?
Для начала — о названии. Аббревиатура ERNIE-ViLG расшифровывается как Enhanced Representation through Knowledge Integration — Vision Language Generation («расширенное представление за счет интеграции знаний — языковая генерация изображений»).
Судя по всему, алгоритм генерации ERNIE-ViLG очень похож на ту технологию, что использует Stable Diffusion. Однако отличает их прежде всего набор данных, использованных для обучения.
Примечательна новая китайская нейросеть прежде всего тем, что она бесплатна и никаких ограничений на генерацию изображений у нее нет. Более того, ее можно использовать и по API — прикрутить нейросеть к своему сервису или сайту не составит труда (кстати, у нас вы можете заказать сайт — прим. отдела продаж TexTerra). Протестировать демо-версию нейросети вы можете на сайте Hugging Face.
Но есть одно НО: этот алгоритм создан под китайских пользователей и, соответственно, настроен под генерацию изображений из описаний на китайском языке. В демо-версии вы, однако, можете ввести запрос на английском языке. Но, судя по всему, программа затем переводит его на китайский и из полученного словосочетания генерирует образ. Надеемся, что с английского на китайский программа переводит лучше, чем AliExpress с китайского на русский.
Как сгенерировать изображение в китайской нейросети
Вы и сами можете бесплатно и без регистрации сгенерировать изображение при помощи ERNIE-ViLG и оценить ее возможности. Для этого надо зайти на сайт проекта и просто набрать запрос на английском в единственной строке. После этого нажимаем Generate Image и ждем. Подождать придется прилично, но зато программа бесплатная и с неограниченным количеством попыток.
Внизу в разделе Examples можно посмотреть примеры фраз, которые можно задать программе, если вам в голову ничего не приходит. Большая часть из них на китайском, но попробовать перевести на русский или английский не составит труда.
Отдельно можно выбрать и стиль рисунка. Это, кстати, отличительная черта китайской нейросети — в большинстве подобных программ стиль вводится в сам запрос и алгоритм не всегда понимает, о чем идет речь. Стили представлены на китайском, но с переводом на английский в скобках. Из выпадающего списка вы можете выбрать нужный.
Наши результаты
Стоит сказать, что протестировать нейросеть мне удалось не сразу — поначалу в ответ на любой запрос программа выдавала ошибку. Позже, судя по всему, этот баг пофиксили и я смог сгенерировать несколько изображений. Один запрос взял из подсказок — «A cat with glasses» — и решил сделать его в стиле аниме. Вот что вышло:
По изображению косяков практически не заметно, однако я ведь задавал вопрос сгенерировать именно кота, а не «кошкодевочку». Во втором запросе решил снова попросить нейросеть сделать кота, но на этот раз с мечом и верхом на драконе (на обложке этой статьи вы можете посмотреть, как с этим заданием справилась DALL-E 2) в мультяшном стиле. Вот что показала китайская нейросеть:
В общем, вышло неплохо, но вопрос один: где дракон?
Еще один запрос пришел в голову спонтанно — я дал нейросети задачу сгенерировать «большое количество китайцев на Ноевом ковчеге» в стиле киберпанк. Получилось неплохо, но ни китайцев, ни Ноевого ковчега я не заметил:
В общем, по итогам теста можно сказать, что особой точностью китайская нейросеть не отличается. Скорее всего, гораздо лучшие результаты алгоритм сможет показать, если изначально задавать ему запросы на китайском — возможно, перевод с английского портит восприятие семантики языка. Не скажу, что ERNIE-ViLG хуже других подобных нейросетей, но уж точно не лучше.
Читайте также:
Есть ли в фотобанках работы нейросетей? Разбираемся
Нейросеть от DeviantArt возмутила художников. Она крадет их работы
Лучшие нейросети-2022 – сгенерят лицо, уберут фон, придумают логотип