Первую версию Kandinsky Сбер показал в июне. За прошедшие месяцы продвинутая (на тот момент) нейросеть стала просто рядовым алгоритмом генерации изображений. Но вторая версия не заставила себя ждать — и тут Сбер нас реально удивил.
Что изменилось в нейросети Kandinsky?
Kandinsky 2.0 был представлен на конференции AI Journey, которая прошла 23-24 ноября. Главным нововведением, на котором Сбер акцентировал внимание, была функция генерации изображений по описаниям на 101 языке. Российская технокомпания также заявила, что нейросеть способна создавать изображения одинаково легко и быстро вне зависимости от того, на каком языке задан запрос.
Это впечатляющая функция, учитывая, что большинство современных нейросетей заточены лишь под английский язык. Среди немногих исключений китайская ERNIE-ViLG и адаптированные под различные языки аналоги Midjourney и Stable Duffusion.
Попробовать нейросеть от Сбера в работе можно на сайте проекта Fusion Brain. Помимо, собственно, нейросети Kandinsky 2.0, на нем можно увидеть нейросеть Style Transfer. Об этом алгоритме мы расскажем чуть ниже — он заслуживает внимания. А пока — тестируем Кандинского!
Картины нейросети Kandinsky 2.0
Заходим в нейросеть Kandinsky 2.0 и что мы видим? Удобный и красивый интерфейс, который не идет ни в какое сравнение с дискорд-ботом Midjourney или интерфейсом Hugging Face – сервисом, на котором размещают свои алгоритмы разработчики других нейросетей.

Интерфейс нейросети Kandinsky 2.0
Кнопки в верхнем левом углу позволяют передвигать изображение, загружать фото с компьютера и стирать части изображения при помощи ластика (его размер регулируется ползунком).
В нижнем левом углу можно выбрать стиль, в котором будет создаваться изображение, а в верхнем правом есть инструменты для отмены действий и скачивания результата работы нейросети.
Первый наш запрос был такой: «огромный кот в океане играет кораблями». В нижнем углу выбрали стиль «Айвазовский». С генерацией картинки Kandinsky 2.0 справился очень быстро. Но результат был не совсем тот, который мы ожидали:

На стиль Айвазовского не очень-то похоже
Стиль 3D-рендер тоже не особенно меня удовлетворил:

Нейросеть от Сбера не справилась
Дали нейросети еще один шанс и попросили сгенерировать «космос в дырке унитаза». И опять она, кажется, не попала:

Унитаз видно, но ведь это он в космосе, а не космос в нем!
Во втором тесте решили проверить заявленную способность нейросети генерировать изображения по описаниям на сотне языков (простите – на 101!). Для этого задали ей фразу «лапы кота на снегу» на корейском и испанском. Вот что выдал корейский вариант:

Так нейросеть от Сбера видит лапы кота на снегу
Сбер, пожалуйста, добавь в обучающую выборку больше котиков! А то получается что-то страшное. Испанский вариант оказался чуть лучше, но тоже не совсем то:

Так нейросеть от Сбера видит лапы кота на снегу
Как объединить два изображения в нейросети
Вторая нейросеть Сбера Style Transfer позволяет объединять два изображения в одно. Строго говоря, этот алгоритм лишь берет стиль одного изображения и перекладывает его на загруженное вами.
В качестве примера мы взяли сгенерированное «Кандинским» изображения «лапок на снегу» и применили к нему один из стилей. Вот что вышло:

Мне понравилось, и я решил погенерировать еще несколько картинок. Вот другой результат:

В целом, смотрится неплохо, но опять же — точность оставляет желать лучшего.
Резюме
Нейросеть Kandinsky 2.0 поражает скоростью работы — она генерирует изображение за 10 секунд, и это супер. Но, вероятно, из-за маленького количества шагов, точность распознавания страдает. Возможно, Сбер улучшит алгоритм и даст возможность генерировать более точные результаты. А пока это лишь перспективный проект с хорошим UX-дизайном.
Читайте также:
Выставка с картинами от нейросети DALL-E: как вам такое?
Есть ли в фотобанках работы нейросетей? Разбираемся
Нейросеть от DeviantArt возмутила художников. Она крадет их работы