У вас бизнес в сфере досуга? Приведем вам клиентов!

У вас бизнес в сфере досуга? Приведем вам клиентов!

Подробнее
mail@texterra.ru
Заказать звонок
Заказать услугу
Позвонить: 8 (800) 775-16-41
Связаться со мной

Сбер обновил свою нейросеть – тест Kandinsky 2.0

Она способна генерировать изображения по описаниям за 10 секунд! Но получается… неоднозначно.

Сбер обновил свою нейросеть – тест Kandinsky 2.0
Дата публикации: 25 ноября 2022
Никита Шевцев
6 339
Время чтения: 4 минуты
Сбер обновил свою нейросеть – тест Kandinsky 2.0 Редакция «Текстерры»
Редакция «Текстерры»

Первую версию Kandinsky Сбер показал в июне. За прошедшие месяцы продвинутая (на тот момент) нейросеть стала просто рядовым алгоритмом генерации изображений. Но вторая версия не заставила себя ждать — и тут Сбер нас реально удивил.

Что изменилось в нейросети Kandinsky?

Kandinsky 2.0 был представлен на конференции AI Journey, которая прошла 23-24 ноября. Главным нововведением, на котором Сбер акцентировал внимание, была функция генерации изображений по описаниям на 101 языке. Российская технокомпания также заявила, что нейросеть способна создавать изображения одинаково легко и быстро вне зависимости от того, на каком языке задан запрос.

Это впечатляющая функция, учитывая, что большинство современных нейросетей заточены лишь под английский язык. Среди немногих исключений китайская ERNIE-ViLG и адаптированные под различные языки аналоги Midjourney и Stable Duffusion.

Попробовать нейросеть от Сбера в работе можно на сайте проекта Fusion Brain. Помимо, собственно, нейросети Kandinsky 2.0, на нем можно увидеть нейросеть Style Transfer. Об этом алгоритме мы расскажем чуть ниже — он заслуживает внимания. А пока — тестируем Кандинского!

Картины нейросети Kandinsky 2.0

Заходим в нейросеть Kandinsky 2.0 и что мы видим? Удобный и красивый интерфейс, который не идет ни в какое сравнение с дискорд-ботом Midjourney или интерфейсом Hugging Face – сервисом, на котором размещают свои алгоритмы разработчики других нейросетей.

Kandinsky 2.0

Интерфейс нейросети Kandinsky 2.0

Кнопки в верхнем левом углу позволяют передвигать изображение, загружать фото с компьютера и стирать части изображения при помощи ластика (его размер регулируется ползунком).

В нижнем левом углу можно выбрать стиль, в котором будет создаваться изображение, а в верхнем правом есть инструменты для отмены действий и скачивания результата работы нейросети.

Первый наш запрос был такой: «огромный кот в океане играет кораблями». В нижнем углу выбрали стиль «Айвазовский». С генерацией картинки Kandinsky 2.0 справился очень быстро. Но результат был не совсем тот, который мы ожидали:

Кот играет кораблями

На стиль Айвазовского не очень-то похоже

Стиль 3D-рендер тоже не особенно меня удовлетворил:

Кот играет кораблями

Нейросеть от Сбера не справилась

Дали нейросети еще один шанс и попросили сгенерировать «космос в дырке унитаза». И опять она, кажется, не попала:

Нейросеть Сбера

Унитаз видно, но ведь это он в космосе, а не космос в нем!

Во втором тесте решили проверить заявленную способность нейросети генерировать изображения по описаниям на сотне языков (простите – на 101!). Для этого задали ей фразу «лапы кота на снегу» на корейском и испанском. Вот что выдал корейский вариант:

лапы кота на снегу

Так нейросеть от Сбера видит лапы кота на снегу

Сбер, пожалуйста, добавь в обучающую выборку больше котиков! А то получается что-то страшное. Испанский вариант оказался чуть лучше, но тоже не совсем то:

лапы кота на снегу

Так нейросеть от Сбера видит лапы кота на снегу

Как объединить два изображения в нейросети

Вторая нейросеть Сбера Style Transfer позволяет объединять два изображения в одно. Строго говоря, этот алгоритм лишь берет стиль одного изображения и перекладывает его на загруженное вами.

В качестве примера мы взяли сгенерированное «Кандинским» изображения «лапок на снегу» и применили к нему один из стилей. Вот что вышло:

Совмещение изображений

Мне понравилось, и я решил погенерировать еще несколько картинок. Вот другой результат:

Совмещение изображений

В целом, смотрится неплохо, но опять же — точность оставляет желать лучшего.

Резюме

Нейросеть Kandinsky 2.0 поражает скоростью работы — она генерирует изображение за 10 секунд, и это супер. Но, вероятно, из-за маленького количества шагов, точность распознавания страдает. Возможно, Сбер улучшит алгоритм и даст возможность генерировать более точные результаты. А пока это лишь перспективный проект с хорошим UX-дизайном.

Читайте также:

Выставка с картинами от нейросети DALL-E: как вам такое?

Есть ли в фотобанках работы нейросетей? Разбираемся

Нейросеть от ​​DeviantArt возмутила художников. Она крадет их работы

Оглавление

© «TexTerra», при полном или частичном копировании материала ссылка на первоисточник обязательна.
Нашли ошибку в тексте? Выделите нужный фрагмент и нажмите ctrl + enter.

Закажите бесплатную консультацию

Оставьте свои контакты,
мы свяжемся с вами в ближайшее время.

Ошибка заполнения!