Первую версию Kandinsky Сбер показал в июне 2022 года. За прошедшие месяцы продвинутая (на тот момент) нейросеть стала рядовым алгоритмом генерации изображений. Второй версией Сбер реально удивил, а версией 2.1 – еще больше.
Какой была версия Kandinsky 2.0?
Нейросеть Kandinsky 2.0 была представлена на конференции AI Journey, которая прошла 23-24 ноября. Главным нововведением, на котором Сбер акцентировал внимание, была функция генерации изображений по описаниям на 101 языке. Российская компания также заявила, что нейросеть способна создавать изображения одинаково легко и быстро вне зависимости от того, на каком языке задан запрос.
Это впечатляющая функция, учитывая, что большинство современных нейросетей заточены под английский язык. Среди немногих исключений китайская ERNIE-ViLG и адаптированные под различные языки аналоги Midjourney и Stable Duffusion.
Попробовать нейросеть от Сбера в работе можно на сайте проекта Fusion Brain.
Картины нейросети Kandinsky 2.0
Заходим в нейросеть Kandinsky 2.0 и что мы видим? Удобный и красивый интерфейс, который не идет ни в какое сравнение с дискорд-ботом Midjourney или интерфейсом Hugging Face – сервисом, на котором размещают свои алгоритмы разработчики других нейросетей.

Кнопки в верхнем левом углу позволяют передвигать изображение, загружать фото с компьютера и стирать части изображения при помощи ластика (его размер регулируется ползунком).
В нижнем левом углу можно выбрать стиль, в котором будет создаваться изображение, а в верхнем правом есть инструменты для отмены действий и скачивания результата работы нейросети.
Мы тестировали версию 2.0 на 5 запросах:
- огромный кот в океане играет кораблями. Стиль «Айвазовский»
- огромный кот в океане играет кораблями. Стиль 3D-рендер
- космос в дырке унитаза. Без стиля
- лапы кота на снегу (на корейском)
- лапы кота на снегу (на испанском)
Первыми двумя запросами проверяли стилизацию, третий использовали для проверки «мышления» нейросети, а последние два для проверки того, так ли хорошо нейросеть понимает иностранные языки, как это было заявлено. Что нам выдала версия 2.0 по этим запросам — смотрите в галерее ниже:
Все это смотрится на уровне первой версии Midjourney или Stable Diffusion. В целом версия 2.0 понимала другие языки и даже некоторые образы, но стили и понимание расположения объектов ей давались плохо.
В апреле 2023 года Сбер выкатил улучшенную версию своей нейросети. Мы протестировали Kandinsky 2.1 — и это просто прорыв.
Картины нейросети Kandinsky 2.1
Сначала мы решили протестировать те же 5 запросов, что давали версии 2.0 ранее. Что выдала в ответ версия 2.1 — смотрите в галерее ниже:
Впечатляет! Kandinsky 2.1 стал намного лучше понимать запросы и соответствовать стилям художников. Правда, похоже, немного растерял понимание иностранных языков — на запрос «лапы кота на снегу» на корейском языке алгоритм сгенерировал какой-то город в ОАЭ.
Мы вдохновились и попробовали более сложный запрос, чтобы сравнить его с генерацией Midjourney: красочный пейзаж с оленем в горах, в стиле граненых форм, реалистичные иллюстрации птиц, яркие цвета, темно-голубой и янтарный, сцены на открытом воздухе, плоская перспектива, детализированные узоры, яркие цветовые градиенты.
Ниже — сравнение результатов работы Kandinsky 2.1 и Midjourney:

В чем-то нейросеть от Сбера даже превзошла Midjourney — например, она создала это изображение меньше чем за 20 секунд (Midjourney в среднем требуется на меньше 40 секунд в режиме fast). Да и детали у Kandinsky прорисованы лучше, хотя в целом композиция у Midjourney получилась органичнее. Правда, нейросеть от «Сбера» поместила птиц на невидимые ветки, а некоторым пририсовала рога.
Шедевры Kandinsky 2.2
12 июля Сбер снова обновил нейросеть Kandinsky. Она стала еще понятливее — запросы исполняются неукоснительно и довольно точно. Также разработчики добавили новые стили — теперь можно и в киберпанке генерировать, и в реалистичном фотографическом стиле.
Но самое главное — теперь на этапе перед генерацией можно выбрать размер изображения, а точнее — соотношение сторон. Можно сделать 16:9, и у вас будет горизонтальная картинка для сайта, а можно поставить 9:16 и получить вертикальное изображение для поста в соцсети. В общем, смотрите, любуйтесь и пробуйте сами:
Одна из самых интересных функций обновленного «Кандинского» — подобие Zoom Out от MidJourney: можно наложить на сгенерированное изображение рамку, ввести запрос и нейросеть дорисует картинку в нужной части. Получается пока не идеально, но уже очень-очень неплохо. Вот, например, что мне удалось сгенерировать в 4 подхода:

Читайте также:
Выставка с картинами от нейросети DALL-E: как вам такое?
Есть ли в фотобанках работы нейросетей? Разбираемся
Нейросеть от DeviantArt возмутила художников. Она крадет их работы