Эта нейросеть понимает, что на картинке! – тест новинки от Alibaba

28 Август 2023

Время чтения: 11 минут

Новая языковая модель доступна бесплатно.

Китайская Alibaba Group, известная за пределами Китая прежде всего благодаря своему маркетплейсу AliExpress, выпустила языковую модель с необычной функцией: она легко понимает, что находится на изображении и может сравнивать картинки. Называется новая нейросеть Qwen-VL и воспользоваться ей можно бесплатно и без VPN.

Как работает нейросеть Alibaba

Подразделение китайского холдинга под названием Alibaba Cloud не так давно начало заниматься разработкой моделей искусственного интеллекта. Одним из первых достижений подразделения стали модели серии Qwen. Первой была языковая модель Qwen-7B с 7 млрд параметров — она выпущена месяц назад и, по результатам тестов Alibaba, по точности генерации превзошла даже модель Google Llama 2 с 13 миллиардами параметров.

На основе Qwen-7B Alibaba создала более совершенную модель под названием Qwen-VL. Она представляет собой мультимодальную нейросеть — то есть, способна воспринимать разные типы входных данных. Нейросеть представили в двух версиях — Qwen-VL и Qwen-VL-Chat. Вторая версия предназначена для более сложных диалогов — она способна сравнивать несколько изображений, решать уравнения и писать истории на основе присланных пользователями картинок.

Пока что в Qwen-VL можно вводить текст и изображения, которые она обрабатывает одинаково быстро и эффективно. В отличие от обычных языковых моделей, такие мультимодальные нейросети способны решать куда более широкий круг задач. Вот несколько примеров:

сравнение нескольких изображений;
анализ изображений, в том числе логотипов, фирменных стилей и сайтов;
анализ блок-схем и написание кода на их основе;
составление ТЗ на основе визуальных референсов;

Пока что модель Qwen-VL не может качественно справиться со всеми задачами. Но может, например, сказать, где находится то или иное здание с присланного вами изображения. Мы протестировали ее и рассказываем, на что способна нейросеть Alibaba.

Тест Qwen-VL-Chat

Мы решили попробовать в деле самую продвинутую версию Qwen-VL. Проще всего протестировать ее самостоятельно через сайт Model Scope. Сайт китайский, для использования нейросети вам предстоит зарегистрироваться на нем. В целом ничего сложного тут нет — вводим номер телефона, на который придет проверочный код, указываем свои учетные данные и пароль. После регистрации попадаем в интерфейс, аналогичный популярному нейросетевому хабу Hugging Face.

При желании вы можете установить Qwen-VL на свой компьютер самостоятельно. Инструкцию по установке и файлы можно найти в официальном репозитории модели на GitHub. Надо сказать, что на сайте Model Scope нейросеть работает довольно медленно: если генерация текста занимает не так много времени, то вот на загрузку изображения и ответ на вопрос по нему уйдет минимум 3-4 минуты.

Нейросеть неплохо генерирует тексты. Вот, например, что она ответила на запрос напиши текст про будущее искусственного интеллекта, пиши как профессиональный журналист, русский язык, избегай повторов, добавь интересные детали:

«Современное состояние искусственного интеллекта (AI) и его перспективы в ближайшее время

Сейчас искусственный интеллект (AI) является одной из самых熱门 и перспективных областей исследований. Мы наблюдаем rápida-progressия в области машинного обучения,自动식ineloop и других областях, что позволяет AI выполнять более сложные задачи, чем когда-либо.

Одной из наиболее интересных перспектив AI является возможность создания полностью интеллектуальных систем. Если в настоящее время мы можем создать системы, которые могут выполнить简单 задачи, например, определить, что в изображении - собака или кошка, полностью интеллектуальные системы смогут выполнять более сложные задачи, такие как решая проблемы, связанные с медициной или естественным языком.

Кроме того, AI может быть использован в различных областях, включая сельское хозяйство, энергетику, промышленность и другие области, которые могут быть улучшены с помощью AI. AI может быть использован для автоматизации процессов, повышения эффективности и улучшения качества жизни людей.

Однако, как и все новые технологии, AI также имеет свои недостатки. Существует возможность того, что AI будет использоваться в неправильных целях, например, в военной области. Также, существует возможность того, что AI будет использовать неправильные методы, чтобы достигнуть своих целей».

Мы намеренно ничего не меняли в тексте. Как видите, некоторые слова нейросеть пишет то на китайском, то на английском. Скорее всего, тут проблема в обучающей выборке: возможно, некоторых слов на русском языке нейросеть просто не знает, поэтому и вставляет более знакомые китайские слова.

С распознаванием объектов на изображении нейросеть справляется очень хорошо. Вот, например, как она описала знаменитый кадр с Лео Дикаприо из фильма «Великий Гэтсби»: «На этой фотографии изображен человек в костюме — Leonardo DiCaprio, — который играет в角色 Jay Gatsby. Гэбсби держит в руке glass of champagne. Он выходит из лофт-холла и настолько очаровывает всех, что они не замечают, что он - это Гэбсби».

Опять огрехи по языку, но суть верна! Со сравнением изображений чуть сложнее. Когда я предложил нейросети найти отличия между двумя картинками для детей, она ответила следующее:

«这两个图片的相同点是它们都是卡通画，画面都比较简洁生动。不同点是，图片1的主题是风车和猫，而图片2的主题是卡通人物彼得潘和温迪的孩子们». Если по-русски, то так: «сходство между этими двумя картинками заключается в том, что обе они являются мультфильмами, и картинки относительно простые и яркие.Разница в том, что тема рисунка 1 - ветряная мельница и кот, в то время как тема рисунка 2 - мультяшные персонажи Питер Пэн и дети Венди». А теперь посмотрите на сами картинки:

Смотреть галерею

Зато Alibaba есть куда стремиться!