Главная Блог Texterra Эта нейросеть понимает, что на картинке! – тест новинки от Alibaba

Эта нейросеть понимает, что на картинке! – тест новинки от Alibaba

Новая языковая модель доступна бесплатно.

Новости Нейросети

Дата публикации: 28 авг 2023

6 минут

5 000

Китайская Alibaba Group, известная за пределами Китая прежде всего благодаря своему маркетплейсу AliExpress, выпустила языковую модель с необычной функцией: она легко понимает, что находится на изображении и может сравнивать картинки. Называется новая нейросеть Qwen-VL и воспользоваться ей можно бесплатно и без VPN.

Как работает нейросеть Alibaba

Подразделение китайского холдинга под названием Alibaba Cloud не так давно начало заниматься разработкой моделей искусственного интеллекта. Одним из первых достижений подразделения стали модели серии Qwen. Первой была языковая модель Qwen-7B с 7 млрд параметров — она выпущена месяц назад и, по результатам тестов Alibaba, по точности генерации превзошла даже модель Google Llama 2 с 13 миллиардами параметров.

На основе Qwen-7B Alibaba создала более совершенную модель под названием Qwen-VL. Она представляет собой мультимодальную нейросеть — то есть, способна воспринимать разные типы входных данных. Нейросеть представили в двух версиях — Qwen-VL и Qwen-VL-Chat. Вторая версия предназначена для более сложных диалогов — она способна сравнивать несколько изображений, решать уравнения и писать истории на основе присланных пользователями картинок.

Пока что в Qwen-VL можно вводить текст и изображения, которые она обрабатывает одинаково быстро и эффективно. В отличие от обычных языковых моделей, такие мультимодальные нейросети способны решать куда более широкий круг задач. Вот несколько примеров:

сравнение нескольких изображений;
анализ изображений, в том числе логотипов, фирменных стилей и сайтов;
анализ блок-схем и написание кода на их основе;
составление ТЗ на основе визуальных референсов;

Пока что модель Qwen-VL не может качественно справиться со всеми задачами. Но может, например, сказать, где находится то или иное здание с присланного вами изображения. Мы протестировали ее и рассказываем, на что способна нейросеть Alibaba.

Тест Qwen-VL-Chat

Мы решили попробовать в деле самую продвинутую версию Qwen-VL. Проще всего протестировать ее самостоятельно через сайт Model Scope. Сайт китайский, для использования нейросети вам предстоит зарегистрироваться на нем. В целом ничего сложного тут нет — вводим номер телефона, на который придет проверочный код, указываем свои учетные данные и пароль. После регистрации попадаем в интерфейс, аналогичный популярному нейросетевому хабу Hugging Face.

При желании вы можете установить Qwen-VL на свой компьютер самостоятельно. Инструкцию по установке и файлы можно найти в официальном репозитории модели на GitHub. Надо сказать, что на сайте Model Scope нейросеть работает довольно медленно: если генерация текста занимает не так много времени, то вот на загрузку изображения и ответ на вопрос по нему уйдет минимум 3-4 минуты.

Нейросеть неплохо генерирует тексты. Вот, например, что она ответила на запрос напиши текст про будущее искусственного интеллекта, пиши как профессиональный журналист, русский язык, избегай повторов, добавь интересные детали:

«Современное состояние искусственного интеллекта (AI) и его перспективы в ближайшее время

Сейчас искусственный интеллект (AI) является одной из самых熱门 и перспективных областей исследований. Мы наблюдаем rápida-progressия в области машинного обучения,自动식ineloop и других областях, что позволяет AI выполнять более сложные задачи, чем когда-либо.

Одной из наиболее интересных перспектив AI является возможность создания полностью интеллектуальных систем. Если в настоящее время мы можем создать системы, которые могут выполнить简单 задачи, например, определить, что в изображении - собака или кошка, полностью интеллектуальные системы смогут выполнять более сложные задачи, такие как решая проблемы, связанные с медициной или естественным языком.

Кроме того, AI может быть использован в различных областях, включая сельское хозяйство, энергетику, промышленность и другие области, которые могут быть улучшены с помощью AI. AI может быть использован для автоматизации процессов, повышения эффективности и улучшения качества жизни людей.

Однако, как и все новые технологии, AI также имеет свои недостатки. Существует возможность того, что AI будет использоваться в неправильных целях, например, в военной области. Также, существует возможность того, что AI будет использовать неправильные методы, чтобы достигнуть своих целей».

Мы намеренно ничего не меняли в тексте. Как видите, некоторые слова нейросеть пишет то на китайском, то на английском. Скорее всего, тут проблема в обучающей выборке: возможно, некоторых слов на русском языке нейросеть просто не знает, поэтому и вставляет более знакомые китайские слова.

С распознаванием объектов на изображении нейросеть справляется очень хорошо. Вот, например, как она описала знаменитый кадр с Лео Дикаприо из фильма «Великий Гэтсби»: «На этой фотографии изображен человек в костюме — Leonardo DiCaprio, — который играет в角色 Jay Gatsby. Гэбсби держит в руке glass of champagne. Он выходит из лофт-холла и настолько очаровывает всех, что они не замечают, что он - это Гэбсби».

Опять огрехи по языку, но суть верна! Со сравнением изображений чуть сложнее. Когда я предложил нейросети найти отличия между двумя картинками для детей, она ответила следующее:

«这两个图片的相同点是它们都是卡通画，画面都比较简洁生动。不同点是，图片1的主题是风车和猫，而图片2的主题是卡通人物彼得潘和温迪的孩子们». Если по-русски, то так: «сходство между этими двумя картинками заключается в том, что обе они являются мультфильмами, и картинки относительно простые и яркие.Разница в том, что тема рисунка 1 - ветряная мельница и кот, в то время как тема рисунка 2 - мультяшные персонажи Питер Пэн и дети Венди». А теперь посмотрите на сами картинки:

Смотреть галерею

Зато Alibaba есть куда стремиться!

Новое на сайте

15 июл 2026

281

Как открыть сайт для AI и что для этого сделать маркетингу, SEO и разработке

Проблема с AI-видимостью может лежать в индексации, в настройках сервера или даже в бизнес-логике бренда. Разбираемся, что должен проверить каждый специалист и как собрать результаты в единую картину.

GEO / AEO

14 июл 2026

415

Как понять, нужно ли компании GEO-продвижение сейчас [запись вебинара + расшифровка]

GEO — одна из главных повесток продвижения сегодняшнего дня. Но это не значит, что всем компаниям нужно срочно направлять ресурсы в рост AI-видимости. На вебинаре разобрали, для каких индустрий это критичнее всего, как выбрать между аудитом и пилотным проектом — и даже как понять, что работы по GEO пока можно отложить.

GEO / AEO

10 июл 2026

738

Какой URL продвигать в AI-ответах: выбираем основную страницу

В AI-поиске нет жесткой связки «один запрос — одна страница»: нейросеть может собрать ответ из нескольких источников. Однако для каждого важного сценария стоит определить основной URL — показываем, как его выбрать и усилить.

GEO / AEO

Смотреть все статьи

У вас есть деловой запрос? Давайте обсудим!

Оставьте свои контакты, мы свяжемся с вами в ближайшее время.

Ваше имя * Номер телефона * E-mail * Адрес сайта Опишите суть вашего запроса

Нажимая на кнопку «Оставить заявку», вы подтверждаете свое согласие на обработку пользовательских данных

Я хочу получать дайджест лучших публикаций TexTerra