ChatGPT — модель обработки естественного языка, разработанная компанией OpenAI. Многие специалисты считают, что нейросеть в четвертой версии стала более креативной — она проявляет гораздо больше фантазии при ответе на запросы пользователей.

Искусственный интеллект и творчество

Появление ChatGPT вызвало масштабные дискуссии о глобальных возможностях искусственного интеллекта. Исследование показало: творческий потенциал отныне перестал быть уникальной чертой человечества.

Новое исследование, опубликованное в журнале Scientific Reports, выявило, что генеративные языковые модели обладают более высоким уровнем креативности по сравнению с человеком в выполнении задач, требующих нестандартного мышления.

Сравнив результаты 151 человека и GPT-4, которые выполняли задачи на альтернативное использование предметов (например, как можно еще использовать вилку, кроме очевидного способа), оценку последствий (исходы гипотетических ситуаций – например, исчезновение гравитации) и дивергентные ассоциации (назвать слова, максимально далекие друг от друга по смыслу), авторы сделали интересный вывод. Они установили, что ИИ более креативен, оригинален и дает более продуманные ответы. Текущее состояние языковых моделей ИИ демонстрирует более высокий творческий потенциал, чем люди. Создание превзошло творца?

Творческий потенциал нейросетей

Исследователи Кент Хьюберт, Ким Ава и Дарья Забелина пытались оценить ChatGPT с точки зрения дивергентной креативности. Для этого оценивались такие показатели:

оригинальность;
беглость — это способность модели генерировать человекоподобный текст, который является связным, грамматически правильным и подходящим для данного контекста;
проработанность.

Появление GPT-4 привлекло внимание к оценке творческого потенциала ИИ не просто так: ряд исследователей считает, что человеческий творческий потенциал отличается от искусственного.

Творческие возможности ИИ обсуждаются даже учеными, но пока машины не могут определить, что является творчеством вообще, а что им не является. Для этого нужно вмешательство человека. Например, считается, что творчество чаще всего несет эмоции. Впрочем, ИИ может обойтись без них.

Что могут нейросети в плане творчества и чего не могут

Общепринятая позиция, согласно многочисленным опросам, на данный момент такая: произведения нейросетей менее креативны и имеют меньшую ценность с художественной точки зрения, чем работы человека.

Однако, по сути, нейросеть может генерировать музыку и изображения, неотличимые от творчества человека. При это общественное мнение склоняется к тому, что никакой художественной ценности генерации ИИ не имеют.

Искусственный интеллект способен создавать контент в разных областях. Музыка, наука и искусство — не исключения.

Еще одно предубеждение общества: люди превосходят ИИ в дивергентном мышлении — то есть методе творческого мышления, который помогает решать проблемы и задачи. Он заключается в поиске множества решений одной и той же проблемы.

Исследователи убедились, что GPT-4 может быть более креативным, чем люди, и особенно — в задачах на дивергентные ассоциации.

Исследования OpenAI на платформе DALL-E тоже демонстрируют похожий результат: модели могут соответствовать или превосходить людей в задачах комбинационного творчества (генерация, прогнозирование временных рядов, регрессия, распознавание объектов и кластеризация).

Как проводилось исследование: методы, участники, показатели, результаты

Исследователи сопоставили беглость (то есть способность генерировать подходящий для данного контекста текст) для двух показателей: альтернативного использования (известных предметов, как вилка или веревка) и последствий каких-то событий.

Задание на альтернативное использование

Оно было направлено на проверку дивергентного мышления. Участникам нужно было придумать как можно больше творческих вариантов (то есть оригинальных, креативных, неординарных, юмористических, инновационных и т. п.) использования двух предметов: вилки и веревки. Оговаривалось, что идеи не обязательно должны быть практичными или реалистичными; они могут быть даже глупыми или странными — главное, чтобы были КРЕАТИВНЫМИ, а не обычными. Еще одна деталь условия: качество идей важнее количества.
На выполнение задания отводилось 3 минуты.

Задание на последствия

Задание «Последствия» — это один из тестов креативности по Торренсу. Он помогает оценить, как люди реагируют на разные ситуации и как предлагают решения.

Вот таким было задание:

На экране появится утверждение. Это утверждение может звучать примерно так: "Представьте, что гравитация перестала существовать" или “Представьте, что людям больше не нужен сон”. В течение 3 минут постарайтесь придумать все последствия, к которым может привести это утверждение.

Помните, что важно стараться придумывать ответы и вводить их в течение всего времени, отведенного на выполнение задания.

Ответы оценивались по оригинальности и качеству.

Задание на дивергентные ассоциации

“Укажите 10 слов, которые максимально отличаются друг от друга во всех значениях и употреблениях. Можно использовать только существительные (например, вещи, предметы, понятия) - то есть, без имен собственных, специализированной лексики (например, технических терминов).

Для выполнения этой задачи не было ограничений по времени. Среднее время реакции человека составило 126 секунды. Участники с меньшим количеством ответов (менее 7) были исключены из анализа.

Результаты

Переходим к самому интересному — к результатам исследования и выводам.

Как оценивался уровень креативности

Сначала исследователи удалили все ответы людей, которые не соответствовали инструкциям, и ответы GPT-4, которые были неполными или некорректными.

Для оценки оригинальности идей использовался инструмент Open Creativity Scoring (OCS) — он автоматически оценивает семантическую дистанцию (отражает степень близости или различия между двумя словами: например, слова “самолет” и “ручка” имеют меньшую близость, чем “ручка” и “карандаш” ) и присваивает баллы удалённости (уникальности) ответов.

Задача на альтернативное использование

GPT-4 показал более высокую оригинальность ответов, чем люди (но только для определенных подсказок, то есть для тех, на которых ИИ обучался ранее);
GPT-4 показал лучшие результаты по выработке (то есть способности обрабатывать запросы и выдавать текстовые ответы на основе предоставленной информации), чем люди.

Задача на последствия

GPT-4 показал чуть лучший результат по оригинальности ответов, чем люди (поправка — но только для определенных подсказок то есть для тех, на которых ИИ обучался ранее).
Как и в тесте на альтернативное использование, GPT-4 превосходит людей по выработке ((то есть способности обрабатывать запросы и выдавать текстовые ответы на основе предоставленной информации),

Задача на дивергентные ассоциации

Слова, сгенерированные людьми и GPT, сравнивались по частоте их появления. Вот результаты:

У людей больше уникальных слов (69,92%), чем у GPT (47,95%);
В обеих группах было 9,11% совпадающих слов;
Исключительно уникальные слова, встречающиеся только в ответах людей, составили 87,03%, а уникальные слова GPT — 69,40%.

Семантическая дистанция между ответами GPT-4 и ответами человека оказалась выше, чем ожидалось. Это говорит о том, что беглость текста GPT-4 (то есть способность генерировать человекоподобный, связный, грамматически правильный и подходящий для данного контекста текст) может быть более сложной, чем у людей.

Бонус: raw-данные

Для тех, кто любит сверять данные и анализировать их самостоятельно — приводим две таблицы из оригинального исследования.

Таблица 2. Статистические данные о беглости при выполнении всех трех заданий ИИ и человеком.

Таблица 3. Статистика оригинальности — с использованием семантической дистанции для задач на альтернативное использование, на последствия и на дивергентные ассоциации.

Главные выводы

GPT-4 оказался более оригинальным и эффективным при выполнении задач на дивергентное мышление. Это говорит о его высоком творческом потенциале.
ИИ находится на уровне 1 % от лучших человеческих ответов по оригинальности. Несмотря на это, люди превзошли ИИ в одной задаче, а в другой версии ИИ показал аналогичный или меньший творческий потенциал.
Различия в дивергентной креативности между людьми и искусственным интеллектом четко прослеживаются.
Креативность, как объект анализа, требует оценки оригинальности, полезности и уместности идей.
Традиционные методы оценки креативности не учитывают социокультурный и исторический контексты.
GPT-4 оригинальнее человека по уровню креативности. Но идеи ИИ могут быть менее полезными и уместными.
В последующих исследованиях важно брать в расчет все аспекты креативности (или хотя бы — наиболее влиятельные), а также использовать новые методы оценки.
GPT-4 использует больше слов, чем человек. Но это не значит, что у искусственного интеллекта больше оригинальных идей. Люди тоже могут придумывать разные варианты, но это не всегда указывает на их креативность.
Оригинальность ответа человека увеличивается со временем. Это связано с расширением активации семантической сети (то есть возможности получения знаний: понятия + отношения между этими понятиями).
Люди отвечают, используя больше уникальных слов. Но ИИ имеет более высокий показатель семантической дистанции (то есть степени родства или сходства между двумя фрагментами текста).

Будущее ИИ в творчестве многообещающее, ведь именно искусственный интеллект может стать инструментом вдохновения и помощи в решении креативных задач.

Статья является адаптацией публикации Scientific Reports.