Один из них ChatGPT прошел на наших глазах. А другой – нет.
Придуманный в 1950 году тест Тьюринга долгое время считался «золотым стандартом» проверки искусственного интеллекта на способность мыслить подобно человеку. Сегодня этот тест способна пройти почти любая нейросеть. Тем не менее, это не значит, что у программы есть сознание, подобное человеческому. Расскажем, почему это так, а заодно и покажем, как сегодня можно проверить способности ИИ.
Почему тест Тьюринга не работает
Тест Тьюринга на самом деле очень прост: человек общается онлайн при помощи текстовых сообщений с живым собеседником и компьютерным алгоритмом, и задача человека — понять, кто из них кто. Если человек не может точно определить, кто из собеседников живой, а кто — машина, значит искусственный интеллект проходит тест.
Все гениальное обычно просто, но лишь до определенной степени. Последние два года невероятно быстрого развития нейросетей сделали классический тест Тьюринга бесполезным. Вот несколько причин, почему это произошло:
- Изменение целей и задач искусственного интеллекта: раньше ученые пытались создать машину, ответы и поведение которой были бы неотличимы от человеческих. Однако с течением времени задачи искусственного интеллекта изменились. Теперь главная задача ИИ — выполнять за человека рутинные задачи и служить инструментом для более быстрого выполнения определенного круга вещей.
- Ограниченность теста: тест Тьюринга основан на способности машины имитировать человека в текстовом диалоге. Однако этот тест не учитывает другие аспекты интеллекта. Например, способность к обучению или воображению.
- Развитие технологий подражания: с появлением новых технологий, таких как deepfake, стало возможным создание алгоритмов, которые могут обманывать и вводить в заблуждение людей. Это означает, что машины могут проходить тест Тьюринга, не обладая истинным (в человеческом смысле) интеллектом.
- Необъективность: тест Тьюринга проверяет способность машины ко лжи, а не к мышлению или разумности. Он оценивает, насколько машина может имитировать человека, а не настоящий интеллект.
- Новые способы измерения способностей ИИ: с развитием искусственного интеллекта появились новые методы и критерии для оценки его способностей. И эти методы куда более объективны и количественно измеримы, чем тест Тьюринга, в котором алгоритм может получить лишь две оценки: «прошел» или «не прошел».
Сейчас расскажем подробнее о пяти методах оценки ИИ, которые могут заменить тест Тьюринга.
Тесты для оценки искусственного интеллекта
Тест Маркуса
Тест Маркуса — это альтернативный тест для проверки конгнитивных способностей искусственного интеллекта, который предложил ученый Гэри Маркус. В рамках теста алгоритму показывают эпизод телешоу без субтитров и текста, а затем оценивают ее способность находить «смешные» места в этом эпизоде.
Исследования показали, что машины пока не могут успешно пройти этот тест. Например, в 2016 году исследователи из Университета Оксфорда провели эксперимент, в котором машинам было предложено проанализировать эпизод «Симпсонов» и найти в нем смешные моменты. Ни один из алгоритмов сделать это не смог. К сожалению или к счастью.
Тест Лавлейс 2.0
Тест Лавлейс 2.0 — это альтернативный тест для проверки искусственного интеллекта на творческие способности. Он был предложен Марком Ридлом в 2012 году и назван в честь Ады Лавлейс — первой программистки в истории. В этом тесте искусственному интеллекту предлагается создать новый алгоритм для решения задачи, с которой он ранее не сталкивался.
Тест Лавлейс 2.0 отличается от Теста Тьюринга тем, что он проверяет творческие способности машины, а не только ее способность имитировать человека в текстовом диалоге. Пока что нейросети не проверяли в этом тесте, поэтому судить о его эффективности преждевременно.
Winograd Schema
Этот тест состоит из пары предложений, которые отличаются одним словом. Задача алгоритма — определить, какое слово должно быть использовано в каждом предложении, и объяснить свой выбор.
Вот один из примеров Winograd Schema:
«Компания купила страховой полис на грузовик. Он был очень дорогой, потому что машина была старой/новой».
В этом примере машина должна логически определить, какое из двух слов — «старой» или «новой» — следует поставить в предложении. Для нас кажется очевидным, что ответ «старой», но ИИ для ответа на этот вопрос придется подумать.
Мы проверили при помощи этого теста ChatGPT и… нейросеть его прошла. Она выбрала слово «старой» и вот как объяснила свой выбор:
«Слово "старой" используется для описания возраста грузовика, указывая на то, что он старый, что обосновывает высокую стоимость страхового полиса».
Тест Рассела-Норвига
Этот тест состоит из нескольких вопросов, которые проверяют способность ИИ к логическому мышлению и решению задач на сообразительность. Задача машины — дать ответы на вопрос — верно утверждение или нет.
Вот один из примеров вопросов из теста Рассела-Норвига:
«Если все зебры — животные, и некоторые животные — голубые, то некоторые зебры — голубые. Верно или неверно?»
В этом примере машина должна использовать логические законы и правила, чтобы определить, является ли утверждение верным или ложным.
Проверили ChatGPT и в этом тесте — она его формально прошла. Нейросеть ответила «верно», объяснив свой ответ так:
«Некоторые зебры — голубые. Поскольку каждая зебра является животным, и среди всех животных есть голубые, это значит, что среди зебр тоже найдутся голубые.
Таким образом, предоставленные вами утверждения формируют логическую последовательность, в которой можно сделать вывод, что некоторые зебры могут быть голубыми».
С точки зрения логики не поспоришь, чего не скажешь о здравом смысле
Тест ARC
Тест ARC (Abstraction and Reasoning Corpus) — это набор задач, разработанных для проверки способности искусственного интеллекта к абстрактному мышлению и рассуждению. Этот тест был создан компанией OpenAI (которая стоит за ChatGPT!) и состоит из серии графических задач, в которых машина должна анализировать и понимать взаимосвязи между различными элементами и на основе этого делать выводы и решать задачи.
Каждая задача в тесте ARC представляет собой набор входных и выходных примеров. ИИ должен использовать логические законы и обобщения, чтобы понять правила и закономерности между входными и выходными данными, и применить их для решения новых задач.
Это чисто «машинный» тест и никакой похожестью на людей тут и не пахнет. Тем не менее, это один из тех тестов, который проверяет способности именно алгоритмов и позволяет сравнивать их «ум» между собой.
Можно считать, что на смену тесту Тьюринга пришли несколько разнотипных тестов, проверяющих «машинный интеллект». И по мере усложнения нейросетей и других видов ИИ, таких специализированных тестов будет становиться все больше, ведь с их помощью удобнее всего измерять прогресс в создании все более совершенных программ.
Читайте также:
Эта нейросеть понимает, что на картинке! – тест новинки от Alibaba
Кожаные авторы, вас не уволят: творческий тест нейросетей ruGPT-3 XL и «Балабоба»