Пока YandexGPT 2 удаются далеко не все задания из госэкзамена.
«Яндекс» с гордостью рассказал, что его нейросеть YandexGPT 2 смогла выполнить задания ЕГЭ по литературе и набрала в итоге 55 баллов при проходном 40. Мы проверили этот результат — получилось чуть хуже.
Нейросеть сдаёт ЕГЭ
В «Яндексе» для тестирования нейросети использовали режим «Давай придумаем» голосового помощника Алисы — в этом режиме работает YandexGPT 2. Нейросети просто отправляли вопросы из варианта ЕГЭ по литературе с той же формулировкой, что и в задаче, а она давала на них ответ.
Вот пример сочинения отечественной нейросети по повести Н.В. Гоголя «Шинель»:
«Повесть Н.В.Гоголя «Шинель» отражает тему бедности и бездушия общества с необыкновенной глубиной и тонким юмором. Само произведение, как и все гоголевские работы, имеет свой уникальный стиль и особенность — сатира, наложенная на мистику, сквозь которую проглядывает реальная жизнь. Писатель демонстрирует образ маленького человека, который старается бороться за свое место под солнцем, но в конечном итоге становится заложником собственных стремлений и общественных предрассудков.
Проблема взаимоотношений начала и финала «Шинели» имеет под собой глубокий философский и социальный смысл. В начале повести Гоголь показывает нам существование бедного чиновника Акакия Акакиевича Башмачкина, который примиряется со своей судьбой и нищетой. Он готов терпеть холод и голод ради сохранения своего места службы. В финале же произведения мы видим обратную сторону медали: герой становится мстительным призраком, заставляющим дрожать от страха всех жителей Петербурга».
Компания заявляет, что усредненная оценка YandexGPT 2 по итогам тестов составила 55 баллов. Но вот что показала перепроверка!
Сколько баллов набрала YandexGPT?
Мы провели свой тест – зашли на сайт «Решу ЕГЭ» и выбрали один из вариантов ЕГЭ по литературе. Сложности возникли лишь с первым вопросом — в нем нейросеть никак не могла понять, что в данном в ЕГЭ отрывке из рассказа «Ионыч» Чехова нет ответа на вопрос теста — для этого нужно было знать само произведение и вспомнить фамилию нужных героев.
На остальные вопросы экзамена нейросеть дала ответ. Далеко не всегда ответы были правильными. Например, в стихотворении Тарковского YandexGPT нашла сравнение и эпитет, тогда как в реальности в нем было сравнение и олицетворение.
Наш итог — нейросеть получила в тесте 47 баллов. Это выше проходного в 40 и, по данным «Решу ЕГЭ», также выше, чем у 85% пользователей сайта, которые решали ЕГЭ по литературе в последнее время:
Стоит сказать, что примерно половина задач в ЕГЭ по литературе требуют «человеческой» оценки. Так как среди нас нет профессиональных проверяющих, которые могли бы адекватно оценить задания ЕГЭ, мы делали это по ключам с сайта «Решу ЕГЭ» и довольно субъективно. Так что, реальная оценка YandexGPT 2 в тестах могла быть как выше, так и ниже.
Александр Хлынов, редактор TexTerra, по образованию — учитель русского языка и литературы:
«Говорить, что та или иная нейросеть сдала ЕГЭ, – некорректно. В ходе экзамена оцениваются знания учеников, объем информации, который они запомнили, а также то, в какой мере они эту информацию усвоили и насколько хорошо применяют эти знания на практике. И проверка проводится в «отключенном» режиме — без справочников, доступа в интернет и прочих подсказок. За подсказки и списывания с экзаменов выгоняют.
Экзаменуемые же нейросети подключены к интернету, и только благодаря этому могут отвечать на вопросы. По факту, они списывают и должны быть удалены с экзамена.
Можно, конечно, обучить нейросеть литературе по школьной программе, «запереть» ее с полученными данными на сервере, но тогда она будет просто повторять то, что говорил учитель: если ей сказать, что Чичиков хороший, то она будет считать, что так оно и есть. А почему? Тут последует ответ, который мы ей подсунули в процессе обучения.
Но ведь речь не о проверке запертого на сервере ИИ, а о проверке знаний нейросети, в чьем распоряжении все данные интернета вместе с ответами на вопросы из литературных произведений.
Как в такой ситуации искусственный интеллект может не сдать экзамен? Да позвольте сдавать ЕГЭ отпетому двоечнику, но не запрещайте ему пользоваться интернетом во время экзамена, и результат тоже будет отличный. Никому же не придет в голову трубить об этом во всех СМИ.
По моей оценке, мы имеем дело не со сдачей ЕГЭ, которой можно было бы восхищаться, а с соревнованием по поиску в интернете – не более».
Читайте также:
YandexGPT теперь пишет объявления на «Авто.ру» – проверили фичу!
YandexGPT перескажет любую страницу и сэкономит 70% времени
У Алисы теперь есть YandexGPT 2 — поймет с полуслова [обновлено]