SEO-продвижение сайта от 150 000 рублей

Заказать звонок
Телефон отдела продаж:
8 (800) 775-16-41
Наш e-mail:
mail@texterra.ru
Заказать услугу
Лучшая нейросеть для сокращения текста — проверили на «Войне и мире» Редакция «Текстерры»
Редакция «Текстерры»

Одна из самых популярных задач, для которой используют нейросети — выделение важной информации из большого текста. Мы проверили эффективность популярных нейросетей в суммаризации текста. Для этого отправили им отрывок из романа «Война и мир» и попросили сократить его до одного небольшого абзаца.

Вот так выглядит выбранный нами отрывок:

«На краю дороги стоял дуб. Вероятно, в десять раз старше берез, составлявших лес, он был в десять раз толще, и в два раза выше каждой березы. Это был огромный, в два обхвата дуб, с обломанными, давно, видно, суками и с обломанной корой, заросшей старыми болячками. С огромными своими неуклюже, несимметрично растопыренными корявыми руками и пальцами, он старым, сердитым и презрительным уродом стоял между улыбающимися березами. Только он один не хотел подчиняться обаянию весны и не хотел видеть ни весны, ни солнца. «Весна, и любовь, и счастие! — как будто говорил этот дуб. — И как не надоест вам все один и тот же глупый бессмысленный обман! Все одно и то же, и все обман! Нет ни весны, ни солнца, ни счастья. Вон смотрите, сидят задавленные мертвые ели, всегда одинакие, и вон и я растопырил свои обломанные, ободранные пальцы, где ни выросли они — из спины, из боков. Как выросли — так и стою, и не верю вашим надеждам и обманам» . Князь Андрей несколько раз оглянулся на этот дуб, проезжая по лесу, как будто он чего-то ждал от него. Цветы и трава были и под дубом, но он все так же, хмурясь, неподвижно, уродливо и упорно, стоял посреди их. «Да, он прав, тысячу раз прав этот дуб, — думал князь Андрей, — пускай другие, молодые, вновь поддаются на этот обман, а мы знаем жизнь, — наша жизнь кончена!» Целый новый ряд мыслей безнадежных, но грустно-приятных в связи с этим дубом возник в душе князя Андрея. Во время этого путешествия он как будто вновь обдумал всю свою жизнь и пришел к тому же прежнему, успокоительному и безнадежному, заключению, что ему начинать ничего было не надо, что он должен доживать свою жизнь, не делая зла, не тревожась и ничего не желая».

А теперь посмотрим, как сократили этот текст языковые модели. Для теста мы выбрали две модели OpenAI (GPT-3.5 и GPT-4), Claude 2, Bard от Google, GigaChat от «Сбера» и YandexGPT 2 от Яндекса.

GPT-3.5

Результат генерации:

«На краю дороги стоял огромный дуб, отличавшийся своей старостью и уродливой устойчивостью. Среди весенних берез, полных надежды и радости, он был как символ скептицизма и безнадежности. Князь Андрей, оглядывая этот дуб, задумался о бессмысленности жизни и пришел к выводу, что ему больше нечего начинать, лишь жить мирно и ничего не желать».

Вывод: Языковая модель в целом уловила основные мысли текста. Однако в её результате генерации в глаза бросаются несколько странных словосочетаний — «уродливой устойчивостью», «отличавшийся своей старостью» и «ему больше нечего начинать». К слову о последнем словосочетании, в тексте было не совсем так — Болконский думал, что ему не надо было ничего начинать.

Продвинем ваш бизнес
Подробнее

GPT-4

Результат генерации:

«На краю дороги стоял огромный дуб, старый и уродливый среди улыбающихся берёз. Он казался неподвижным и неподдающимся обаянию весны, словно отрицая её и все её обещания. Под его мрачным настроением князь Андрей чувствовал себя связанным с дубом, размышляя о своей жизни и приходя к мрачному, но умиротворяющему выводу о её бесперспективности».

Вывод: GPT-4 справилась с сокращением отрывка из «Войны и мира» намного лучше «младшей» модели — все факты на месте, а к словосочетаниям претензий нет.

Claude 2

Результат генерации:

«На краю дороги стоял огромный старый дуб, весь в шрамах и морщинах. В отличие от молодых берез вокруг, он не верил в обманчивую радость весны и любви. Князь Андрей с грустью смотрел на этот дуб, который напомнил ему о тщетности жизни и о том, что ему остается лишь дожить свой век, не делая зла и ничего не желая».

Вывод: По качеству сокращения текста Claude 2 оказался не хуже GPT-4. В сокращенном нейросетью тексте предложения построены по-другому, однако общий смысл хорошо сохранен. Придраться тоже не к чему.

Bard

Результат генерации:

«Старый дуб, сердитый и презрительный, не хотел видеть весну и счастье. Князь Андрей, проезжая мимо, тоже почувствовал безнадежность и усталость жизни.

Объяснение:

Я сократил текст, убрав следующие детали:

Описание внешнего вида дуба.

Диалог дуба с березами.

Описание мыслей князя Андрея о дубе.

Я сохранил основную мысль текста о том, что старый дуб олицетворяет собой усталость и безнадежность жизни. Князь Андрей, увидев дуб, также почувствовал эти чувства.

Вот еще один вариант сокращения текста:

Седой дуб, не поверивший в весну, стоял в лесу один. Князь Андрей, увидев дуб, тоже потерял веру в будущее.

Этот вариант еще короче, но он передает главную мысль текста».

Вывод: Bard сократил текст слишком сильно, оставив только общую суть. Понять душевные страдания Болконского из этих двух предложений практически невозможно. Но в генерации Bard есть один жирный плюс — нейросеть объяснила, как она сократила текст и почему убрала те или иные части.

GigaChat

Результат генерации:

«На краю дороги стоял дуб, который был в десять раз старше и толще берез, составлявших лес. Он был обломанным и имел обломанную кору. Дуб стоял между улыбающимися березами и не хотел видеть ни весны, ни солнца. Князь Андрей оглядывался на этот дуб, ожидая чего-то от него. Мысли князя Андрея были безнадежными, но грустно-приятными в связи с этим дубом».

Вывод: Довольно посредственный результат. Во-первых, назвать «грустно-приятными» мысли князя не поворачивается язык. Во-вторых, вперемешку с важными деталями GigaChat добавил и ту информацию, которую можно было убрать без вреда для повествования.

YandexGPT 2

Результат генерации:

«На краю леса стоял старый дуб, в десять раз толще и выше берез, не поддающийся обаянию весны и отказывающийся видеть солнце и счастье вокруг себя. Он символизировал скептицизм и разочарование, утверждая, что красота и любовь — лишь обман, а жизнь полна мертвых елей и страданий».

Вывод: Результат второй отечественной нейросети очень похож по качеству на генерацию GigaChat — только тут нейросеть, хоть и не исказила информацию, но ничего не сказала о втором главном герое отрывка (после дуба) — Андрее Болконском.

Вывод

Если составлять рейтинг тех нейросетей, которые лучше всего выделяют важное из текста, то по нашему мнению, он бы выглядел так:

  1. GPT-4 и Claude 2
  2. GPT-3.5
  3. Bard
  4. GigaChat
  5. YandexGPT

Так что теперь вы знаете, к кому обратиться, когда не захочется читать длинный текст, наполненный «водой» — смело доверьте эту задачу GPT-4 или Claude 2.

Читайте также:

73 бесплатные нейросети на все случаи жизни – выбор TexTerra

28 лучших нейросетей для видео: проверенный список

Нейросети в рекламе: лучшие сервисы для использования в 2023

Поделиться статьей:

Новое на сайте

22 ноя 2024
13 718
Как файл htaccess может улучшить ваш сайт: топ-10 лайфхаков для вебмастера

В этой статье расскажу, как настроить htaccess, чтобы получить больше трафика, и поделюсь собственным лайфхаками настройки этого файла.

22 ноя 2024
21 532
Почему так важно указывать цены на своем сайте

Если вы адепт позиции «Ответил(а) в личку», у нас для вас плохие новости. 

22 ноя 2024
195 677
Как создать и настроить карту сайта sitemap.xml

Даже в 2024 году XML-карта нужна: этот инструмент по-прежнему используется краулерами Google и «Яндекс» – для ускорения индексации и получения технической информации о страницах. 

Смотреть все статьи

У вас есть деловой запрос? Давайте обсудим!

Оставьте свои контакты, мы свяжемся с вами в ближайшее время.

Нажимая на кнопку «Оставить заявку», вы подтверждаете свое согласие на обработку пользовательских данных

Спасибо!

Ваша заявка принята. Мы свяжемся с вами в ближайшее время.