ChatGPT из модной забавы быстро превратился в рабочий инструмент многих специалистов. С другой стороны, многие из нас поневоле начинают «очеловечивать» искусственный интеллект – ожидаемо, учитывая, насколько будто бы осмысленные диалоги нейросеть может вести. Несмотря на то, что человечество еще не разобралось, что такое сознание, мы все же знаем, как устроены языковые модели, такие как ChatGPT. И можем совершенно точно сказать: никакого сознания у них нет. Расскажем, как работают такие нейросети, как они учатся и смогут ли в будущем обрести сознание.
Прадедушка ChatGPT
Для начала окунемся в прошлое и вспомним про… T9. Да, ту самую надоедливую программу, которая постоянно заканчивает за вас слова в сообщениях и зачастую совершенно не так, как хотелось бы.
Но T9 устроена относительно просто: она анализировала, какие слова вы употребляете чаще всего, и исправляла введенное вами слово на слово той же длины, если вы вводили текст с ошибками.
Эволюцией T9 стала система iTap от Motorola. Она могла не просто исправлять ошибки ввода, но и предугадывать слова, которые вы напишете по первым буквам. Для этого iTap анализировала не только набранные буквы текущего слова, но и предыдущий текст. Кроме того, iTap может предугадывать даже короткие фразы. В том или ином виде аналоги этой системы используются в смартфонах до сих пор.
Эволюцией T9 стали N-граммы — статистические модели, разработанные для более точного предсказания вводимого человеком текста.
N-граммы
N-граммы — это компьютерные модели, которые анализируют текст, чтобы понять, какие слова часто употребляются вместе, и используют эту информацию, чтобы предсказывать следующие слова в набираемом тексте. N-граммы разбивают текст на группы из N последовательных слов. Например, если N равно 2, мы будем работать с биграммами — парами соседних слов.
Допустим, у нас есть текст: «Мама мыла раму. Мама готовила обед». Если мы используем биграммы (N=2), то разобьем текст на следующие пары слов: «мама мыла», «мыла раму», «мама готовила», «готовила обед». Мы видим, что слово «мама» встречается дважды и стоит в паре с разными словами: «мыла» и «готовила». Это помогает нам понять, что после слова «мама» могут следовать разные действия.
Когда N-граммы применяются для предсказания слов, они основываются на статистике из обучающих текстов. Например, если модель видела фразу «мама мыла» 100 раз и «мама готовила» 50 раз, она будет считать, что после слова «мама» вероятнее всего будет следовать слово «мыла».
Однако использование N-грамм имеет ограничения. Если встречается редкая последовательность слов или предложение имеет сложную структуру, N-граммы могут быть неэффективными. Более того, чем более сложной мы захотим сделать такую модель, тем большее количество данных она потребует для обучения. И не факт, что такой алгоритм на основе N-грамм окажется эффективнее меньшей по размеру модели. Все это привело к разработке более продвинутых языковых моделей, таких как рекуррентные нейронные сети и трансформеры.
Рекуррентные нейронные сети
Рекуррентные нейронные сети (RNN) стали эволюцией моделей на основе N-грамм и одними из первых искусственных нейронных сетей, которые хорошо подходят для работы с текстом. RNN обрабатывают текст по одному слову за раз и сохраняют информацию о предыдущих словах, чтобы лучше предсказать продолжение текста.
По своему принципу работы RNN похожи на человека, который читает книгу и пытается угадать, какое слово будет следующим. Когда человек читает, он помнит, что прочитал ранее, и это помогает ему делать предположения о следующем слове. Так же работает и рекуррентная нейросеть: она «читает» текст и запоминает предыдущие слова, чтобы предсказать, что будет дальше.
Однако RNN имеют слабость: они не очень хорошо справляются с длинными последовательностями слов. Представьте, что вы пытаетесь вспомнить, о чем было начало очень длинного предложения — скорее всего, сделать это будет трудно. Точно так же RNN забывают информацию о начале длинной последовательности данных, что может привести к неправильным предсказаниям.
Чтобы решить эту проблему, ученые разработали улучшенные версии RNN, такие как LSTM (Long Short-Term Memory — Сети долгой краткосрочной памяти) и GRU (Gated Recurrent Unit — Управляемые рекуррентные нейроны). Эти модели лучше сохраняют информацию при работе с большими последовательностями благодаря специальным механизмам «запоминания» и «забывания» информации. Таким образом, они могут лучше понять контекст и делать более точные предсказания, даже если два связанных между собой слова в тексте разделены большим количеством других слов.
Сети долгой краткосрочной памяти (LSTM)
Нейросети LSTM похожи на умную коробку, которая может помнить важную информацию и забывать ненужную.
Когда LSTM «читает» текст, она принимает решение, какую информацию стоит запомнить, а какую забыть. Если она столкнется с важным словом, которое может повлиять на смысл предложения, она сохранит его в памяти. Если же слово не имеет большого значения для контекста, LSTM может забыть его, чтобы освободить место для более важной информации.
Представьте, что вы читаете историю о приключениях героя, и в начале говорится, что у героя есть магический меч. Позже в тексте упоминается, что герой собирается сразиться с драконом. LSTM поймет, что магический меч — важная деталь, которую нужно запомнить, потому что он может быть полезен в битве с драконом. В то же время, если герой купил яблоко, LSTM может забыть об этом, так как это скорее всего маловажная информация для истории.
Благодаря способности запоминать и забывать информацию, LSTM могут лучше понять контекст и предсказывать следующие слова, даже если важные слова находятся далеко друг от друга в тексте. Это делает их более эффективными для анализа языка по сравнению с обычными RNN.
Однако у LSTM есть ограничения, из-за которых они могут не всегда справляться с определенными задачами обработки языка. Вот некоторые из них:
Вычислительная сложность. LSTM обрабатывают текст последовательно, то есть слово за словом. Это означает, что они могут быть медленными, особенно при работе с очень длинными текстами. Из-за своей архитектуры в LSTM также нельзя реализовать параллельные вычисления, а это могло бы ускорить их работу.
Затухание градиентов. Хотя LSTM считаются лучше обычных RNN в плане запоминания информации в длинных предложениях, они все равно могут столкнуться с проблемой затухания градиентов. То есть в процессе обучения LSTM может терять информацию о связях между далекими словами и выдавать плохие предсказания.
Размер модели. LSTM содержат множество параметров и имеют сложную структуру, что может затруднять их обучение, особенно при недостаточном количестве обучающих данных.
Знание контекста. При обработке текста LSTM учитывают только предыдущие слова для предсказания следующих. В результате они могут упустить важную информацию, которая находится в следующих предложениях. Например, при предсказании слова в середине предложения, LSTM могут не учесть слова, которые идут после него.
Из-за этих ограничений исследователи продолжили разработку новых архитектур нейронных сетей, таких как трансформеры, которые лишены некоторых недостатков LSTM и могут с высокой точностью решать задачи обработки естественного языка.
Нейросеть-трансформер
Принцип работы трансформеров можно сравнить с процессом сборки пазлов. Когда мы собираем пазл, мы смотрим на форму и цвет каждой детали, чтобы найти те, которые лучше всего подходят друг другу. Трансформеры делают то же самое с текстом: они анализируют отдельные слова и контекст и обучаются на этих данных, чтобы затем складывать наиболее «подходящие» друг к другу слова в осмысленный текст.
Когда трансформеры «читают» текст, они обращают внимание на то, как слова связаны друг с другом, и обращают внимание на их смысл в контексте. Это позволяет алгоритмам генерировать тексты, которые кажутся понятными и естественными для нас, людей.
Обучают языковую модель, такую как ChatGPT, на основе большого количества текстов из книг, статей и интернета. Это примерно 570 гигабайт текстовых данных или 146 «Википедий».
В процессе обучения модель учится правилам грамматики и пониманию смысла текста, что позволяет ей создавать предложения, которые выглядят правильными и осмысленными для нас.
Важно помнить, что языковые модели, такие как ChatGPT, не обладают собственным сознанием или чувствами. Они просто анализируют тексты и создают новые на основе того, что узнали из текстов, на которых их обучали.
Как ни крути, сегодня люди лучше нейросетей справляются с написанием текстов. У специалистов TexTerra вы можете заказать тексты для сайта, а мы позаботимся, чтобы они были качественными (нейросети так не могут).
Читайте также:
Бесплатный ChatGPT от создателей Stable Diffusion — качай скорее!