Внутри ChatGPT – как устроены языковые нейросети

02 Май 2023

Время чтения: 16 минут

Некоторые наделяют искусственный интеллект сознанием. Это не так (пока что).

ChatGPT из модной забавы быстро превратился в рабочий инструмент многих специалистов. С другой стороны, многие из нас поневоле начинают «очеловечивать» искусственный интеллект – ожидаемо, учитывая, насколько будто бы осмысленные диалоги нейросеть может вести. Несмотря на то, что человечество еще не разобралось, что такое сознание, мы все же знаем, как устроены языковые модели, такие как ChatGPT. И можем совершенно точно сказать: никакого сознания у них нет. Расскажем, как работают такие нейросети, как они учатся и смогут ли в будущем обрести сознание.

Прадедушка ChatGPT

Для начала окунемся в прошлое и вспомним про… T9. Да, ту самую надоедливую программу, которая постоянно заканчивает за вас слова в сообщениях и зачастую совершенно не так, как хотелось бы.

Но T9 устроена относительно просто: она анализировала, какие слова вы употребляете чаще всего, и исправляла введенное вами слово на слово той же длины, если вы вводили текст с ошибками.

Эволюцией T9 стала система iTap от Motorola. Она могла не просто исправлять ошибки ввода, но и предугадывать слова, которые вы напишете по первым буквам. Для этого iTap анализировала не только набранные буквы текущего слова, но и предыдущий текст. Кроме того, iTap может предугадывать даже короткие фразы. В том или ином виде аналоги этой системы используются в смартфонах до сих пор.

Эволюцией T9 стали N-граммы — статистические модели, разработанные для более точного предсказания вводимого человеком текста.

N-граммы

N-граммы — это компьютерные модели, которые анализируют текст, чтобы понять, какие слова часто употребляются вместе, и используют эту информацию, чтобы предсказывать следующие слова в набираемом тексте. N-граммы разбивают текст на группы из N последовательных слов. Например, если N равно 2, мы будем работать с биграммами — парами соседних слов.

Допустим, у нас есть текст: «Мама мыла раму. Мама готовила обед». Если мы используем биграммы (N=2), то разобьем текст на следующие пары слов: «мама мыла», «мыла раму», «мама готовила», «готовила обед». Мы видим, что слово «мама» встречается дважды и стоит в паре с разными словами: «мыла» и «готовила». Это помогает нам понять, что после слова «мама» могут следовать разные действия.

Когда N-граммы применяются для предсказания слов, они основываются на статистике из обучающих текстов. Например, если модель видела фразу «мама мыла» 100 раз и «мама готовила» 50 раз, она будет считать, что после слова «мама» вероятнее всего будет следовать слово «мыла».

Однако использование N-грамм имеет ограничения. Если встречается редкая последовательность слов или предложение имеет сложную структуру, N-граммы могут быть неэффективными. Более того, чем более сложной мы захотим сделать такую модель, тем большее количество данных она потребует для обучения. И не факт, что такой алгоритм на основе N-грамм окажется эффективнее меньшей по размеру модели. Все это привело к разработке более продвинутых языковых моделей, таких как рекуррентные нейронные сети и трансформеры.

Рекуррентные нейронные сети

Рекуррентные нейронные сети (RNN) стали эволюцией моделей на основе N-грамм и одними из первых искусственных нейронных сетей, которые хорошо подходят для работы с текстом. RNN обрабатывают текст по одному слову за раз и сохраняют информацию о предыдущих словах, чтобы лучше предсказать продолжение текста.

По своему принципу работы RNN похожи на человека, который читает книгу и пытается угадать, какое слово будет следующим. Когда человек читает, он помнит, что прочитал ранее, и это помогает ему делать предположения о следующем слове. Так же работает и рекуррентная нейросеть: она «читает» текст и запоминает предыдущие слова, чтобы предсказать, что будет дальше.

Однако RNN имеют слабость: они не очень хорошо справляются с длинными последовательностями слов. Представьте, что вы пытаетесь вспомнить, о чем было начало очень длинного предложения — скорее всего, сделать это будет трудно. Точно так же RNN забывают информацию о начале длинной последовательности данных, что может привести к неправильным предсказаниям.

Чтобы решить эту проблему, ученые разработали улучшенные версии RNN, такие как LSTM (Long Short-Term Memory — Сети долгой краткосрочной памяти) и GRU (Gated Recurrent Unit — Управляемые рекуррентные нейроны). Эти модели лучше сохраняют информацию при работе с большими последовательностями благодаря специальным механизмам «запоминания» и «забывания» информации. Таким образом, они могут лучше понять контекст и делать более точные предсказания, даже если два связанных между собой слова в тексте разделены большим количеством других слов.

Сети долгой краткосрочной памяти (LSTM)

Нейросети LSTM похожи на умную коробку, которая может помнить важную информацию и забывать ненужную.

Когда LSTM «читает» текст, она принимает решение, какую информацию стоит запомнить, а какую забыть. Если она столкнется с важным словом, которое может повлиять на смысл предложения, она сохранит его в памяти. Если же слово не имеет большого значения для контекста, LSTM может забыть его, чтобы освободить место для более важной информации.

Представьте, что вы читаете историю о приключениях героя, и в начале говорится, что у героя есть магический меч. Позже в тексте упоминается, что герой собирается сразиться с драконом. LSTM поймет, что магический меч — важная деталь, которую нужно запомнить, потому что он может быть полезен в битве с драконом. В то же время, если герой купил яблоко, LSTM может забыть об этом, так как это скорее всего маловажная информация для истории.

Благодаря способности запоминать и забывать информацию, LSTM могут лучше понять контекст и предсказывать следующие слова, даже если важные слова находятся далеко друг от друга в тексте. Это делает их более эффективными для анализа языка по сравнению с обычными RNN.

Однако у LSTM есть ограничения, из-за которых они могут не всегда справляться с определенными задачами обработки языка. Вот некоторые из них:

Вычислительная сложность. LSTM обрабатывают текст последовательно, то есть слово за словом. Это означает, что они могут быть медленными, особенно при работе с очень длинными текстами. Из-за своей архитектуры в LSTM также нельзя реализовать параллельные вычисления, а это могло бы ускорить их работу.

Затухание градиентов. Хотя LSTM считаются лучше обычных RNN в плане запоминания информации в длинных предложениях, они все равно могут столкнуться с проблемой затухания градиентов. То есть в процессе обучения LSTM может терять информацию о связях между далекими словами и выдавать плохие предсказания.

Размер модели. LSTM содержат множество параметров и имеют сложную структуру, что может затруднять их обучение, особенно при недостаточном количестве обучающих данных.

Знание контекста. При обработке текста LSTM учитывают только предыдущие слова для предсказания следующих. В результате они могут упустить важную информацию, которая находится в следующих предложениях. Например, при предсказании слова в середине предложения, LSTM могут не учесть слова, которые идут после него.

Из-за этих ограничений исследователи продолжили разработку новых архитектур нейронных сетей, таких как трансформеры, которые лишены некоторых недостатков LSTM и могут с высокой точностью решать задачи обработки естественного языка.

Нейросеть-трансформер

Принцип работы трансформеров можно сравнить с процессом сборки пазлов. Когда мы собираем пазл, мы смотрим на форму и цвет каждой детали, чтобы найти те, которые лучше всего подходят друг другу. Трансформеры делают то же самое с текстом: они анализируют отдельные слова и контекст и обучаются на этих данных, чтобы затем складывать наиболее «подходящие» друг к другу слова в осмысленный текст.

Когда трансформеры «читают» текст, они обращают внимание на то, как слова связаны друг с другом, и обращают внимание на их смысл в контексте. Это позволяет алгоритмам генерировать тексты, которые кажутся понятными и естественными для нас, людей.

Обучают языковую модель, такую как ChatGPT, на основе большого количества текстов из книг, статей и интернета. Это примерно 570 гигабайт текстовых данных или 146 «Википедий».

В процессе обучения модель учится правилам грамматики и пониманию смысла текста, что позволяет ей создавать предложения, которые выглядят правильными и осмысленными для нас.

Важно помнить, что языковые модели, такие как ChatGPT, не обладают собственным сознанием или чувствами. Они просто анализируют тексты и создают новые на основе того, что узнали из текстов, на которых их обучали.

Как ни крути, сегодня люди лучше нейросетей справляются с написанием текстов. У специалистов TexTerra вы можете заказать тексты для сайта, а мы позаботимся, чтобы они были качественными (нейросети так не могут).