Все крупные IT-компании стараются создать собственные языковые модели для генерации текстов и общения с пользователями (у Яндекса это YandexGPT, у Сбера – GigaChat). ВКонтакте не стал исключением. Но к вопросу обучения своей нейросети ВК подошел несколько необычно.
Обучение языковой модели проводилось не на основе литературного или журналистского контента, а на «открытых корпусах текстов из интернета и публичных данных соцсети "ВКонтакте" – постах и комментариях в открытых группах». И теперь возможности нейросети тестируются в принадлежащем ВКонтакте сервисе Mail.ru.
Давайте разберемся со способом обучения языковой модели ВКонтакте на основе комментариев и постов из открытых групп – в чем плюсы и минусы, а где тут подводные камни.
Дарья Капитонова, SMM-маркетолог TexTerra, специалист по нейросетям:
«В последнее время наблюдается значительный интерес к обучению языковых моделей, таких как LLM (Large Language Models), на данных, полученных из социальных сетей, включая посты и комментарии пользователей. Эта тенденция открывает новые горизонты для развития искусственного интеллекта.
Плюсы обучения LLM на данных из социальных сетей очевидны:
- Социальные сети предоставляют огромный объем текстовых данных, отражающих разнообразие языковых выражений, сленга, идиом, мемов и культурных контекстов. Это позволяет LLM лучше понимать запросы и генерировать ответы, адаптируясь к различным стилям общения.
- LLM, обученные на данных из социальных сетей, могут лучше понимать контекст и нюансы, связанные с последними новостями и событиями, что повышает их способность генерировать релевантные и актуальные ответы.
- Анализируя комментарии и посты, модели могут улавливать общественные настроения, чувства и эмоции, связанные с определенными событиями или темами, что позволяет создавать более эмпатичные и чуткие взаимодействия.
- Модели, обученные на реальных данных из социальных сетей, могут лучше адаптироваться к потребностям и интересам пользователей, предлагая более релевантные и персонализированные ответы.
Но, разумеется, в таком обучении есть и минусы. И речь пойдет даже не про этичность использования данных. Социальные сети часто отображают предвзятые мнения и некорректную информацию, а также мысли здесь могут излагаться с помощью ненормативной лексики, грубых выражений, мата. Обучение моделей на таких данных может усилить эти предвзятости, что отрицательно скажется на качестве генерируемого контента».
То есть, выбор источника для обучения дает больше плюсов, чем минусов, и минусы эти можно отсечь так же, как человек учится следить за своим языком. Но остается вопрос прав на контент (посты и комментарии).
Какие права имеет ВКонтакте на контент пользователей
Все, кто заводит страничку во ВКонтакте, подписывают Пользовательское соглашение – ставят галочку «Принимаю» и, как правило, не читают, что там в Соглашении сказано. В нашем же случае следует уделить внимание всего одному разделу Соглашения – №7:
«7.1.5. Пользователь предоставляет также Администрации Сайта неисключительное право использовать на безвозмездной основе размещенный на Сайте и принадлежащий ему на законных основаниях Контент в целях обеспечения Администрацией Сайта функционирования Сайта в объёме, определяемом функциональностью и архитектурой Сайта, и отображения Контента в промоматериалах Администрации Сайта, в том числе в рамках изображений интерфейса Сайта, в том числе путём доведения таких промоматериалов до всеобщего сведения. Указанное неисключительное право предоставляется на срок размещения Контента на Сайте и распространяет свое действие на территории стран всего мира. Окончание срока размещения Контента на Сайте и/или срока действия неисключительного права не влечет за собой необходимость изъятия из оборота промоматериалов Администрации Сайта с отображением Контента (в том числе их удаление из сети Интернет). Администрация Сайта вправе передавать права, указанные в настоящем пункте третьим лицам».
Проще говоря, ВКонтакте вправе брать любую информацию из соцсети «на безвозмездной основе». Это значит, что ВК может использовать любые посты и комментарии для обучения своих языковых моделей, даже если они создаются для третьих лиц (а уж тем более для родственного Mail.ru). И все пользователи ВКонтакте под этим подписались.
Могу ли я запретить использовать материалы со своей страницы в соцсети
Время от времени по соцсетям прокатываются волны запретов пользователей на использование контента со своих страниц. Они направлены, в первую очередь, в адрес администраций соцсетей и отделов, занимающихся разработкой и обучением нейросетей. Такие волны запретов бороздили и ныне запрещенные иностранные соцсети, и российские. Пост-запрет ВК выглядит примерно так:
«Я запрещаю социальной сети ВКонтакте (далее ВК) , или любым другим лицам, связанным с ВК, использовать мои фотографии, информацию, сообщения , как в прошлом, так и в будущем.
Этим заявлением я сообщаю ВК, что категорически запрещено:
- разглашать,
- копировать,
- распространять, или
- предпринимать любые другие действия против меня на основании этого аккаунта и/или его содержимого.
Контент этого аккаунта является личной и конфиденциальной информацией.
Нарушение моей личной жизни может быть наказано по закону.
Я запрещаю ВК делиться моей информацией, размещенной на их сайте.
ФОТОГРАФИИ АКТУАЛЬНЫЕ или ПРОШЛЫЕ, ПУБЛИКАЦИИ, НОМЕР ТЕЛЕФОНА ИЛИ ПОСТ...
Абсолютно ничего нельзя использовать НИ В КАКОЙ ФОРМЕ без моего ПИСЬМЕННОГО разрешения».
Но подобные сообщения не имеют никакой юридической силы – соглашение с ВК подписано, и оснований менять его у пользователя нет. Надо понимать, что все авторские права защищены Гражданским кодексом РФ, в соответствии с которым и составлялось Соглашение, и соцсеть вправе использовать их на основе неисключительного права и безвозмездно (не получая от этого материальной выгоды – денег).
То есть, ВКонтакте, обучая свою языковую модель на основе комментариев и постов пользователей соцсети, законы не нарушает. А вот к чему приведет ее подход – увидим по результатам работы нейросети.
Читайте также:
Причины блокировки групп «ВКонтакте»: руководство с примерами
За что прилетает страйк «ВКонтакте»: это шестиуровневая система