Оживили клона за час и поговорили с ним на ТВ. И вы тоже так сможете!

Тему цифрового бессмертия не раз брали за основу своих произведений писатели-фантасты и голливудские сценаристы. Взять хотя бы виртуальный город Сан-Джуниперо из одноименной серии сериала «Черное зеркало», в который сознание людей в виде цифровых аватаров отправлялось после смерти. Казалось, что эта фантазия довольно далека от реальности, однако сегодня, благодаря нейросетям, мы все ближе подходим к тому моменту, когда цифровое бессмертие станет таким же обыденным, как создание профиля в VK.

Что такое цифровой аватар?

Нашу личность можно условно разделить на оффлайновую и онлайновую. Представим человека (например, автора этой заметки), который постоянно работает удаленно. Его коллеги ни разу не видели его оффлайн, а значит, знают только «онлайновую» часть его личности.

В этой онлайновой части мы можем выделить условно, три составляющие:

  • текстовую (общение в чатах)
  • аудио (голосовые сообщения, звонки)
  • видео (видеоконференции, совещания)

Эти три составляющие также полностью обеспечивают большинство функций удаленного работника. Например, редактор TexTerra каждый день в 10 утра ходит на рабочие созвоны, пишет тексты, отправляет их на публикацию и проверяет корректность верстки — это лишь главные обязанности.

А теперь представим, что на созвоне вместо человека присутствует оживленная нейросетью MyHeritage двумерная картинка работника, слова руководителя расшифровывает нейросеть-транскрибатор, ChatGPT дает на них ответ, а озвучивает полученный текст сервис ElevenLabs. Это и будет цифровой аватар — фактически, скопированная онлайновая часть человеческой личности.

Самое интересное, что сегодня мы уже можем «на коленке» создать подобный аватар, используя общедоступные сервисы. Чтобы доказать это не словом, а делом, мы в TexTerra провели эксперимент: взяли нейросеть ChatGPT и попросили ее скопировать черты личности, после чего использовали нейросеть от ElevenLabs для озвучки текста и DeepStory от MyHeritage для «оживления» двумерной фотографии.

Вот какой результат мы получили:

Согласны, выглядит немного топорно и пугающе — акцент аватара оставляет желать лучшего, а лицо на изображении порой застывает и перестает моргать — двигаются только губы. И тем не менее, этот аватар был создан нами буквально за час при использовании доступных каждому нейросетей.

Заметим также, что проблема с акцентом может решиться уже в скором будущем — просто ElevenLabs пока совсем не поддерживает никакие другие языки, кроме английского. Чтобы сделать аудио для этого цифрового аватара, мы заставили нейросеть читать транслит. Учитывая прогресс в развитии нейросетей (ChatGPT, кстати, хорошо понимает русский и пишет на нем неплохо), через год или даже меньше, нейросети заговорят и по-нашему — тут уже англоязычного акцента мы не услышим.

А теперь расскажем алгоритм, при помощи которого каждый сможет создать свой цифровой аватар за час.

Как создать цифровой аватар

Вот краткое видеоописание того, как мы создавали цифровой аватар:

А теперь рассмотрим этот процесс по шагам.

Создаем чат-бота

Основой самого аватара является, конечно, ChatGPT. Поэтому заходим на официальный сайт нейросети и создаем новый чат. В нем вводим запрос на русском: «Я хочу, чтобы ты создал мой цифровой аватар, который сможет общаться так же, как я. Какую информацию мне нужно прислать тебе, чтобы ты смог создать мой цифровой аватар только для общения в чате?»

В ответ ChatGPT выдаст примерно такой список информации, которая от вас потребуется:

Каждый раз нейросеть выдает разный список — если мы создаем аватара просто в виде чат-бота, а озвучивать и «оживлять» его будем при помощи других нейросетей, можно игнорировать пункты, где бот просит вас прислать фото или дать пожелания по голосу.

После того, как вы подробно расписали всю нужную информацию, начинается самое интересное. Вы должны заставить нейросеть представить, что она — это ваш цифровой двойник. Для этого дайте ей примерно такой запрос:

«С этого момента ты будешь отвечать на вопросы как мой цифровой аватар. Используй ту информацию, которую я тебе дал, чтобы отвечать на вопросы так, как это сделал бы я. Ты — мой цифровой аватар, а я — твой собеседник. Напиши: «Привет! Я твой цифровой аватар», если ты всё понял».

Звучит как гипноз, но такие запросы действительно работают. Когда в ответ бот напишет «Привет! Я твой цифровой аватар», с ним можно начинать общение. Тут стоит сказать, что бота нужно периодически поправлять и учить, как нужно — прямо, как маленького ребенка. Говорите ему, если он отвечает не так и поправляйте. Например, можно дать команду: «используй на 30% больше слов-паразитов — «типа», «получается» и «короче», если вы замечаете это за собой в реальной жизни.

Когда бот озвучен и диалог построен, мы можем озвучить полученный текст нашим голосом.

Воссоздание голоса

Чтобы заставить бота говорить моим голосом, мы загружали текст на сервис ElevenLabs. Предварительно оплатили подписку, чтобы разблокировать функцию создания пользовательских голосов. Загрузили буквально 3 минуты аудиозаписей с моим голосом — я записал их и отправил себе в ВК, откуда скачал при помощи SaveFrom.net. Буквально пара минут — и нейросеть обучилась на моем голосе и смогла говорить на нем. Правда, на английском языке.

Затем мы использовали текст из ранее сгенерированного разговора с нейросетью ChatGPT в роли нашего аватара и озвучили ее моим голосом. Полученное аудио можно легко скачать.

Завершающий этап — создание «говорящей головы» по статичной картинке. На это способна нейросеть DeepStory от MyHeritage — ее мы и использовали.

Оживляем фото

Тут всё относительно просто — переходим на нужный раздел сайта MyHeritage, предварительно заведя там аккаунт, и загружаем свою фотографию. Желательно, чтобы это был портрет и большую его часть занимало лицо. Алгоритм обработает ваше фото и выдаст такое окошко:

Заполняем все поля и переходим дальше. В следующем окне вводим тот текст, который будет озвучивать наша «говорящая голова» (придется вводить транслитом) и вуаля — меньше чем через минуту 2D-картинка уже сможет говорить.

Акцент у получившегося аватара тут будет еще хуже, чем у ElevenLabs, поэтому мы наложили на видео сгенерированный ранее звукоряд и подкорректировали скорость видео и аудио так, чтобы движения губ совпали со звуком.

Подробнее обо всей проделанной работе и о том, когда нейросети смогут обеспечить людям цифровое бессмертие, смотрите в записи пресс-конференции телеканала НСН «Нейросети открывают путь к бессмертию», на которой выступил наш директор по контенту и маркетингу Александр Монахов и мой цифровой аватар:

Читайте также:

С любимыми не расставайтесь! – оживляем человека

Эта нейросеть заговорит вашим голосом – нужно всего 3 секунды сэмпла

Эта нейросеть восстанавливает старые фото – протестировали ее

#
Нейросети
© «TexTerra», при полном или частичном копировании материала ссылка на первоисточник обязательна.