Top.Mail.Ru
Заказать звонок
Телефон отдела продаж:
8 (800) 775-16-41
Наш e-mail:
mail@texterra.ru
Заказать услугу
Как мы сделали цифровую копию человека 3 нейросетями Редакция «Текстерры»
Редакция «Текстерры»

Тему цифрового бессмертия не раз брали за основу своих произведений писатели-фантасты и голливудские сценаристы. Взять хотя бы виртуальный город Сан-Джуниперо из одноименной серии сериала «Черное зеркало», в который сознание людей в виде цифровых аватаров отправлялось после смерти. Казалось, что эта фантазия довольно далека от реальности, однако сегодня, благодаря нейросетям, мы все ближе подходим к тому моменту, когда цифровое бессмертие станет таким же обыденным, как создание профиля в VK.

Что такое цифровой аватар?

Нашу личность можно условно разделить на оффлайновую и онлайновую. Представим человека (например, автора этой заметки), который постоянно работает удаленно. Его коллеги ни разу не видели его оффлайн, а значит, знают только «онлайновую» часть его личности.

В этой онлайновой части мы можем выделить условно, три составляющие:

  • текстовую (общение в чатах)
  • аудио (голосовые сообщения, звонки)
  • видео (видеоконференции, совещания)

Эти три составляющие также полностью обеспечивают большинство функций удаленного работника. Например, редактор TexTerra каждый день в 10 утра ходит на рабочие созвоны, пишет тексты, отправляет их на публикацию и проверяет корректность верстки — это лишь главные обязанности.

А теперь представим, что на созвоне вместо человека присутствует оживленная нейросетью MyHeritage двумерная картинка работника, слова руководителя расшифровывает нейросеть-транскрибатор, ChatGPT дает на них ответ, а озвучивает полученный текст сервис ElevenLabs. Это и будет цифровой аватар — фактически, скопированная онлайновая часть человеческой личности.

Самое интересное, что сегодня мы уже можем «на коленке» создать подобный аватар, используя общедоступные сервисы. Чтобы доказать это не словом, а делом, мы в TexTerra провели эксперимент: взяли нейросеть ChatGPT и попросили ее скопировать черты личности, после чего использовали нейросеть от ElevenLabs для озвучки текста и DeepStory от MyHeritage для «оживления» двумерной фотографии.

Вот какой результат мы получили:

Согласны, выглядит немного топорно и пугающе — акцент аватара оставляет желать лучшего, а лицо на изображении порой застывает и перестает моргать — двигаются только губы. И тем не менее, этот аватар был создан нами буквально за час при использовании доступных каждому нейросетей.

Заметим также, что проблема с акцентом может решиться уже в скором будущем — просто ElevenLabs пока совсем не поддерживает никакие другие языки, кроме английского. Чтобы сделать аудио для этого цифрового аватара, мы заставили нейросеть читать транслит. Учитывая прогресс в развитии нейросетей (ChatGPT, кстати, хорошо понимает русский и пишет на нем неплохо), через год или даже меньше, нейросети заговорят и по-нашему — тут уже англоязычного акцента мы не услышим.

А теперь расскажем алгоритм, при помощи которого каждый сможет создать свой цифровой аватар за час.

Продвинем ваш бизнес
Подробнее

Как создать цифровой аватар

Вот краткое видеоописание того, как мы создавали цифровой аватар:

А теперь рассмотрим этот процесс по шагам.

Создаем чат-бота

Основой самого аватара является, конечно, ChatGPT. Поэтому заходим на официальный сайт нейросети и создаем новый чат. В нем вводим запрос на русском: «Я хочу, чтобы ты создал мой цифровой аватар, который сможет общаться так же, как я. Какую информацию мне нужно прислать тебе, чтобы ты смог создать мой цифровой аватар только для общения в чате?»

В ответ ChatGPT выдаст примерно такой список информации, которая от вас потребуется:

Цифровой аватар

Каждый раз нейросеть выдает разный список — если мы создаем аватара просто в виде чат-бота, а озвучивать и «оживлять» его будем при помощи других нейросетей, можно игнорировать пункты, где бот просит вас прислать фото или дать пожелания по голосу.

После того, как вы подробно расписали всю нужную информацию, начинается самое интересное. Вы должны заставить нейросеть представить, что она — это ваш цифровой двойник. Для этого дайте ей примерно такой запрос:

«С этого момента ты будешь отвечать на вопросы как мой цифровой аватар. Используй ту информацию, которую я тебе дал, чтобы отвечать на вопросы так, как это сделал бы я. Ты — мой цифровой аватар, а я — твой собеседник. Напиши: «Привет! Я твой цифровой аватар», если ты всё понял».

Звучит как гипноз, но такие запросы действительно работают. Когда в ответ бот напишет «Привет! Я твой цифровой аватар», с ним можно начинать общение. Тут стоит сказать, что бота нужно периодически поправлять и учить, как нужно — прямо, как маленького ребенка. Говорите ему, если он отвечает не так и поправляйте. Например, можно дать команду: «используй на 30% больше слов-паразитов — «типа», «получается» и «короче», если вы замечаете это за собой в реальной жизни.

Когда бот озвучен и диалог построен, мы можем озвучить полученный текст нашим голосом.

Воссоздание голоса

Чтобы заставить бота говорить моим голосом, мы загружали текст на сервис ElevenLabs. Предварительно оплатили подписку, чтобы разблокировать функцию создания пользовательских голосов. Загрузили буквально 3 минуты аудиозаписей с моим голосом — я записал их и отправил себе в ВК, откуда скачал при помощи SaveFrom.net. Буквально пара минут — и нейросеть обучилась на моем голосе и смогла говорить на нем. Правда, на английском языке.

Затем мы использовали текст из ранее сгенерированного разговора с нейросетью ChatGPT в роли нашего аватара и озвучили ее моим голосом. Полученное аудио можно легко скачать.

Нейросеть голос

Завершающий этап — создание «говорящей головы» по статичной картинке. На это способна нейросеть DeepStory от MyHeritage — ее мы и использовали.

Оживляем фото

Тут всё относительно просто — переходим на нужный раздел сайта MyHeritage, предварительно заведя там аккаунт, и загружаем свою фотографию. Желательно, чтобы это был портрет и большую его часть занимало лицо. Алгоритм обработает ваше фото и выдаст такое окошко:

Оживление фотографий

Заполняем все поля и переходим дальше. В следующем окне вводим тот текст, который будет озвучивать наша «говорящая голова» (придется вводить транслитом) и вуаля — меньше чем через минуту 2D-картинка уже сможет говорить.

Акцент у получившегося аватара тут будет еще хуже, чем у ElevenLabs, поэтому мы наложили на видео сгенерированный ранее звукоряд и подкорректировали скорость видео и аудио так, чтобы движения губ совпали со звуком.

Подробнее обо всей проделанной работе и о том, когда нейросети смогут обеспечить людям цифровое бессмертие, смотрите в записи пресс-конференции телеканала НСН «Нейросети открывают путь к бессмертию», на которой выступил наш директор по контенту и маркетингу Александр Монахов и мой цифровой аватар:

Читайте также:

С любимыми не расставайтесь! – оживляем человека

Эта нейросеть заговорит вашим голосом – нужно всего 3 секунды сэмпла

Эта нейросеть восстанавливает старые фото – протестировали ее

Поделиться статьей:

Новое на сайте

5 мар 2024
110
Мяч с автографом, половина символов Playstation и другие патенты февраля

В подборке – Управделами президента РФ, футбольный клуб, VK, Сбер, Domino's Pizza и другие организации.

5 мар 2024
24 380
Осторожно: 5 частых причин провала в контент-маркетинге

Для контента нужен текст, для текста нужен копирайтер. На первый взгляд, что может быть логичнее, чем доверить контент-маркетинг компании такому специалисту? С другой стороны, логики здесь не больше, чем сравнивать командира роты с бойцом спецназа. 

Смотреть все статьи

У вас есть деловой запрос? Давайте обсудим!

Оставьте свои контакты, мы свяжемся с вами в ближайшее время.

Нажимая на кнопку «Оставить заявку», вы подтверждаете свое согласие на обработку пользовательских данных

Спасибо!

Ваша заявка принята. Мы свяжемся с вами в ближайшее время.

Наш подход бустит продажи. Вы платите за результат!