Главная Блог Texterra С любимыми не расставайтесь! – оживляем человека

С любимыми не расставайтесь! – оживляем человека

В общих чертах это уже возможно, если объединить нейросети для генерации изображений, текста, звуковых сообщений и анимирования лиц с фотографий.

Гайды Нейросети

Никита Шевцев

Дата публикации: 6 фев 2023

9 минут

21 557

Сегодня на рынке есть сотни нейросетей — одни создают изображения по текстовому запросу, другие способны заставить говорить людей с фотографий, третьи могут самостоятельно придумывать текст и вступать в диалоги с людьми, а четвертые — озвучивать введенный текст. Но что если объединить все эти алгоритмы? Сможем ли мы «воскресить» умершего человека, как в эпизоде «Я скоро вернусь» из второго сезона «Черного зеркала»?

В общем ответ скорее «да», чем «нет».

Собираем данные

Для начала нам понадобится собрать всю информацию о человеке. И чем больше, тем лучше. Как минимум, потребуются:

записи голоса/звонков с текстовой расшифровкой;
дневник или другие нерабочие записки;
сообщения со смартфона;
фотографии и видео с человеком;
информация о привычках человека и необычных фразах, которые он мог вставить в разговоре;
информация о жизни, основные этапы биографии и случаи из жизни;

Этот минимальный набор данных уже сегодня поможет создать виртуальную модель человека, управляемую искусственным интеллектом. Конечно, в общении с этой моделью вы сможете частично узнать человека, которого она копирует, но такой искусственный интеллект все еще будет вести себя как нейросеть — его реакции не будут “человеческими” и беседы с ним будут не такими интересными.

Представьте человека, который всегда говорит только правду, может похвастаться энциклопедическими знаниями всего на свете и постоянно ничего не делает. Поначалу с ним весело пообщаться, вы будете задавать кучу вопросов, однако вскоре придет осознание, что вы беседуете со статичным куском железа, у которого даже нельзя спросить «что ты сегодня делал?» Вернее спросить можно, но ответ вряд ли удивит.

«Если вы можете записывать данные, вы можете использовать их для обучения искусственного интеллекта (ИИ), и он будет вести себя в соответствии с параметрами, которые вы задали. Но он не может реагировать на случайные события. Люди понимают семантику более широко и способны давать совершенно непредсказуемые ответы и реагировать на ситуации по-разному.

В будущем мы, вероятно, сможем разработать ИИ, который будет реагировать по-человечески на новые ситуации, но мы не знаем, сколько времени это займет. В сообществе экспертов по ИИ сейчас идут дебаты на эту тему: одни считают, что на это уйдет 50 с лишним лет, а другие думают, что намного меньше», — утверждает Амит Рой-Чоудхури, профессор электротехники и вычислительной техники в Калифорнийском университете в Риверсайде.

Как бы то ни было, давайте разберемся, насколько хорошо мы можем воссоздать цифровую «копию» человека при помощи нейросетей уже сегодня.

Воспроизводим внешний вид

Для этого можно воспользоваться любой из существующих нейросетей для генерации изображений. Один из вариантов — MidJourney и при помощи этой нейросети сгенерировать несколько десятков/сотен картинок человека по загруженным снимкам.

Гораздо более интересным представляется вариант использования бесплатной нейросети Stable Diffusion. Ее можно установить себе на компьютер и дообучить на своем наборе данных. В этот набор должны войти фотографии человека, которого мы хотим воссоздать. Чем больше будет фотографий в различные моменты жизни и в разном эмоциональном состоянии, тем лучше нейросеть сможет потом генерировать изображения этого человека. Главное — подробно и правильно разметить фотографии, которые мы будем загружать в качестве обучающей выборки.

После обучения мы можем давать Stable Diffusion запросы на генерацию фотографий этого конкретного человека в различном возрасте, эмоциональном состоянии, с разной прической и в конкретных местах. Также можно задавать параметры снимка: например, попросить сгенерировать картинку человека в полный рост.

Также можно попросить сгенерировать несколько десятков (а лучше сотен) вариаций одной и той же фотографии человека. Например, задаем запрос «*имя человека* в темной комнате перед монитором, вид из веб-камеры, 4k» и генерируем несколько десятков вариаций под разным углом обзора.

После этого загружаем полученные снимки в нейросеть Instant NeRF от Nvidia и – вуаля! – у нас есть трехмерная сцена с нужным человеком, в которой мы можем рассмотреть его со всех сторон. Примечательно, что исходный код Instant NeRF находится в открытом доступе и использовать его тоже не составит труда.

Можно пойти еще дальше и использовать нейросеть Point-E для создания 3D-модели человека. Конечно, после этого придется серьезно поработать с прототипом в 3D-редакторе, добавив трехмерному аватару правильные черты лица, одежду и так далее. Но такой способ позволяет добиться куда большего – например, воссоздать целую комнату в трехмерном пространстве с предметами и нужным человеком. Затем это в пространство можно войти как игрок в VR-очках и общаться с аватаром, управляемым искусственным интеллектом. Например, в этом видео один из разработчиков Nvidia сгенерировал при помощи Instant NeRF трехмерное пространство из загруженных фотографий и прогулялся по нему при помощи VR-очков:

Звучит футуристично, но пока обеспечить полноценное воссоздание образа умершего человека и его существование в виртуальном пространстве — невероятно сложная задача, которая потребует комплексной работы нескольких нейросетей. Однако все технологии, необходимые для ее реализации, уже существуют. Остается объединить их.

Воспроизводим речь

Самое сложное — воспроизвести манеры человека и его реакцию на те или иные слова. Обычный чат-бот с такой задачей не справится, ведь он запрограммирован на ответы по заданному алгоритму.

С другой стороны, есть нейросети ChatGPT OpenAI и LaMDA от Google (скоро появится в открытом доступе), с которыми можно беседовать практически как с реальным человеком. Проблема лишь в том, что обычные пользователи пока не могут обучать нейросеть на собственных наборах данных и довольствуются тем, что алгоритм уже знает.

Однако это лишь вопрос времени, когда появится возможность самостоятельно дообучать нейросети на основе загруженных пользователями данных. Нет никаких сомнений в том, что ChatGPT, обученная на предоставленной ей информации о конкретной персоне, сможет давать ответы «в стиле» этого человека.

Воспроизводим голос

Если с чат-ботом, имитирующим личность человека, мы разобрались, то воссоздать голос тем более не составит труда. Для этого существует несколько сервисов. Самый продвинутый — нейросеть VALL-E от Microsoft, которой достаточно трех секунд образца аудио, чтобы она могла воспроизводить нужный голос. Однако этой технологией пока воспользоваться нельзя — Microsoft переживает за фейки, которые наводнят интернет, если к VALL-E появится открытый доступ.

И переживает техногигант не зря, ведь существует аналогичный бесплатный сервис для генерации аудио от стартапа ElevenLabs. Тысячи людей уже воспользовались им и далеко не в благих целях — кто-то, например, сгенерировал аудио, в котором Эмма Уотсон читает «Мою борьбу» Гитлера, а журналисты The Verge создали запись, где Джо Байден подтверждает правдивость теории «пиццагейт».

Звучат сгенерированные нейросетью голоса очень похоже на реальных людей. Так что, если у вас есть достаточное количество записей голоса нужного человека, вы без труда сможете воссоздать его речь при помощи нейросети. «Прикрутив» чат-бота по API к такому сервису, можно озвучивать реплики «цифрового двойника».

Однако чего пока не умеют нейросети, так это – продвигать бизнес в интернете. Зато умеет агентство TexTerra, у которого вы можете заказать услугу по видеомаркетингу для бизнеса.

Собираем воедино

Когда мы создали виртуальный портрет человека, воссоздали его манеру речи и голос, наступает самое сложное — объединить это всё так, чтобы оно заработало. Насколько это сложная задача, мы судить не беремся — оставим рассуждения программистам. Но кое-кому уже удалось провернуть подобное.

Речь про разработчика по имени Брайс (свои личные данные он предпочел не раскрывать), который создал аниме-девушку, способную видеть, отвечать и реагировать на действия своего создателя. При разработке системы он использовал ChatGPT, Stable Diffusion 2 и Microsoft Azure TTS. Последний сервис помогал генерировать голос и распознавать изображения с камеры.

В итоге, по словам парня, нейросеть стала не просто забавой — он стал так часто изучать китайский язык с ChatGPT-chan (так разработчик назвал виртуального персонажа), что у него начались проблемы в реальных отношениях и нейросеть пришлось удалить. Не беремся судить, правда это или просто хайп, но прецедент создан.

Если добавить ко всему вышесказанному сервис по восстановлению старых фото от MyHeritage и другую нейросеть от той же компании, заставляющую снимки двигать губами, идея по «воскрешению» давно умерших родственников при помощи нейросетей становится не такой уж утопической.

Как мы создали цифрового двойника

Все описанные выше технологии уже сегодня каждый может использовать для создания своей же цифровой копии. В качестве эксперимента мы в TexTerra сделали «клона» автора этой статьи. Для этого использовали всего три нейросети — ChatGPT для генерации «личности» и текста разговора, ElevenLabs для озвучки полученного текста голосом автора и DeepStory от MyHeritage для «оживления» фотографии.

Что получилось в итоге, вы можете оценить сами на видео ниже:

На первый взгляд, выглядит довольно дико и несуразно. Но убрать акцент — и это будет практически рабочий аватар. Самое интересное, что сделать такую цифровую копию самого себя сейчас может каждый — в отдельной статье мы подробно расписали, как вы можете справиться с этим за час.