счетчик Яндекс.Метрики

Реклама в ПромоСтраницах – запустим быстро!

Заказать звонок
Телефон отдела продаж:
8 (800) 775-16-41
Наш e-mail:
mail@texterra.ru
Заказать услугу
Эта нейросеть заговорит вашим голосом – нужно всего 3 секунды сэмпла Редакция «Текстерры»
Редакция «Текстерры»

Microsoft опубликовала препринт научной статьи (исследование, которое еще не прошло рецензирование экспертов и не было опубликовано в научном журнале), в котором подробно рассказала про свою нейросеть VALL-E. Этот алгоритм может воссоздавать голос говорящего всего по 3 секундам аудиозаписи голоса.

Как работает VALL-E

Microsoft называет VALL-E «языковой моделью нейронного кодека». Сообщается, что нейросеть основана на технологии под названием EnCodec, которую анонсировала компания Meta* в октябре 2022 года.

В отличие от других методов преобразования текста в речь, которые обычно синтезируют голос, изменяя форму звуковых сигналов, VALL-E анализирует, как звучит голос человека, разбивает эту информацию на отдельные компоненты (называемые «токены») при помощи EnCodec, а затем обрабатывает информацию нейросетевыми алгоритмами. Это позволяет программе собрать воедино все, что она «знает» о звучании голоса и воспроизвести другие фразы этим же голосом.

А у TexTerra вы можете заказать разработку приложения — сделаем быстро и качественно.

Вот как это описывает сама Microsoft:

«Для синтеза персонализированной речи VALL-E генерирует соответствующие акустические маркеры, основанные на 3-секундной записи и введенной подсказке. Они позволяют лучше интерпретировать информацию о говорящем и содержимом соответственно. Сгенерированные акустические маркеры используются для синтеза конечной формы сигнала».

Microsoft обучила VALL-E на аудиобиблиотеке LibriLight, собранной компанией Meta*. Она содержит 60 000 часов англоязычной речи от более чем 7000 ораторов. Такой массив компания получила по большей части из аудиокниг без авторского права LibriVox.

Продвинем ваш бизнес
Подробнее

Создание звука нейросетью

На сегодняшний день ни исходного кода, ни какой-либо тестовой модели новой нейросети в общем доступе нет. Однако на сайте VALL-E есть десятки образцов работы нейросети, которые можно прослушать и сделать вывод о возможностях алгоритма.

Пролистав сайт нейросети ниже, можно увидеть несколько больших таблиц. В колонке Text находится расшифровка произносимых фраз, в колонке Ground Truth содержится образец реального голоса человека, который произнес ту или иную фразу, в столбце Speaker Prompt — образец голоса, на котором обучилась нейросеть, а в столбце VALL-E — озвученный нейросетью текст на основе 3-секундного отрывка из Speaker Prompt.

Сравнивая оригиналы произнесенных фраз и сгенерированную VALL-E версию, можно увидеть различия как в темпе речи, так и в интонациях, однако присутствие нейросети ни в одном из образцов не угадывается. Да, они получаются в итоге немного разными, однако нейросеть — не бог и не экстрасенс и не должна воссоздавать все интонации говорящего человека. Тем более, если речь идет лишь о 3-секундной обучающей выборке.

Есть все основания предполагать, что пара десятков минут записи вашего голоса позволит VALL-E с легкостью озвучивать вас, передавая даже эмоции в голосе и ваши любимые интонации. Как вам такая перспектива? Уже напрягает немного?

Читайте также:

Нейросеть Riffusion делает музыку из текстового описания

Роботы-маркетологи: как нейросети изменят мир интернет-маркетинга

Как вы могли выглядеть 300 лет назад — нейросеть вас нарисует

Поделиться статьей:

Новое на сайте

2 июн 2025
262
Кейс SEO в узкой B2B-нише: удвоили трафик на сайт «Элдис» и вывели его в топ-10

В этом кейсе — результаты SEO-продвижения сайта B2B-компании из сферы ЖКХ за март — ноябрь 2024 года. Мы помогли ей вырасти в топ-10 по ключам на 29%, увеличить трафик на 47% и вдвое поднять посещения блога. Это результат не разовых кампаний — а выстроенной системы. Рассказываем, как устроено SEO-продвижение, которое работает в нишах с долгим циклом сделки.

30 мая 2025
11 821
Как структура сайта влияет на конверсию

При запуске проекта один из ключевых вопросов — структура сайта. Ошибки на этом этапе обходятся дорого: плохо растет трафик, клиенты путаются, конверсия снижается. В этой статье разберемся в типах структур и поможем выбрать подходящую под ваши бизнес-цели.

28 мая 2025
879
Редизайн сайта с учетом UX: как не потерять клиентов

Если сайт устарел или стал неудобным, кажется логичным его обновить. Но редизайн сайта без UX-анализа может привести к снижению конверсии. Рассказываем, как избежать просадки в метриках и что делать, если это все-таки произошло.

UX
Смотреть все статьи

У вас есть деловой запрос? Давайте обсудим!

Оставьте свои контакты, мы свяжемся с вами в ближайшее время.

Нажимая на кнопку «Оставить заявку», вы подтверждаете свое согласие на обработку пользовательских данных