У вас бизнес в сфере торговли? Приведем вам клиентов!

У вас бизнес в сфере торговли? Приведем вам клиентов!

Подробнее
mail@texterra.ru
Заказать звонок
Заказать услугу
Позвонить: 8 (800) 775-16-41
Связаться со мной

Нейросеть Riffusion делает музыку из текстового описания

Мы протестировали нейросеть, от которой у музыкантов будут мурашки по коже.

Нейросеть Riffusion делает музыку из текстового описания
Дата публикации: 20 декабря 2022
Никита Шевцев
8 093
Время чтения: 3 минуты
Нейросеть Riffusion делает музыку из текстового описания Редакция «Текстерры»
Редакция «Текстерры»

По какой именно причине пойдут мурашки, зависит от музыканта: кому-то созданный нейросетью звук будет резать слух, кто-то испугается за свое будущее, а кто-то поймет, как сильно расширит его возможности новая нейросеть. В любом случае, равнодушным она вас не оставит.

Нейросеть, создающая музыку

Никого уже не удивишь нейросетями, которые создают целые поэмы по одной фразе или генерируют картины, побеждающие в конкурсах, по текстовому описанию. Музыка должна была стать следующей мишенью разработчиков нейросетей, и, наконец, у нас есть качественное ПО, способное не просто миксовать различные треки, но и создавать целые композиции по одному текстовому описанию.

Нейросеть называется Riffusion (название отчасти объясняется именем нейросети Stable Diffusion, на основе которой создана программа, и музыкальным термином «рифф»). Принцип ее работы основан на обработке сонограмм — двумерных изображений, показывающих зависимость мощности сигнала от времени. По сути, это тот графический вид, в котором мы привыкли воспринимать музыку:

Пример сонограммы

Два разработчика — Сет Форсгрен и Хайк Мартирос — воспользовались тем фактом, что сонограмма является изображением, и обучили Stable Diffusion на примерах сонограмм, связав каждую из них в «мозгах» нейросети с описаниями звуков или музыкальных жанров, которые они представляют. В результате нейросеть научилась сопоставлять музыкальные жанры с видом сонограммы и смогла генерировать собственные подобные изображения по текстовому описанию.

Изображения, созданные Riffusion, можно конвертируются в звуковую дорожку при помощи библиотеки PyTorch от TorchAudio на Python.

Тест нейросети Riffusion

Интерфейс нейросети Riffusion очень прост: надо лишь ввести в специальной строке описание нужной вам мелодии на английском, после чего нажать Enter, а затем — кнопку воспроизведения в правом верхнем углу. Затем можно поделиться созданным рифом.

Вот что выдала нам нейросеть по запросу «black metal in 8-bit style». Не очень-то похоже на ритмы блэк-метала, но зато вторую часть запроса нейросеть поняла верно.

Тогда мы попросили нейросеть сгенерировать российский гимн в стиле рок. Видимо, нейросеть не знает российский гимн, поэтому композиция вышла странной.

Зато, например, «lo-fi бит для праздников» получился очень даже неплохим. А вот с запросами вроде «kpop boys/girls band» нейросеть справляется не очень — слова практически не слышны, хотя отдаленно стиль кажется похожим на популярные группы.

В общем, если вы хотите быстро создать музыку без авторских прав и не маяться с долгим поиском подходящей композиции, эта нейросеть вполне сможет сгенерировать небольшой инструментал.

Нейросети, конечно, могут многое, но вот создать контент для сайта они пока не могут — для этого нужен опыт и насмотренность профессионалов. Например, специалистов TexTerra, у которых вы можете заказать соответствующую услугу.

Читайте также:

Сбер обновил свою нейросеть – тест Kandinsky 2.0

Китайская нейросеть делает из вас персонажа аниме. Бесплатно

Выставка с картинами от нейросети DALL-E: как вам такое?

Оглавление

© «TexTerra», при полном или частичном копировании материала ссылка на первоисточник обязательна.
Нашли ошибку в тексте? Выделите нужный фрагмент и нажмите ctrl + enter.

Закажите бесплатную консультацию

Оставьте свои контакты,
мы свяжемся с вами в ближайшее время.

Ошибка заполнения!