По какой именно причине пойдут мурашки, зависит от музыканта: кому-то созданный нейросетью звук будет резать слух, кто-то испугается за свое будущее, а кто-то поймет, как сильно расширит его возможности новая нейросеть. В любом случае, равнодушным она вас не оставит.
Нейросеть, создающая музыку
Никого уже не удивишь нейросетями, которые создают целые поэмы по одной фразе или генерируют картины, побеждающие в конкурсах, по текстовому описанию. Музыка должна была стать следующей мишенью разработчиков нейросетей, и, наконец, у нас есть качественное ПО, способное не просто миксовать различные треки, но и создавать целые композиции по одному текстовому описанию.
Нейросеть называется Riffusion (название отчасти объясняется именем нейросети Stable Diffusion, на основе которой создана программа, и музыкальным термином «рифф»). Принцип ее работы основан на обработке сонограмм — двумерных изображений, показывающих зависимость мощности сигнала от времени. По сути, это тот графический вид, в котором мы привыкли воспринимать музыку:
Два разработчика — Сет Форсгрен и Хайк Мартирос — воспользовались тем фактом, что сонограмма является изображением, и обучили Stable Diffusion на примерах сонограмм, связав каждую из них в «мозгах» нейросети с описаниями звуков или музыкальных жанров, которые они представляют. В результате нейросеть научилась сопоставлять музыкальные жанры с видом сонограммы и смогла генерировать собственные подобные изображения по текстовому описанию.
Изображения, созданные Riffusion, можно конвертируются в звуковую дорожку при помощи библиотеки PyTorch от TorchAudio на Python.
Тест нейросети Riffusion
Интерфейс нейросети Riffusion очень прост: надо лишь ввести в специальной строке описание нужной вам мелодии на английском, после чего нажать Enter, а затем — кнопку воспроизведения в правом верхнем углу. Затем можно поделиться созданным рифом.
Вот что выдала нам нейросеть по запросу «black metal in 8-bit style». Не очень-то похоже на ритмы блэк-метала, но зато вторую часть запроса нейросеть поняла верно.
Тогда мы попросили нейросеть сгенерировать российский гимн в стиле рок. Видимо, нейросеть не знает российский гимн, поэтому композиция вышла странной.
Зато, например, «lo-fi бит для праздников» получился очень даже неплохим. А вот с запросами вроде «kpop boys/girls band» нейросеть справляется не очень — слова практически не слышны, хотя отдаленно стиль кажется похожим на популярные группы.
В общем, если вы хотите быстро создать музыку без авторских прав и не маяться с долгим поиском подходящей композиции, эта нейросеть вполне сможет сгенерировать небольшой инструментал.
Нейросети, конечно, могут многое, но вот создать контент для сайта они пока не могут — для этого нужен опыт и насмотренность профессионалов. Например, специалистов TexTerra, у которых вы можете заказать соответствующую услугу.
Читайте также:
Сбер обновил свою нейросеть – тест Kandinsky 2.0
Китайская нейросеть делает из вас персонажа аниме. Бесплатно