Компания Meta* выложила в открытый доступ нейросеть MusicGen, способную генерировать музыкальные произведения по текстовому запросу. Мы протестировали ее и рассказываем, как работает эта технология.
Нейросеть для генерации аудио
Модель MusicGen является частью библиотеки Audiocraft для обработки и генерации аудио на основе нейросетей с глубоким обучением. Кроме модели MusicGen, которая, как можно догадаться по названию, отвечает за генерацию музыки, в Audiocraft есть нейросеть AudioGen для генерации звуков по текстовому запросу, нейросетевой аудиокодек EnCodec и совместимый с ним декодер Multi Band Diffusion.
Библиотека Audiocraft со всеми моделями находится в открытом доступе — скачать ее можно с репозитория GitHib. Там же есть инструкция по установке модели на локальный компьютер. Что самое интересное — Meta* дала возможность самостоятельно дообучать модель и сделала инструкцию о том, как это сделать. Можно, например, натренировать модель на песнях «Арии» и заставить Кипелова петь современные поп-хиты. Но будьте аккуратны — могут и привлечь за нарушение авторских прав.
Мы протестировали новую модель от Meta* — рассказываем, на что она способна.
Как сделать музыку нейросетью
Есть несколько способов воспользоваться новой нейросетью для генерации музыки:
- Hugging Face — Meta* предоставила всем желающим бесплатный доступ к пространству на сервисе Hugging Face, где можно протестировать ее сервис. Пространство работает на графической видеокарте NVIDIA A10G, так что генерация происходит относительно быстро — на 2-минутный трек, по данным Meta*, уходит десять минут генерации.
- Google Colab — энтузиасты уже успели создать пространство на этом сервисе виртуальных вычислений и воспользоваться им может любой желающий. Достаточно запустить код, и через несколько минут вам выйдет ссылка на пространство Gradio, в котором запускается интерфейс нейросети, аналогичный пространству на Hugging Face.
- Локальный компьютер — вы также можете запустить нейросеть на собственном компьютере, если у вас установлен Python и фреймворк PyTorch. По ссылке можно скопировать код для установки нейросети.
Успешно протестировать нейросеть нам удалось только в Google Colab. С локальным компьютером вариант оказался невозможен по техническим причинам у автора — нужна мощная видеокарта и 16 Гб оперативной памяти. В пространстве на Hugging Face алгоритм выдавал ошибку после 30 секунд генерации — судя по всему, из-за нагрузки на сервер.
В Google Colab все получилось — после пары минут загрузки нам пришла ссылка на Gradio-пространство. Было сказано, что она действует 72 часа:
По ссылке можем перейти в пространство, ввести текстовый запрос в поле Input Text и запустить генерацию:
Мы попросили нейросеть сгенерировать сначала песню в стиле панк-рок, а затем композицию в стиле Рика Эстли. Стоит отметить, что нейросеть на данном этапе создает по текстовому запросу только мелодию — без слов. Вот что у нас получилось:
Есть также функция загрузки аудио в качестве референса, но даже тут слов от нейросети не добиться. В общем, наш вердикт: результат получается интересным и в целом приемлемым, но главное, что это бесплатная и мощная программа для генерации мелодий, которая в перспективе станет намного лучше и быстрее.
*запрещенная в России организация, признана экстремистской
Читайте также:
Нейросеть по заказу Сбера записала музыкальный альбом. Для супермаркетов – годно!
Нейросеть Riffusion делает музыку из текстового описания
В России запущено радио с музыкой нейросети. Или не запущено