ИСПОЛЬЗОВАНИЕ НЕЙРОННЫХ СЕТЕЙ В МУЗЫКАЛЬНОЙ ИНДУСТРИИ

В.В. Якименко; И.Л. Савостьянова

УДК 009.4

ИСПОЛЬЗОВАНИЕ НЕЙРОННЫХ СЕТЕЙ В МУЗЫКАЛЬНОЙ ИНДУСТРИИ

В.В. Якименко Научный руководитель - И. Л. Савостьянова

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: vv.yakimenko@yandex.ru

В статье показано, как создается музыка с помощью нейронных сетей, рассмотрены принципы и схемы работы автокодировщика и генеративно-состязательных сетей. Также показывается способ оценки музыки созданной нейронными сетями.

Ключевые слова: Нейронные сети, генеративно-состязательные сети, автокодировщик, Jukebox.

THE USE OF NEURAL NETWORKS IN THE MUSIC INDUSTRY

V.V. Yakimenko Scientific supervisor - I.L. Savostyanova

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation E-mail: vv.yakimenko@yandex.ru

The article shows how music is created using neural networks, the principles and schemes of the auto-encoder and generative-adversarial networks are considered. It also shows a way to evaluate music created by neural networks.

Keywords: Neural networks, generative-adversarial networks, auto-encoder, Jukebox.

Творчество всегда считалось преимуществом человечества. И если в задачах, таких как вычисления и обработка информации, явное превосходство у искусственного интеллекта (ИИ) и люди активно пользуются плодами автоматизации, то в таких видах деятельности как живопись, поэзия или композиторство машины нам уступают. Но задачей автоматического создания картин, стихов и музыки ученые занимаются уже несколько десятилетий, и некоторые успехи определенно достигнуты.

Когда идет речь о создании музыки при помощи компьютера, речь может идти как об системе-ассистенте или компьютерной среде, помогающей музыкантам (композиторам, аранжировщикам, продюсерам), так и об автономной системе, нацеленной на создание оригинальной музыки. В обоих типах систем могут участвовать нейросетевые алгоритмы и глубокое обучение.

Общий принцип создания музыки искусственным интеллектом заключается в том, что нейронная сеть «смотрит» на огромное количество примеров и учится генерировать что-то похожее. В основе таких алгоритмов обычно лежат автокодировщики и генеративно-состязательные нейросети (Generative Adversarial Network, GAN).

Автокодировщик - специальная архитектура искусственных нейронных сетей, позволяющая применять обучение без учителя при использовании метода обратного распространения ошибки. То есть модель генерации музыки на основе автокодировщика

Секция «Информационно-экономические системы»

сначала сжимает необработанный звук в пространство меньшей размерности, отбрасывая некоторые из несущественных для восприятия битов информации. Затем мы обучаем модель генерировать звук из этого сжатого пространства и повышать качество до исходного звукового пространства [1].

[ nput

Output

Code

\

X

/

У /

\

J

Y V

Encoder Dccoder

Рис. 1. Работа автокодировщика

Задача генеративной модели нейронной сети (generator, G) - создать из шума реалистичный экземпляр данных, например, изображение лица или, в нашем случае, музыкальную последовательность. Дискриминативная модель (discriminator, D) отличить реальный экземпляр данных (настоящую фотографию лица или настоящую музыкальную мелодию) от той, которую создал генератор. И так, соревнуясь друг с другом, обе модели совершенствуют свои «навыки», в результате чего генеративная модель обучается создавать очень правдоподобные примеры данных [2].

Random Noise z

Рис. 2. Работа генеративно-состязательной нейронной сети

Компания OpenAI представила Jukebox, систему искусственного интеллекта с открытым исходным кодом, которая способна генерировать полноценные песни с музыкой, осмысленными текстами и вокалом [3].

Исследователи обучили Jukebox на 1,2 млн музыкальных композиций практически во всех жанрах и включала как сами композиции, так и тексты песен и метаданные - исполнителя, жанр и ключевые слова. Теперь искусственный интеллект может создавать собственные песни, которые нередко похожи на произведения тех исполнителей, на которых он обучался. Jukebox умеет имитировать определённый жанр музыки и может воссоздать стиль конкретного исполнителя.

Для проверки работы систем искусственного интеллекта был придуман тест Тьюринга. Его идея заключается в том, что человек взаимодействует с компьютерной программой и с другим человеком. Мы задаем вопросы программе и человеку и пытаемся определить, с кем же мы разговариваем. Тест считается пройден искусственным интеллектом, если проверяющий не понимает, где отвечает ИИ, а где человек.

В области генерации музыки иногда используют «музыкальный тест Тьюринга». Так, например, был протестирован алгоритм DeepBach, который генерирует ноты в стиле композитора Иоганна Баха. Были опрошены более тысячи людей (как эксперты, так и обычные люди), которые должны были отличить реального Баха от искусственного. И оказалось, что сделать это очень сложно - люди с трудом могут различать композиции, сочиненные Бахом, и созданные DeepBach.

В области создания аудио успехи пока не столь впечатляющие. Несмотря на то, что Jukebox делает смелые шаги вперед в плане качества музыки, длины аудио и способности настроиться на исполнителя или определенный жанр, различия между искусственной музыкой и произведениями, созданными людьми, все еще заметны. Так, в мелодиях от искусственного интеллекта крупные музыкальные структуры, такие как повторяющиеся припевы, мы вряд ли услышим. Также в искусственных произведениях можно услышать шумы, которые связанны со способом работы моделей. Скорость генерации музыки также довольно низкая - для полного рендеринга одной минуты звука с помощью этой архитектуры требуется около девяти часов.

Нейронная сеть научилась создавать музыку, но может ли она сама петь?

Генерация реалистичного человеческого голоса нужна не только для пения, но и во многих системах - от call-центров до личных голосовых помощников. Еще в 2016 году компания DeepMind выпустила алгоритм WaveNet, который создает очень реалистичный голос по заданному тексту. Технология доступна для двух языков - английского и китайского

В апреле 2020 года в ByteDance AI Lab создали алгоритм ByteSing. Эта система на основе нейросетевых автокодировщиков позволяет генерировать очень реалистичное пение на китайском языке.

Большинство разработчиков современных алгоритмов генерации музыки, стихов и пения отмечают, что их системы являются ассистентами. Они не претендуют на полноценную замену человеческого творчества, а, напротив, призваны помочь человеку создавать что то новое. Человек не перестанет творить по мере развития алгоритмов и программ, но будет использовать их в своей деятельности. Очень вероятно, что в будущем большое количество произведений будут созданы людьми и искусственным интеллектом совместно.

Библиографические ссылки

1. Автокодировщик // Википедия. [Электронный ресурс]. URL: https://ru.wikipedia.org/?c urid=5095741&oldid=101393856 (дата обращения: 03.04.2022).

2. Генеративно-состязательная нейронная сеть (GAN) : принцип работы. [Электронный ресурс]. URL : https://neurohive.io/ru/osnovy-data-science/gan-rukovodstvo-dlja-novichkov/ (дата обращения: 03.04.2022).

3. Искусственный интеллект Open AI научился писать песни с вокалом // Хабр. [Электронный ресурс]. URL : https://habr.com/ru/news/t/500024/ (дата обращения: 03.04.2022).

ИСПОЛЬЗОВАНИЕ НЕЙРОННЫХ СЕТЕЙ В МУЗЫКАЛЬНОЙ ИНДУСТРИИ Текст научной статьи по специальности «Искусствоведение»

Аннотация научной статьи по искусствоведению, автор научной работы — В.В. Якименко, И.Л. Савостьянова

Похожие темы научных работ по искусствоведению , автор научной работы — В.В. Якименко, И.Л. Савостьянова

THE USE OF NEURAL NETWORKS IN THE MUSIC INDUSTRY

Текст научной работы на тему «ИСПОЛЬЗОВАНИЕ НЕЙРОННЫХ СЕТЕЙ В МУЗЫКАЛЬНОЙ ИНДУСТРИИ»