Научная статья на тему 'РАСПОЗНАВАНИЕ ГОЛОСОВ НЕСКОЛЬКИХ ПТИЦ НА ОДНОЙ ЗВУКОЗАПИСИ'

РАСПОЗНАВАНИЕ ГОЛОСОВ НЕСКОЛЬКИХ ПТИЦ НА ОДНОЙ ЗВУКОЗАПИСИ Текст научной статьи по специальности «Математика»

CC BY
128
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ ГОЛОСОВ ПТИЦ / СВЕРТОЧНЫЕ СЕТИ / АЛГОРИТМ ВНИМАНИЯ

Аннотация научной статьи по математике, автор научной работы — Воронина В.В., Шишин С.А.

Исследуется задача распознавания голосов нескольких птиц на одной звукозаписи. Решения задачи основано на применении сверочной нейронной из работы PANNs, и объединении её с слоем внимания из работы AttentionAugmentedConvolutionalNetworks. В результате разработана модель AACN-PANNsCNN14Att, которая дает повышение точности на тестовой выборке в среднем на 2,3%.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Воронина В.В., Шишин С.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

VOICE RECOGNITION OF MULTIPLE BIRDS IN ONE SOUND RECORDING

The paper investigates the problem of recognizing the voices of several birds on one sound recording. The solution to the problem is based on using convolutional network from the work of PANNs, and combining it with the self-attention layer from the work of Attention Augmented Convolutional Networks. As a result, the AACN-PANNsCNN14Att model was developed, which gives an increase in accuracy on the test sample by an average of 2.3%.

Текст научной работы на тему «РАСПОЗНАВАНИЕ ГОЛОСОВ НЕСКОЛЬКИХ ПТИЦ НА ОДНОЙ ЗВУКОЗАПИСИ»

Соответственно, необходимо работу ризонера перенести из сложной прослойки окружений на более высокий уровень, например, написать ри-зонер на python и вызывать python код, который будет обрабатывать xml структуру в owl файле.

Данные пункты будут реализованы в следующих исследованиях.

СПИСОК ЛИТЕРАТУРЫ

1. [Цуканова, 2015] Цуканова Н. И. Онтологическая модель представления и организации знаний: учебное пособие для вузов. — М.: Изд-во Горячая линия - Телеком, 2015.- С. 272.

2. [Басипов и др., 2012] Басипов А. А., Демич О. В. Семантический поиск: проблемы и технологии // Вестн. Астрах. гос. техн. ун-та. — 2012. — №1. — С. 8.

3. [Wikipedia, 2020] Approximate string matching [Электронный ресурс] //Wikipedia: [сайт].иКЬ: https://en.wikipedia.org/wiki/ Approx-imate_string_matching (дата обращения: 11.12.2020).

4. [Wikipedia, 2020] Расстояние Левенштейна [Электронный ресурс] //Wikipedia: [сайт].иКЬ: https://щ.wikipedia.org/wiki/Расстояние_Левен-штейна (дата обращения: 11.12.2020).

5. [Целых и др., 2006] Целых, А. Н., Котов Э. М. Оценка эффективности информационного поиска // Журнал «Известия ЮФУ. Технические науки». - 2006. - С. 2.

6. [Верещагин и др., 2012] Верещагин Н. К., Шень А. Начала теории множеств. — Москва : Издательство МЦНМО, 2012. - С. 128.

Зарайский Владимир Игоревич, магистрант кафедры «Информационные системы» УлГТУ. Гуськов Глеб Юрьевич, кандидат технических наук, доцент кафедры «Информационные системы» УлГТУ.

Поступила 15.09.2021 г.

УДК 004.8

В. В. ВОРОНИНА, С. А. ШИШИН

РАСПОЗНАВАНИЕ ГОЛОСОВ НЕСКОЛЬКИХ ПТИЦ НА ОДНОЙ ЗВУКОЗАПИСИ

Исследуется задача распознавания голосов нескольких птиц на одной звукозаписи. Решения задачи основано на применении сверочной нейронной из работы PANNs, и объединении её с слоем внимания из работы AttentionAugmentedConvolutionalNetworks. В результате разработана модель AACN-PANNsCNN14Att, которая дает повышение точности на тестовой выборке в среднем на 2,3%.

Ключевые слова: распознавание голосов птиц, сверточные сети, алгоритм внимания.

Введение

Мониторинг дикой природы является важной экологической задачей. Птицы играют важную роль в экосистеме: они занимают высокие позиции в пищевой цепочке и могут показать изменения, происходящие на более низких уровнях.

Таким образом, они являются отличным индикатором ухудшения качества среды обитания и загрязнения окружающей среды.

© Воронина В. В., Шишин С. А., 2021

Звук является наиболее привлекательным способом получения информации, так как птиц легче услышать, чем увидеть. При правильном обнаружении и классификации исследователи могут быстро определять факторы качества жизни в той или иной местности на основе меняющейся популяции.

На сегодняшний день наиболее перспективными решениями в распознавании голосов птиц считается применение методов машинного обучения, а именно свёрточных нейронных сетей (CNN) [8] или рекуррентных свёрточных

нейронных сетей (RCNN) [6]. В данной работе рассмотрено именно их использование.

1. Системы распознавания голосов птиц

BirdNET [Stefan K, 2021] представляет собой глубокую сверточную нейронную сеть, которая разработана Корнельской лабораторией орнитологии совместно с техническим университет Хемница. Данная нейросеть способна идентифицировать 984 североамериканских и европейских видов птиц по звуку. Тестовые данные содержали звуки из коллекции AudioSet [4], не связанные с птицами, для последующего игнорирования данных сигналов.

Архитектура нейронной сети в данной работе основана на ResNet [5]. Она обладает возможностями хорошего масштабирования сети и обеспечивает схожую производительность по сравнению с глубокими архитектурами. Благодаря этому авторы произвели масштабирование. В результате сеть состоит из трёх основных компонентов, которые сформировали последовательность слоёв.

В работе [2] исследователи совместно используют два алгоритма классификации на основе машинного обучения. Первый smacpy обеспечивает общий базовый уровень низкой сложности, а также вследствие простоты помогает успешно избежать переобучения, он преобразует звук в мелкепстральныекоэффициеты (MFCC), а затем распределения MFCC моделируются с использованием моделей смеси Гаусса (GMM).

Работа [11] создана в рамках исследования BirdCLEF2019 [9], в котором требовалось распознать 659 видов птиц на основе выборки в 50000 записей. В ней авторы применили две наиболее популярные архитектуры сверточных нейронных сетей ResNet и Inception [10].

2. Формальное описание разрабатываемого

алгоритма

В данной работе предлагается взять в качестве основы новую нейронную сеть, представленную в работе PANNs [7], которая отлично зарекомендовала себя в распознавании широкого диапазона звуковых образов, и объединить её со слоем внимания (self-attention), описанным далее. Алгоритм внимания [1, 3] позволит конкретно указать те области на изображении, которые нужны для распознавания.

В работе PANNs исследователи предлагают предварительно обученные аудио нейронные сети (PANN) на крупномасштабном наборе данных AudioSet [4]. Предлагается архитектура Wavegram-Logmel-CNN, которая использует обе

спектрограммы log-mel, и форма волны в качестве входной функции. Отмечается, что PANN модели успешно обобщаются на более специализированные задачи распознавания звуковых образов с ограниченным количеством обучающих данных.

В процессе тренировки на вход в сформированную модель поступает одиночный однока-нальный wav файл с частотой дискретизации 32 кГц. Последующая предобработка данных создаёт mel-спектрограмму с параметрами размера окна 1024, количество фильтров 64. Сформированная mel-спектрограмма подаётся в AACN и PANNsCNN 14Att. Для AACN взяты следующие параметры: размер key вектора 40, результирующий вектор value равен 8, параметр multi-head равен 4. Результат AACN слоя в виде 8 выходов, объединяется с 54 выходами первого слоя свертки PANNsCNN14Att. В последствии производится применение нескольких слоёв свёртки и объединения оригинальной модели, размер третьего измерения выхода равен 15 и по-прежнему содержит информацию о времени. Каждый элемент этого измерения является сегментом. В последствии сначала вычисляется одномерная карта attention самой PANNsCNN14Att. Её результат будет использоваться для агрегирования результата классификации для сегмента. Далее вычисляется результат сегментной классификации. Затем выполняется агрегирование внимания для получения предсказания. Процесс обработки входного сигнала представлен на рисунке 1.

Тестовую выборку для данного алгоритма можно представить в виде множества:

Т = t2,..., tn},

где каждый элемент tj - набор звуковых файлов одного вида птицы, п - количество видов птиц.

Каждый элемент множества Т представляет собой набор одноканальных файлов, в формате wav, который можно представить в виде множества:

tj %2> ••• >

где Xj — одноканальный звуковой файл в формате wav, содержащей голос одного вида птицы, п - количество звуковых файлов для одного вида птицы.

Определим функцию преобразования звуковых файлов в mel-спектрограммы:

MelSpec(T) ^ Тте1. (1)

Функция MelSpec получает на вход тестовую выборку, а возвращает множество, преобразованное в mel-спектрограммы в виде изображений.

Описание параметра Т функции приведено выше. Множество Tmei можно представить в следующем виде:

Tmel ~ {Pmel 1> tmel 2> •••> tmel п}, где каждый элемент tmei t - набор mel-спектрограмм одного вида птицы, п - количество видов птиц.

Определим функцию:

AACN(Tmel) ^ W. (2)

Функция AACNявляется self-attention слоем, на вход которого поступает mel-спектрограмма, а на выходе получается матрица средневзвешенных значений.

Определим функцию:

Convl(Tmel)- (3)

Convl представляет собой первый сверточ-ный слой PANNsCNN14Att. На входе она получает множество Tmel.

Результат self-attention слоя множества W объединяется с результатом свертки Convl, объединение представим формулой

ConvlAACN(W, Tmei) = = CONCAT[W,Convl(Tmel)]. (4) Результат объединения оправляется в оставшиеся свёрточные слои CNNFeature и затем проходит через результирующий слой внимания PANNsCNN14Att сети. Описанный процесс отобразим в виде формулы

CNNAtt (CNNFeature{ConvlAACN(W, Tmel)))

^ OUTPUT, (5)

где OUTPUT - результат классификации, CNNFeature - свёрточные слои PANNsCNN14Att,

CNNAtt - одномерный attention слой PANNsCNN 14Att.

3. Эксперименты

В последующих экспериментах тестирование проводилось на наборе данных, взятых с сайта xeno-canto. Набор содержит записи 263 видов птиц США, по 100 записей для каждой, в общей сложности 26 300 звукозаписей. Длительность каждой из них не превышает 10 мин.

Рис. 2. Схема обработки звукового сигнала после объединения AACN слоя и РАМ№С^ЫШ4АИ: модели

Таблица 1

Замеры точности моделей на данных с шумом

Сеть 6 видов 30 видов 60 видов

PANNsCNN14Att 0,82 0,66 0,52

AACN-PANNsCNN14Att 0,832 0,678 0,537

Таблица 2

Замеры точности моделей на данных без шума

Сеть 6 видов 30 видов 60 видов

PANNsCNN14Att 0,819 0,764 0,532

AACN-PANNsCNN14Att 0,825 0,781 0,523

Таблица 3

Замеры точности моделей на данных смешанных данных

Сеть 6 видов 30 видов 60 видов

PANNsCNN14Att 0,844 0,747 0,541

AACN-PANNsCNN14Att 0,875 0,77 0,558

Сравнение точности производилось между немодифицированной РАК№СКШ4Ай моделью и с новой сформированной моделью, представленной в данной работе. Также была поставлена задача сравнить точность моделей при обучении при разном количестве видов птиц. Так для формирования тестовой выборки от исходных данных были взяты данные для 6, 30 и 60 видов птиц. Обучение сетей для большего количества видов затрудняется длительностью обучения и ограниченным набором ресурсов. Тестовая выборка была разделена на 3 набора, первый представляет не очищенные данные от шумов, вторая содержат те же данные без шума, и третья объединяет первые две, т. е. в процессе обучения в модель, чередуясь, передаются очищенные и зашумленные данные, в работе по классификации [10]. Решение о создании трёх выборок (с шумом, без шума, смешанная) было принято с целью исследования влияния данного параметра на точность обучения.

Точность сравниваемых сетей определялась F-мерой. В таблицах 1, 2 и 3 представлены результаты.

По результатам экспериментов можно сделать вывод о повышении точности распознавания новой модели в сравнении с не модифицированной РАК№СКШ4Ай. Также видно понижение точности распознавания с ростом числа видов птиц. На точность повлияли различия в тестовых наборах данных, из представленных таблиц видно, что обучение на звуковых файлах,

содержащих шум для 6 видов птиц, имеет практически одинаковую точность с очищенными данными, но при повышении количества видов заметен выигрыш в пользу второго набора данных. Лучшие результаты показал набор смешанных данных как для 6 видов, так и для 60, что является основанием его использования для будущих исследований. Разработанная модель AACN-PANNsCNN14Att дает повышение точности модели на тестовой выборке со смешанными данными в среднем на 2,3%, что подтверждает эффективность добавления AACN слоя.

Заключение В результате работы произведены исследования алгоритмов для распознавания птиц. Была представлена модель, позволяющая распознавать голоса нескольких птиц на одной звукозаписи. Экспериментально было показано, что применение двумерного self-attention алгоритма AttentionAugmentedConvolutionalNetworks совместно с сетью PANNs дает повышение точности распознавания звуковых образов птиц. В последующих работах планируется произвести исследование с другими self-attention [11], например, ResidualAttentionNetworklmageClassification [5], также их комбинированное использование. Также в дальнейшем следует исследовать возможность совместного использования PANN сетей и ResNet.

СПИСОК ЛИТЕРАТУРЫ

1. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez,

Lukasz Kaiser, IlliaPolosukhin. Attention Is All You Need,arXiv preprint arXiv: 1706.03762.

2. Dan Stowell, Michael D. Wood, Hanna Pamula, Yannis Stylianou,HerveGlotin. Automatic acoustic detection of birds through deep learning: The first Bird Audio Detection challenge Meth-ods,EcolEvol. 2019; 10: 368-380.

3. Fei Wang, Mengqing Jiang, Chen Qian, Shuo Yang, Cheng Li, Honggang Zhang, Xiaogang Wang, Xiaoou Tang. Residual Attention Network for Image Classification,arXiv preprint arXiv: 1704.06904.

4. Jort F. Gemmeke, Daniel P. W. Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R. Chan-ning Moore, ManojPlakal. Audio Set: An ontology and human-labeled dataset for audio events, " 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017, pp. 776-780, doi: 10.1109/ICASSP.2017.7952261.

5. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun Deep. Residual Learning for Image Recog-nition,arXiv preprint arXiv: 1512.03385.

6. Ming Liang, Xiaolin Hu. Recurrent Convolu-tional Neural Network for Object Recognition ,"2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, pp. 3367-3375, doi: 10.1109/CVPR.2015.7298958.

7. Qiuqiang Kong, Yin Cao, Turab Iqbal, Yuxuan Wang, Wenwu Wang, Mark D. Plumbley. PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition,arXiv preprint arXiv: 1912.10211.

8. Saad ALBAWI ,Tareq Abed MOHAMMED. Understanding of a Convolutional Neural Net-work,Conference: The International Conference on

Engineering and Technology 2017At: Antalya, Turkey, DOI: 10.1109/ICEngTechnol.2017.8308186.

9. Stefan Kahl, Fabian-Robert Stoter, HerveGoeau, HerveGlotin, Robert Planque, Willem-Pier Vellinga, Alexis Joly2. Overview of BirdCLEF 2019: Large-Scale Bird Recognition in Soundscapes, Working Notes of CLEF 2019 - Conference and Labs of the Evaluation Forum.

10. Szegedy C., Vanhoucke V., Ioffe S., Shlens J., Wojna Z. Rethinking the inception architecture for computer vision. In: Proc. IEEE Conf. Computer Vision and Pattern Recognition. pp. 2818-2826 (2016).

11. Yuan Koh1, Jaw-Yuan Chang1, Chiang-Lin Tai1, Da-Yo Huang1, Han-Hsing Hsieh2, Yi-Wen Liu1. Bird Sound Classification using Convolutional Neural Networks," 2018 IEEE 16th International Symposium on Intelligent Systems and Informatics (SISY), 2018, pp. 000295-000300, doi: 10.1109/SISY.2018.8524677.

Воронина Валерия Вадимовна, доцент кафедры «Информационные системы», факультет информационных систем и технологий, Ульяновский государственный технический университет.

Шишин Степан Александрович, студент группы ИСЭмд-21, факультет информационных систем и технологий, Ульяновский государственный технический университет.

Поступила 15.09.2021 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.