УДК 004.62
ВЫБОР ОПТИМАЛЬНОГО СОЧЕТАНИЯ КЛАССИФИКАЦИОННЫХ ПРИЗНАКОВ
ПРИ РАСПОЗНАВАНИИ АУДИОСИГНАЛОВ
В.Е.Мельников Научный руководитель - С. С. Бежитский
Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева, Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: Azov-97@mail.ru
Рассматривается зависимость точности классификатора аудио сигналов от различных наборов классификационных признаков аудио сигнала. Предложено эффективное сочетание классификационных признаков при распознавании аудиосигналов.
Ключевые слова: интеллектуальный анализ данных, анализ данных, отбор признаков, аудио анализ, классификация музыки
SELECTING THE OPTIMAL COMBINATION OF CLASSIFICATION FEATURES IN
RECOGNIZING AUDIO SIGNALS
V.E. Melnikov Scientific supervisor - S.S. Bezhitskiy
Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation
E-mail: Azov-97@mail.ru
In this work we consider the dependence of the accuracy of the classifier of audio signals and propose the most optimal combination of classification features for audio signal recognition.
Keywords: datamining, data analysis, feature selection, audio analysis, music classification
Введение. В случае, если самолет попадает в авиакатастрофу, проводится анализ содержимого бортового самописца. Анализ аудиозаписей является одним из основных способов установить причину катастрофы. Существует некоторое множество причин. Следовательно, имеется задача классификации аудио сигнала. Далее возникает вопрос об автоматизации классификации. Отбор важных признаков аудио сигнала является важной составляющей возникшего вопроса.
Выделение или отбор классификационных признаков - это процедура идентификации важности переменных в выборке с целью сократить признаковое пространство перед построением моделей методов машинного обучения и интеллектуального анализа данных (Data Mining) [1]. Сокращение числа классификационных признаков (далее предикторов) необходимо по нескольким причинам:
- значимость предикторов - как правило, исходная выборка всегда содержит много «мусорных данных»: шумов, выбросов, а на реальный результат влияют лишь несколько предикторов;
- точность решения - некоторые модели Machine Learning чувствительны к величине входного вектора. Например, у нейросетей большое число входных данных может привести к переобучению;
Секция «Математические методы моделирования, управления и анализа данных»
- скорость вычислений - чем меньше предикторов, тем быстрее будут идти расчеты в модели классификации.
В данной в работе исследовалась эффективность решения задачи классификации в зависимости от выбора сочетания предикторов, участвующих в обучении классификатора.
В работе использована выборка для решения задачи классификации музыкальных жанров ОТ1ЛЫ [2].
Набор данных состоит из 1000 звуковых дорожек каждые по 30 секунд и содержит 10 жанров: блюз, классику, кантри, диско, хип-хоп, джаз, регги, рок, металл и поп. Каждый жанр состоит из 100 звуковых клипов.
Каждый аудио сигнал был предварительно обработан и были рассмотрены различные комбинации спектральных признаков, полученных путем преобразования временного сигнала в частотную область с помощью преобразования Фурье [3-4]. Итак, были выделены были следующие предикторы: 20 цепельных коэффициентов дае/-частоты, спектральный центроид, частота пересечения нуля, частоты цветности, спектральный спад, ширина спектра и другие. При выборе оптимального сочетания классификационных признаков рассматривалась возможность сокращения коэффициентов. Кроме того, встал вопрос об избыточности данных при использовании таких параметров, как: ширина спектра и частота пересечения нуля, поэтому рассматривались различные сочетания признаков, в которых отсутствует один или несколько вышеобозначенных признаков.
При решении задачи классификации оценивались 2 параметра: точность модели и значение функции потерь.
Точность классификатора равна отношению количества правильно классифицированных аудио сигналов к общему количеству рассмотренных объектов в выборке. Для оценки потерь использовалась среднеквадратическая функция.
В работе использовался нейросетевой классификатор, состоящий из четырех полносвязных слоев:
- входной слой
- скрытый слой 1 (32 нейрона)
- скрытый слой 2 (64 нейрона)
- выходной слой (10 нейронов).
Таблица 1
Результаты испытаний различных сочетаний классификационных признаков_
№ Сочетание признаков Точность Потери
1 цепельные коэффициенты те/-частоты (20 коэффициентов), спектральный центроид, частота пересечения нуля, частоты цветности, спектральный спад, ширина спектра 0.66 1.18
2 цепельные коэффициенты те/-частоты (20 коэффициентов), спектральный центроид, частоты цветности, спектральный спад, ширина спектра 0.66 1.18
3 спектральный центроид, частота пересечения нуля, частоты цветности, спектральный спад, ширина спектра 0.665 1.39
4 цепельные коэффициенты те/-частоты (10 коэффициентов), спектральный центроид, частота пересечения нуля, частоты цветности, спектральный спад, ширина спектра 0.71 1.041
5 цепельные коэффициенты те/-частоты (20 коэффициентов), спектральный центроид, частота пересечения нуля, частоты цветности, спектральный спад 0.68 1.15
6 цепельные коэффициенты те/-частоты (20 коэффициентов), спектральный центроид, частота пересечения нуля, частоты цветности, ширина спектра 0.615 1.53
7 цепельные коэффициенты mel-частоты (20 коэффициентов), спектральный центроид, частоты цветности, спектральный спад 0.68 1.32
8 цепельные коэффициенты mel-частоты (20 коэффициентов), спектральный центроид, частота пересечения нуля, частоты цветности, спектральный спад, ширина спектра 0.68 1.07
9 цепельные коэффициенты mel-частоты (10 коэффициентов), спектральный центроид, частоты цветности, спектральный спад, ширина спектра 0.65 1.31
10 цепельные коэффициенты mel-частоты (10 коэффициентов), спектральный центроид, частота пересечения нуля, частоты цветности, спектральный спад 0.72 0.9
Сочетание номер 1 - сочетание классификационных признаков, предложенных в статье Нагеша Сингха Чаухана [2]. Результаты проведенных численных исследований (табл. 1) показали, что наибольшую точность, как и наименьшие потери достигаются при сочетании номер 10, что может говорить об избыточности данных в наборе данных, где используются классификационные признаки сочетания номер 1. Кроме того, можно заметить, что наличие таких параметров в наборе данных, как частота пересечения нуля и ширина спектра, хоть и влияет на значение функции потерь, однако на точности модели никак не сказывается.
Библиографические ссылки
1. Jason Brownlee. Evaluate the Performance Of Deep Learning Models in Keras [электронный ресурс]. URL: https://machinelearningmastery.com/evaluate-performance-deep-learning-models-keras/ (дата обращения: 16.04.21)
2. Nagesh Singh Chauhan. Audio Data Analysis Using Deep Learning with Python (Part 1) [электронный ресурс]. URL: https://www.kdnuggets.com/2020/02/audio-data-analysis-deep-learning-python-part-1.html (дата обращения: 10.04.21)
3. Прохоров С. А., Графкин В.В. Структурно-спектральный анализ случайных процессов/ СНЦРАН, 2010. 128 с.
4. Судьенкова А.В. Обзор методов извлечения акустических признаков речи в задаче распознавания диктора сборник научных трудов НГТУ. - 2019. - No 3-4 (96). - 139-164
© Мельников В.Е., 2021