Научная статья на тему 'Огляд методів машинного навчання для класифікації акустичних даних'

Огляд методів машинного навчання для класифікації акустичних даних Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
403
83
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
акустичні дані / класифікація / машинний слух / машинне навчання / acoustic data / classification / machine hearing / machine learning

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — А. Г. Кривохата, О. В. Кудін, А. О. Лісняк

Останнім часом все більшого поширення набувають автоматичні системи розпізнавання звуку, зображень, відео. Такі системи знаходять різноманітні застосування на виробництві, інформаційній безпеці тощо. Серед методів, що застосовуються у таких задачах, слід виділити методи машинного навчання, як найбільш популярні та перспективні. У статті запропоновано огляд алгоритмів машинного навчання класифікації акустичних даних різного походження (природні звуки, мова, музика). Акцент робиться на глибинному машинному навчанні

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — А. Г. Кривохата, О. В. Кудін, А. О. Лісняк

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A SURVEY OF MACHINE LEARNING METHODS FOR ACOUSTIC DATA CLASSIFICATION

The task of developing machines with sensing capabilities, such as vision and hearing is one of the challenging problems in engineering and computer science. Machine hearing is the field where different problems such as audio tagging have been formulated. Tag is a short name for a label applied to some audio by an automatic tagging algorithm. There are many applications for automated audio tagging systems, for example, music recommendation systems, estimating song similarity, etc. Many researchers exploit machine learning algorithms for developing such systems. However, there is no “one-fits-all” approach to solving the problem. Thus, an overview of state-of-the-art approaches and methods is relevant. Basically, automated audio tagging systems can be decomposed into four parts: audio representation, features extraction, machine learning algorithm and accuracy estimation. Audio representation stage means that raw signal is segmented into shorter signal chunks by some windowing process. In traditional methods, a common approach is to convert the original acoustic signal to frames of a certain length. Receiving a compact representation of the acoustic characteristics of a signal is the aim of feature extraction stage. Zero-crossing rate, Spectrum shape, Short-Time Fourier Transform, Mel-frequency cepstral coefficients are widely used for feature extraction. Machine learning methods like K-means, SVM, KNN, decision trees etc. are traditionally used in audio classification. In the last two decades, the deep learning based methods have also gained popularity for audio tagging, for example, convolutional neural networks or recurrent neural networks. Deep neural networks can operate on both raw acoustical signal and features extracted from the signal. Accuracy estimation stage deploys quality assessment methods, for example, expert evaluation. The purpose of this work is the analytical review of recent publications on the classification of acoustic data by means of machine learning with an emphasis on the application of deep machine learning methods. We propose a possible direction for further development of machine hearing systems based on the analysis of publications and respective methods. This approach can use different types of ensemble learning methods with classifiers based on feature extraction and deep neural networks.

Текст научной работы на тему «Огляд методів машинного навчання для класифікації акустичних даних»

УДК 0048:681.3

А.Г. КРИВОХАТА, О.В. КУД1Н, А О. Л1СНЯК

Запорiзький нацюнальний унiверситет

ОГЛЯД МЕТОД1В МАШИННОГО НАВЧАННЯ ДЛЯ КЛАСИФ1КАЦ11

АКУСТИЧНИХ ДАНИХ

Остантм часом все бшьшого поширення набувають aemoMammHi системи розп1знавання звуку, зображень, eideo. Так системи знаходять рiзиoмаиiтиi застосування на вuробиuцтвi, iиформацiйиiй бeзпeцi тощо. Серед мeтoдiв, що застосовуються у таких задачах, слid видшити методи машинного навчання, як найбшьш пoпуляриi та перспективт. У статтi запропоновано огляд алгoритмiв машинного навчання класифжаци акустичних даних р1зного походження (природы звуки, мова, музика). Акцент робиться на глибинному машинному иавчаииi.

Ключoвi слова: акустичш дат, класифiкацiя, машинний слух, машинне навчання.

А.Г. КРИВОХАТА, А.В. КУДИН, А.А. ЛИСНЯК

Запорожский национальный университет

ОБЗОР МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ КЛАССИФИКАЦИИ АКУСТИЧЕСКИХ

ДАННЫХ

В последнее время все большее распространение получают автоматические системы распознавания звука, изображений, видео. Такие системы находят различные применения в производстве, информационной безопасности и т.д. Среди методов, которые применяются в таких задачах, следует выделить методы машинного обучения, как наиболее популярные и перспективные. В статье предложен обзор алгоритмов машинного обучения классификации акустических данных разного происхождения (природные звуки, речь, музыка). Акцент делается на глубоком машинном обучении.

Ключевые слова: акустические данные, классификация, машинный слух, машинное обучение.

A.G. KRYVOKHATA, О.У KUDIN, A.O. LISNYAK

Zaporizhzhya National University

A SURVEY OF MACHINE LEARNING METHODS FOR ACOUSTIC DATA CLASSIFICATION

The task of developing machines with sensing capabilities, such as vision and hearing is one of the challenging problems in engineering and computer science. Machine hearing is the field where different problems such as audio tagging have been formulated. Tag is a short name for a label applied to some audio by an automatic tagging algorithm. There are many applications for automated audio tagging systems, for example, music recommendation systems, estimating song similarity, etc. Many researchers exploit machine learning algorithms for developing such systems. However, there is no "one-fits-all" approach to solving the problem. Thus, an overview of state-of-the-art approaches and methods is relevant.

Basically, automated audio tagging systems can be decomposed into four parts: audio representation, features extraction, machine learning algorithm and accuracy estimation.

Audio representation stage means that raw signal is segmented into shorter signal chunks by some windowing process. In traditional methods, a common approach is to convert the original acoustic signal to frames of a certain length.

Receiving a compact representation of the acoustic characteristics of a signal is the aim of feature extraction stage. Zero-crossing rate, Spectrum shape, Short-Time Fourier Transform, Mel-frequency cepstral coefficients are widely used for feature extraction.

Machine learning methods like K-means, SVM, KNN, decision trees etc. are traditionally used in audio classification. In the last two decades, the deep learning based methods have also gained popularity for audio tagging, for example, convolutional neural networks or recurrent neural networks. Deep neural networks can operate on both raw acoustical signal and features extracted from the signal.

Accuracy estimation stage deploys quality assessment methods, for example, expert evaluation.

The purpose of this work is the analytical review of recent publications on the classification of acoustic data by means of machine learning with an emphasis on the application of deep machine learning methods.

We propose a possible direction for further development of machine hearing systems based on the analysis of publications and respective methods. This approach can use different types of ensemble learning methods with classifiers based on feature extraction and deep neural networks.

Keywords: acoustic data, classification, machine hearing, machine learning.

Постановка проблеми

Сучасний розвиток засобiв телекомушкаци та поширешсть шструменпв для редагування вмюту iнтернет сайтiв призводить до того, що в глобальнiй мереж1 1нтернет поряд з текстовою iнформацieю великого поширення набувають мультимедiйнi данi рiзного вмiсту, зокрема, акустичнi данi. Прикладом акустичних даних можуть бути музичш записи, записи лекцiй, доповiдей, записи звуков рiзного походження тощо. Для можливосп пошуку серед таких даних, зазвичай, використовуються метаданi, як1 описують в текстовому виглядi вмiст вшповвдного аудiо файлу. Формування таких метаданих виконуеться вручну, що не завжди зручно при обробцi великих об'емiв даних. Тому, актуальною задачею е розробка автоматизованих систем класифжаци акустичних даних.

Прикладом автоматизованих систем обробки мультимедшних даних можуть бути рекомендацшш системи, як пропонують користувачам певний контент в залежносп вiд даних, вказаних в профш користувача та ютори попереднiх запитiв. Також, актуальним напрямом в останнi роки е машинний слух [14]. Однiею з задач цього напряму е розробка ефективних методiв класифшацп звукiв рiзного походження, наприклад, мови, музики, природних звуков тощо. При цьому, найбшьш дослвджуваними е саме задачi аналiзу музики та мови [1]. 1ншою задачею, яка досить часто розглядаеться авторами, е виявлення звукових подш. Ця задача спрямована на обробку неперервного акустичного сигналу та перетворення його в символiчнi описи ввдповвдних звукових подiй, присутнiх на слухово! сценi [13].

В загальному вигляд^ процес аналiзу цифрових акустичних даних зазвичай складаеться з дек1лькох еташв. На початковому етапi виконуеться попередня обробка неперервного акустичного сигналу з метою представления його у дискретному цифровому виглядг При цьому, зазвичай, використовуеться ряд стандартних пiдходiв [5, 16]. Далi видiляються ознаки акустичного сигналу, сутт^ для розв'язання поставлено! задачi аналiзу. Серед найбiльш широко вживаних ознак використовуються коефiцiенти перетворення Фур'е та автокореляци, мел-кепстральнi коефщенти, хромограми. Пiсля цього отриманi ознаки використовуються як вхвдш параметри математично! моделi (наприклад, алгоритму класифжаци, кластеризацп або нейронно! мереж1). На заключному етапi виконуеться верифiкацiя отриманих результата та впровадження розроблено! системи акустичного аналiзу.

На даний момент тематищ розробки систем машинного слуху присвячена велика к1льк1сть публiкацiй i продовжують з'являтися новi. Для того, щоб мати змогу видiлити загальнi тенденци серед безлiчi робiт, необхiдними е оглядовi публшацп, як1 мiстять аналiз спiльних рис та вiдмiнностей у шдходах, якi використовують рiзнi автори.

Аналiз останнiх дослiджень i публжацш

Серед велико1 кiлькостi оглядових робгг можна видiлити декiлька, як1 е найбшьш загальними. Так, в оглядових статтях [1, 3, 19] наводиться опис компонент системи автоматично! класифшацп звуков, яка мiстить модулi попередньо! обробки, екстракцi! ознак, алгоритм навчання та модуль обчислень.

В [1] детально розглянуто подходи до видшення ознак сигналу. Наводяться критерi!, за якими можна класифiкувати мову, музику та природнi звуки. Видiляються методи, засноваш на фiзичних властивостях сигналiв та особливостях людського сприйняття звуков. Частiше за все використовуються методи видшення ознак, яш представляють акустичний сигнал у таких областях: часовш, частотнiй, кепстральнiй та вейвлет.

Огляди [3, 19] мютять аналiз загальних пiдходiв та публiкацiй з автоматично! класифжаци музичних записiв за жанрами. Пропонуеться множина найбiльш iнформативних мггок, як1 можуть використовуватись як класи при навчаннi класифiкаторiв. Розглядаються найб№ш вживанi джерела розмiчених акустичних даних, яш можуть використовуватися у системах навчання з вчителем. Зазвичай, це ввдкрип музичш бази в мереж1 1нтернет, розмiченi користувачами записи, наприклад, у сощальних мережах та даш, як1 згенеровано спецiально для розв'язання задач машинного слуху. В робот [19] окремо розглядаеться питання оцшки ефективностi систем класифiкацi! музичних файлiв за жанрами.

Попри наявнiсть доволi докладних оглядiв з дано! тематики, бшьшють з них акцентуються на класичному пiдходi до аналiзу даних засобами машинного навчання, який складаеться з еташв: видшення ознак, навчання системи, верифшащя та впровадження системи. Недостатня увага придiляеться методам глибинного машинного навчання, яш включають нейронш мереж1 з великим числом прихованих шарiв.

Мета дослiдження

Метою дано! роботи е аналп'ичний огляд останшх публiкацiй з класифiкацi! акустичних даних засобами машинного навчання з акцентом на застосування методiв глибинного машинного навчання.

Викладення основного матерiалу дослвдження

Для класифiкацi! даних, якi описаш сво!ми ознаками, можуть використовуватися як статистичш методи (класифiкатор Баеса [7], дискримшантний аналiз [4, 10], ЕМ алгоритм тощо), так i методи, як грунтуються на мiрах схожосп та вiдмiнностi (метод k-середнiх [5, 11, 17], метод опорних векторiв [5, 10, 15], метод к найближчих сусщв [5, 6] тощо).

У робот [7] розв'язуеться задача класифшацп довiльних аудiо даних. Пропонуеться автоматична система, яка розподшяе вхвдш аудiо данi на сiм клаав, зокрема, рiзнi типи музики, мова одного чи дешлькох

чоловш, звуки зовшшнього середовища. Виконано пор1вняння декшькох ознак класифшацп, показано, що найлшший результат досягаеться при використанш мел-частотних кепстральних коефщенпв та коефщенпв кодування з лшшним предиктором [16]. Процес анал1зу аудю даних складаеться з таких еташв: вилучення ознак, вдентифжащя пауз, сегментация на фрагменти та класифшащя фрагменпв. Для класифшацп використовуеться класифжатор Баеса.

Автоматичний анал1з акустичних даних знаходить застосування також i в комп'ютернш лшгвютищ. В статп [10] автори провадять лiнгвiстичне дослвдження впливу наголосу на певнi частини речення в англшськш мовi на сприйняття змiсту. Описана в робоп методологiя досл1дження передбачае використання акустичного класифiкатора (метод опорних векторiв та лшшний дискримiнантний аналiз). Для визначення ознак, що мають найбiльший вплив на результат класифшацп використовуеться метод Борута.

У робоп [11] вводиться поняття матрицi часово! залежностi, яка мютить данi про кiлькiсть повторень певних титв iнтервалiв у звукових даних. Кластеризащя аудiо даних на основi отримано! матрицi часово! залежносп виконуеться за допомогою метода k-середшх. Проiлюстровано використання розроблених алгоритмiв для кластеризаци аудiо та ввдео докуменпв.

В останнi роки все б!льше робiт присвячено використанню нейронних мереж, як при вилученш ознак з даних, так i безпосередньо при класифшацп.

Лiнiйна та нелiнiйна модель нейрошв для видiлення ознак з аудю даних наводиться в робоп [2]. При цьому моделюеться спектрально-часове поле сприйняття нейрону, а для навчання використовують даш, отриманi безпосередньо з нейрошв слухового апарату птахiв виду зяблик-зебра. Дослвджено вплив нелшшно!' функци активаци нейронiв на результат класифжаци за шiстьма класами. Як класифшатор використовувалися три методи: класифжатор Баеса, метод опорних векторiв та метод гауссових сумшей. Показано, що використання нелшшно! моделi нейронiв дозволяе пвдвищити як1сть класифiкацi!' на 15%.

Метод деформацшного дискримiнантного аналiзу звукових даних розглядаеться в [4]. Застосування цього методу до попередньо обробленого звукового сигналу дозволяе отримати стшкий до шуму вектор ознак. Кожен шар деформацшного дискримшантного аналiзу, в свою чергу, використовуе метод головних компонент та згортковi нейроннi мереж! [22] для генерування вектору ознак з входного звукового файлу та класифшацп. Як приклад описано архитектуру системи, що дозволяе знаходити звуков! в1др!зки у потоковому аудю.

У статп [6] запропоновано шдхвд до автоматично! класифшацп музичних запиав за жанрами. Особливютю подходу е те, що вихщш музичш файли розбиваються на три частини, для яких обчислюються власш 15-м!рш вектори ознак. Пюля цього кожен з вектор!в передаеться на вхщ класифшатору. Результат отримуеться шляхом голосування. На етат визначення ознак використовуеться швидке перетворення Фур'е та обчислюються так! ознаки, як спектральний центро!д та шш! Використовуються два типи класиф!катор!в: метод k найближчих сусщв та багатошарова нейронна мережа з одним прихованим шаром.

Згортков! нейронш мереж1 для отримання стшких ознак з аудю даних використовуються в роботах [12, 13]. Особливютю використання цього типу нейронних мереж е те, що на вх!д можна подавати як вектори ознак, так i «сир!», тобто, попередньо не оброблеш акустичш дан! у цифровому формат!. В [12] додатково застосовано рекурентш нейронш мереж! з вентильними рекурентними вузлами для класифжаци акустичних даних. Проводяться обчислювальш експерименти на баз! звушв оточуючого середовища. У роботах [13, 21] розв'язуеться задача виявлення специф!чних звукових подш, наприклад, плачу дитини, звуку сигнал!зацп або постршв у публ!чних мюцях тощо.

У статп [15] пропонуеться автоматична система екстракци ознак, в якш використовуеться генетичш алгоритми для отримання оптимально!, з точки зору певно! задач!, комбшацп оператор!в. Оператором можуть виступати р!зномаштш перетворення сигналу з метою отримання додаткових характеристик: алгоритми перетворення Фур'е, фшьтри, алгоритми визначення штервал1в тощо. Функщя пристосованосп генетичного алгоритму обчислюеться як м!ра якосп класифшацп аудю даних, для класифжаци використовуеться метод опорних вектор!в.

Робота [17] присвячена задач! класифжацп музики та мовлення. Пропонуеться метод ошгашзацп числа ознак для задач! класифшацп аудю запиав музики та мовлення у формат! MPEG. Для класифжаци використовуеться метод k-середшх та нечгтка нейронна мережа. Для видшення тих ознак, як найбшьш впливають на результат класифшацп застосовуються два подходи: анал!з головних компонент та генетичний алгоритм.

У [18] розглядаеться задача класифжаци музичних запиав та ству птах!в. Для класифжаци використовуеться комбшац^я методу кластеризаци за допомогою самооргашзацшних карт Кохонена та класифшатор на основ! нейронних мереж векторного квантування.

В [20] розглядаеться випадок задач! класифшацп аудю даних, при якому дан! для навчання включають фоновий шум, а дан! тестового набору записано без шуму. В цьому випадку розподши ознак ввдповвдних даних для тренування та тестування можуть бути схож1, але змщенш один ввдносно другого. Розроблено модифшацш лопстично! регреси для швелювання змщень при навчанш та тестуванш класифжатора.

Окремою задачею е тдготовка акустичних даних pi3Horo походження та позначення г'х ввдповвдними мiтками, що необхiдно для реалiзацii методiв машинного навчання з вчителем. У робот [9] визначаеться онтолопя, що формал1зуе набiр аудiо даних, який може використовуватися для навчання систем машинного слуху. Онтолопя, яка вводиться в статп, визначае систему можливих категорш звуков для розшзнавання. Пов'язаний з цiею роботою ресурс research.google.com/audioset мютить набiр розмiчених вручну звукових роликов з YouTube (понад 2 мiльйони файлiв). Кожен з десяти секундних сегментiв може ввдноситься до одного чи дек1лькох клаав онтологп. Також вiдомими платформами з даними для систем машинного слуху е freesound.org, DCASE (dcase.community) та, певною мiрою, kaggle.com.

Висновки

З аналiзу лiтературних джерел можна зробити висновок, що задача класифшацп акустичних даних i, загалом, розробки систем машинного слуху е досить актуальною. Опублшоваш на даний момент науковi статп можна умовно роздiлити на три категорй.

До першоГ ввдносять роботи, в яких виконуеться попередня обробка сигналу з метою сегментацп та вилучення ознак, далi навчаеться класифшатор на вхiд якого подаються вектори ознак. В цих роботах, зазвичай, застосовуеться перетворення Фур'е, обчислення мел-частотних кепстральних коефiцiентiв та шших частотних або спектральних характеристик сигналу. З класифiкаторiв частiше застосовуються метод ошрних векторiв, k-найближчих сусiдiв, дерева прийняття рiшень, метод k-середнiх, нейронш мереж! та iншi. Може також застосовуватися ансамбль декшькох класифiкаторiв, в такому випадку клас-переможець визначаеться шляхом голосування.

До другог категорй' можна вщнести публiкацii, в яких автори намагаються автоматизувати процес побудови оптимального набору ознак для застосування класифiкаторiв. Серед щдход!в, як! застосовуються для таког' автоматизаци, можна видшити генетичш алгоритми та нейронш мереж1. Класифжатори використовуються п ж, що i в публжащях попередньог' категорй'.

В публшащях третьог' категорй' застосовуються тдходи глибинних нейронних мереж. Часто це згортков! нейронш мереж1, на вхщ яких можуть подаватися як дан! без попередньоГ обробки, так i набори ознак акустичних даних. Ефектившсть такого подходу пояснюеться багатошаровою архитектурою згорткових нейронних мереж. Передбачаеться наявшсть дек1лькох титв шар!в: шари згортки, в яких видшяються певного виду ознаки, агрегувальш шари, в яких ввдбуваеться зменшення розм!рносп та дешлька повшстю зв'язних шар!в, в яких виконуеться класифжацгя. До недолшв такого тдходу можна вщнести складшсть налаштування нейронних мереж з! складною архитектурою та вимогливють до обчислювальних ресурав. Реал!зацгя глибинних нейронних мереж, зазвичай, потребуе системи паралельних та розподшених обчислень, залучення граф!чних процесор!в GPU.

На основ! наведеного в робот! анал!зу публжацш та метод!в, що в них застосовуються, можна запропонувати можливий вар!ант подальшого розвитку систем машинного слуху. Такий шдхщ може використовувати р!зш види ансамблевого навчання !з застосуванням класифшатор!в на основ! ознак та глибинних нейронних мереж. Таким чином, р!зш класифшатори, на вхщ яких подаються р!зш вектори ознак або дан! без попередньог' обробки, можуть бути вщносно ефективними на р!зних даних, але об'еднуватися в один ефективний класифшатор-ансамбль. Перевагою такого тдходу може бути його адаптившсть з точки зору вимогливосп до обчислювальних ресурав, оск1льки, за необхщшстю, можна коректувати шльшсть класифжатор!в, як1 беруть участь в анал!зг

Список використаноТ лiтератури

1. Alias F. A review of physical and perceptual feature extraction techniques for speech, music and environmental sounds / F. Alias, J.C. Socoro, X. Sevillano // J. Appl. Sci., 2016. - 6(5), 143. P. 1-44.

2. Bach J.-H. Automatic classification of audio data using nonlinear neural response models / J.-H. Bach, A.-F. Meyer, D. McElfresh, J. Anemüller // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Kyoto, Japan, 2012. - P. 357-360.

3. Bertin-Mahieux T. Automatic tagging of audio: the state-of-the-art. Machine audition: principles, algorithms and systems / T. Bertin-Mahieux, D. Eck, M. Mandel // IGI Global, 2011. - P. 334-352.

4. Burges C.J.S. Extracting noise-robust features from audio data / C.J.S. Burges, J.C. Platt, S. Jana // Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Orlando, FL, USA, 13-17 May 2002, 2002. - P. 1021-1024.

5. Camastra F. Machime learning for audio, image and video analysis / F. Camastra, A. Vinciarelli - London, Springer-Verlag, 2015. - 561 p.

6. Costa C.H.L. Automatic classification of audio data / C.H.L. Costa, Jr. J.D. Valle, A.L. Koerich // Proceedings of the IEEE International Conference on Systems, Man and Cybernetics, 2004. - P. 562-567.

7. Dongge Li. Classification of general audio data for content-based retrieval / Li Dongge, Ishwar K. Sethi, Nevenka Dimitrova, Tom McGee // Pattern Recognition Letters, 2001. - Vol. 22(5). - P. 533-544.

8. Free sound General-Purpose Audio Tagging Challenge. URL: https://www.kaggle.com/c/freesound-audio-tagging/data (Дата звернення 06.06.2018)

9. Gemmeke J.F. Audio set: an ontology and human-labeled dataset for audio events / J.F. Gemmeke, D.P.W. Ellis, D. Freedman, A. Jansen, W. Lawrence, R.C. Moore, M. Plakal, M. Ritter // Proceedings of the Acoustics, Speech and Signal Processing International Conference, 2017.

10. Howel J. Acoustic classification of focus: on the web and in the lab / J. Howel, M. Rooth, M. Wagner // Laboratory Phonology: Journal of the Association for Laboratory Phonology, 2007. - 8(1): 16. - P. 1-41.

11. Ibrahim Z. Al A. Audio data analysis using parametric representation of temporal relations / Z. Al A. Ibrahim, I. Ferrane, P. Joly // IEEE International Conference on Information and Communication Technologies: from Theory to Applications (ICTTA), 2006.

12. Kong Q. Convolutional gated recurrent neural network incorporating spatial features for audio tagging / Q. Kong, Y. Xu, W. Wang, M.D. Plumbley // The 2017 International Joint Conference on Neural Networks (IJCNN 2017), Anchorage, Alaska, 2017.

13. Kong Q. A joint separation-classification model for sound event detection of weakly labelled data / Q. Kong, Y. Xu, W. Wang, M.D. Plumbley // ICASSP 2018 - 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 15 - 20 Apr 2018, Calgary, Canada, 2018.

14. Lyon R.F. Machine Hearing: An Emerging Field / R.F. Lyon // IEEE Signal Process. Mag, 2010. - Vol. 27. -P. 131-139.

15. Mierswa I. Learning feature extraction for learning from audio data / I. Mierswa, K. Morik // Technische Universität Dortmund. Technical Reports, 2004 - No. 55.

16. Oppenheim A.V. Discrete-Time Signal Processing. Third edition / A.V. Oppenheim // Pearson Education Limited, 2014 - 1055 p.

17. Rizzi A. Optimal short-time features for music/speech classification of compressed audio data / A. Rizzi, M. Buccino, M. Panella, A. Uncini // International Conference on Intelligent Agents. 28 Nov.-1 Dec. 2006. Sydney, NSW, Australia, 2006.

18. Stastny J., Skorpil V., Fejfar J. Audio data classification by means of new algorithms / J. Stastny, V. Skorpil, J. Fejfar // 36th International conference on Telecommunications and Signal Processing 2013, Rome, Italy, 2013. - P. 507-511.

19. Sturm B.L. A Survey of evaluation in music genre recognition / B.L. Sturm, A. Nürnberger, S. Stober, B. Larsen, M. Detyniecki (eds) // Adaptive Multimedia Retrieval: Semantics, Context, and Adaptation. AMR 2012. Lecture Notes in Computer Science, 2014. - Vol 8382. - P. 29-66.

20. Wichern G. Automatic audio tagging using covariate shift adaptation / G. Wichern, M. Yamada, H. Thornburg, M. Sugiyama, A. Spanias // IEEE international conference Acoustics speech and signal processing (ICASSP), 14-19 Mar 2010, 2010.

21. Xu Y. Unsupervised feature learning based on deep models for environmental audio tagging / Y. Xu, Q. Huang, W. Wang, P. Foster, S. Sigtia, P.J.B. Jackson, M.D. Plumbley // IEEE/ACM transactions on audio, speech and language processing, 2017. - Vol 25., No. 6. - P. 1230-1241.

22. Zaccone G., Karim Md. R. Deep learning with TensorFlow / G. Zaccone, Md. R. Krim. - Packt Publishing, 2018. - 767 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.