Научная статья на тему 'Классификации пациентов с нарушением голосовой функции'

Классификации пациентов с нарушением голосовой функции Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
165
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
анализ голоса / искусственный интеллект / речевые сигналы / методы классификации / voice analysis / artificial intelligence / speech signals / classification methods.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сизов Андрей Вячеславович

В статье приведена реализация алгоритмов классификации пациентов с нарушением голосовой функции по часто встречающимся заболеваниям – ларингит, частичный паралич и дисфония. Также, проведена попытка классификации подвидов дисфонии – классической, психогенной и функциональной. Рассмотрены методы классификации пациентов с нарушением голосовой функции, конфигурация сверточной нейронной сети и многослойного перцептрона. На основании данного исследования удалось определить тенденцию ошибочного определения классов нейронной, что в будещем будет сужать круг распознавания модели для повышения точности классификации

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сизов Андрей Вячеславович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CLASSIFICATIONS OF PATIENTS WITH IMPAIRED VOICE FUNCTION

The article describes the implementation of classification algorithms for patients with impaired voice function by common diseases laryngitis, partial paralysis and dysphonia. Also, an attempt was made to classify the subspecies of dysphonia classical, psychogenic and functional. The methods of classification of patients with impaired voice function, the configuration of the convolutional neural network and the multilayer perceptron are considered. Based on this study, it was possible to determine the trend of the erroneous determination of neural classes, which in the future will narrow the recognition circle of the model to increase the classification accuracy

Текст научной работы на тему «Классификации пациентов с нарушением голосовой функции»

КЛАССИФИКАЦИИ ПАЦИЕНТОВ С НАРУШЕНИЕМ ГОЛОСОВОЙ

ФУНКЦИИ

CLASSIFICATIONS OF PATIENTS WITH IMPAIRED VOICE FUNCTION

УДК 004

Сизов Андрей Вячеславович, Студент, Новосибирский государственный технический университет, Россия, г. Новосибирск

Sizov Andrey Vyacheslavovich, student, Novosibirsk State Technical University, Russia, Novosibirsk, sizv1996@gmail.com

Аннотация

В статье приведена реализация алгоритмов классификации пациентов с нарушением голосовой функции по часто встречающимся заболеваниям -ларингит, частичный паралич и дисфония. Также, проведена попытка классификации подвидов дисфонии - классической, психогенной и функциональной. Рассмотрены методы классификации пациентов с нарушением голосовой функции, конфигурация сверточной нейронной сети и многослойного перцептрона. На основании данного исследования удалось определить тенденцию ошибочного определения классов нейронной, что в будещем будет сужать круг распознавания модели для повышения точности классификации

S u m m a r y

The article describes the implementation of classification algorithms for patients with impaired voice function by common diseases - laryngitis, partial paralysis and dysphonia. Also, an attempt was made to classify the subspecies of dysphonia -classical, psychogenic and functional. The methods of classification of patients with impaired voice function, the configuration of the convolutional neural network and the multilayer perceptron are considered. Based on this study, it was possible to determine the trend of the erroneous determination of neural classes, which in the future will narrow the recognition circle of the model to increase the classification accuracy

Ключевые слова: анализ голоса, искусственный интеллект, речевые сигналы, методы классификации.

Key words: voice analysis, artificial intelligence, speech signals, classification methods.

Задача диагностики и классификации речевых отклонений человека очень актуальна в наши дни, ведь речь играет ведущую роль в жизни человека. Сегодня для этого люди обращаются к специалистам в данной области, однако в большой перспективе автоматизация данной проблемы. Программа для анализа речи позволит врачу быстро и точно поставить диагноз и определить степень отклонения параметров от нормы. В случае рассмотрения классификации пациентов с нарушением голосовой функции, наиболее подходящим вариантом являются нейронные сети, которые позволяют обрабатывать большое количество слабоструктурированной информации, а также выявлять скрытые связи между параметрами объектов. Исследования, проведенные в статьях [2] и [3] показали хорошие результаты в области диагностики отдельных видов заболевания.

Для выполнения данной работы было необходимо:

1. Исследовать перечень источников данных для обработки.

2. Сформировать список голосовых параметров человека, необходимых для классификации.

3. Выбрать топологию и конфигурацию моделей для классификации.

Обзор источников данных для обработки

В настоящее время существует несколько качественных источников данных для анализа.

Среди них самой популярной является база данных MEEI (Massachusetts Eye and Ear Infirmary). Однако, она является коммерческой и, в связи с этим, обладает рядом технических ограничений, среди которых разные условия записи патологических и нормальных голосов, различное качество записи (например, разная частота дискретизации сигнала) и другие. Помимо этого, открытая база содержит несбалансированное количество патологических и здоровых записей.

Второй источник - Arabic voice pathology database (AVPD). База содержит различные записи - от устойчивых звуков, до параграфов текста. Из особенностей - все дикторы являются носителями Арабского языка. Третий источник - Saarbruecken Voice Database (SVD) - большая библиотека записей (более 2000 пациентов). Каждая сессия пациента включала в себя произношение звуков ('a', 'u', 'i') в различных тонах (высокий, низкий и нормальный. Из технических минусов можно отметить лимит на одновременное скачивание - из-за этого экспортированные записи часто дублируются.

Методы классификации

В статье [2] показана зависимость точности обучаемой модели от используемых источников данных, поэтому, было принято решение использовать одну базу данных голосов.

Из базы Saarbruecken Voice Database были выбраны 162 записи голосов, содержащих голоса людей возрастом от 18 до 55 лет с дисфонией, функциональной дисфонией, психологической дисфонией, ларингитом, параличом и голоса без отклонений. Каждая запись состоит из двух звуковых файлов, содержащих пролонгированные звуки «а» и «у», произнесенных в нормальном тоне человека.

Записанный голос пациента был представлен в двух видах:

1) Сигнал как набор голосовых параметров;

2) Сигнал как спектр.

Исходя из представлений голоса были спроектированы конфигурации многослойного перцептрона - для классификации по голосовым параметрам и сверточной нейронной сети - для классификации по спектрограмме. Для получения спектрограммы и предварительной обработки записи, использовалось API приложения Praat. Записи делились на 3 части: обучающая выборка, валидация и тестовая, каждая из которых составила 70%, 15%, 15% от общего количества записей соответственно.

Конфигурация сверточной нейронной сети В качестве входных данных использовались спектрограммы, извлеченные из записей пациентов.

Для их классификации была использована модификация сверточной нейронной сети VGG16. Конфигурация сети представлена на рисунке 1.

Рисунок 1 - Конфигурация сверточной сети

На вход поступает изображение размером 224x224 пикселя, затем следуют дважды повторяется конфигурация из 2 сверточных слоев и max-pooling слоя, после этого количество сверточных слоев увеличивается до трех. В конце идут два полносвязных слоя размером 4096 и один слой размером 3.

Активационная функция для всех слоев, кроме последнего, ReLU, для последнего Softmax. Размер окна свертки 3х3. Для избегания переобучения сети, после каждой группы слоёв использовался dropout со значением 0.25.

Конфигурация многослойного перцептрона Для классификации записей по голосовым параметрам использовался многослойный перцептрон с алгоритмом обратного распространения ошибки. Входным параметром является запись голоса пациента. К данной записи применяется ряд фильтров для устранения шумов, downsampling'а и других целей. После этого проводится ряд акустических анализов для извлечения параметров голоса диктора (массив амплитуд, звуковая волна, shimmer, jitter, HNR, спектрограмма (или MFCC)), к которым, затем, применяются преобразования (например, нормализация). Полученные параметры являются входными для моделей.

Первоначальный список голосовых параметров включал в себя 135 параметров - по 15 параметров на каждую запись. Используя метод главных компонент, входящий вектор параметров был уменьшен до 18 - по 9 параметров на каждый записанный звук «а» и «у»:

1) Number of voice breaks;

2) Degree of voice breaks;

3) First pitch;

4) Standard deviation;

5) Jitter (absolute);

6) Shimmer (local, dB);

7) Mean harmonics-to-noise ratio;

8) Frequency of the fundamental tone;

9) MFCC (CO, C1).

Полученная топология сети следующая: входной слой - 18 нейронов, ассоциативный - 12 нейронов, выходной - 6 нейронов.

Рисунок 2 - Конфигурация многослойного перцептрона. Анализ результатов Полученная точность для сверточной нейронной сети составила 65% на обучении и 61% на тестовой выборке.

При рассмотрении результатов удалось определить тенденцию ошибочного определения классов нейронной сетью:

1) Ларингит - большое количество ошибок в сторону здорового и дисфонии;

2) Паралич - большое количество ошибок в сторону ларингита;

3) Дисфония - большое количество ошибок в сторону ларингита;

В будущем планируется сузить круг распознавания данной модели до трех классов для повышения точности классификации.

Модель, построенная на основе многослойного перцептрона имеет точность 95.5% тестовой выборке и 97.3% на обучающей.

Таблица 1 - Характе

истики многослойного перцептрона

РгешБЮп ЯесаИ БресШс^

Ларингит 0.87 0.82 0.94

Паралич 0.9 0.77 0.98

Дисфония 0.88 0.93 0.97

Функциональная дисфония 0.85 0.7 0.99

Психологическая дисфония 0.97 0.63 0.99

Здоровый 0.85 0.85 0.99

Модель с высокой вероятностью верно диагностирует отклонение пациента. Отрицательно на точность могут влиять особенности в голосе пациента, качество записи или же наличие нескольких отклонений. Таким образом, результаты модели для классификации записей по голосовым параметрам сильно превзошли показатели модели для классификации по спектрограмме. Помимо этого, построенная модель сопоставима с результатами смежных исследований.

В результате работы были изучены голосовые параметры, на основе которых были спроектированы и реализованы модели классификации пациентов на основе многослойного перцептрона и сверточной нейронной сети. В дальнейшем планируется расширение списка отклонений для классификации и поиск дополнительных голосовых параметров человека для их идентификации.

Литература

1. Алхусейн М. и Мухаммед Г. (2018). Обнаружение патологии голоса с использованием глубокого обучения на основе мобильного здравоохранения. IEEE Access, 6: 41034-41041.

2. Жоау Паулу Тейшейра, Паула Одете Фернандес, Нуно Альвеса -Вокальный акустический анализ - Классификация дисфонических голосов с искусственными нейронными сетями // CENTERIS 2017 -Международная конференция по информационным системам ENTERprise / ProjMAN 2017 - Международная конференция по проекту MANAGEMENT / HCist 2017 - Международная Конференция по информационным системам и технологиям здравоохранения и социального обеспечения, CENTERIS / ProjMAN / HCist 2017. 2017. № 121. С. 19-26.

3. Харар П., Алонсо-Эрнандези Дж. Б., Мекишка Дж., Галаз З., Бергет Р. и Смекал З. (2017). Обнаружение патологии голоса с использованием глубокого обучения: предварительное исследование. В 2017 году Международная конференция и семинар по биоинспирированной разведке (IWOBI), стр. 1-4.

4. База данных голоса Саарбрюккена. - [Электронный ресурс]. - URL: http: //www. stimmdatenbank. coli.uni- saarland.de/help_en.php4 (доступ: 15.01.2020).

Literature

1. Alhussein, M. and Muhammad, G. (2018). Voice pathology detection using deep learning on mobile healthcare framework. IEEE Access, 6:41034-41041.

2. Joao Paulo Teixeira, Paula Odete Fernandes, Nuno Alvesa - Vocal Acoustic Analysis - Classification of Dysphonic Voices with Artificial Neural Networks // CENTERIS 2017 - International Conference on ENTERprise Information Systems / ProjMAN 2017 - International Conference on Project MANagement / HCist 2017 - International Conference on Health and Social Care Information Systems and Technologies, CENTERIS/ProjMAN/HCist 2017. 2017. №121. P. 19-26

3. Harar, P., Alonso-Hernandezy, J. B., Mekyska, J., Galaz, Z., Burget, R., and Smekal, Z. (2017). Voice pathology detection using deep learning: a preliminary study. In 2017 International Conference and Workshop on Bioinspired Intelligence (IWOBI), pages 1-4.

4. Saarbruecken Voice Database. — [Электронный ресурс]. — URL: http://www.stimmdatenbank.coli.uni-saarland.de/help_en.php4 (дата обращения: 15.01.2020).

i Надоели баннеры? Вы всегда можете отключить рекламу.