Научная статья на тему 'Детектирование бульбарных нарушений при боковом амиотрофическом склерозе на основе анализа речевого сигнала'

Детектирование бульбарных нарушений при боковом амиотрофическом склерозе на основе анализа речевого сигнала Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
163
43
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЕВОЙ СИГНАЛ / БОКОВОЙ АМИОТРОФИЧЕСКИЙ СКЛЕРОЗ / ДИАГНОСТИКА / КЛАССИФИКАЦИЯ / SPEECH SIGNAL / AMYOTROPHIC LATERAL SCLEROSIS / DIAGNOSIS / CLASSIFICATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гвоздович А.Д., Рушкевич Ю.Н., Вашкевич М.И.

В работе предложен подход к анализу речевого сигнала для выявления случаев бульбарных нарушений при боковом амиотрофическом склерозе. В качестве признаков наличия патологических отклонений в голосе использовались результаты формантного анализа гласных звуков /а/ и /и/, расстояние между огибающими данных гласных звуков, а также информация о паузах между словами в тестовом речевом сигнале. Для выполнения классификации использовался алгоритм линейного дискриминантного анализа.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гвоздович А.Д., Рушкевич Ю.Н., Вашкевич М.И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Detection of bulbar amyotrophic lateral sclerosis based on speech analysis

The approach to analysis of speech signal in order to amyotrophic lateral sclerosis diagnosis is proposed. As a features of pathological changes in the voice the results of a format analysis of vowel /aa/ and /iy/, the distance between the envelopes of these vowel, and information about pauses between words in the test speech signal were used. To perform the classification, the linear discriminant analysis was used.

Текст научной работы на тему «Детектирование бульбарных нарушений при боковом амиотрофическом склерозе на основе анализа речевого сигнала»

Доклады БГУИР

Doklady BGUIR

2018, № 6 (116) 2018, No. 6 (116)

УДК 004.934.2+534.784

ДЕТЕКТИРОВАНИЕ БУЛЬБАРНЫХ НАРУШЕНИЙ ПРИ БОКОВОМ АМИОТРОФИЧЕСКОМ СКЛЕРОЗЕ НА ОСНОВЕ АНАЛИЗА РЕЧЕВОГО СИГНАЛА

АД. ГВОЗДОВИЧ1, ЮН. РУШКЕВИЧ2, М.И. ВАШКЕВИЧ1

белорусский государственный университет информатики и радиоэлектроники, Республика Беларусь 2Республиканский научно-практический центр неврологии и нейрохирургии, Республика Беларусь

Поступила в редакцию 27 июня 2018

Аннотация. В работе предложен подход к анализу речевого сигнала для выявления случаев бульбарных нарушений при боковом амиотрофическом склерозе. В качестве признаков наличия патологических отклонений в голосе использовались результаты формантного анализа гласных звуков /а/ и /и/, расстояние между огибающими данных гласных звуков, а также информация о паузах между словами в тестовом речевом сигнале. Для выполнения классификации использовался алгоритм линейного дискриминантного анализа.

Ключевые слова: речевой сигнал, боковой амиотрофический склероз, диагностика, классификация.

Abstract. The approach to analysis of speech signal in order to amyotrophic lateral sclerosis diagnosis is proposed. As a features of pathological changes in the voice the results of a format analysis of vowel /aa/ and /iy/, the distance between the envelopes of these vowel, and information about pauses between words in the test speech signal were used. To perform the classification, the linear discriminant analysis was used.

Keywords: speech signal, amyotrophic lateral sclerosis, diagnosis, classification.

Doklady BGUIR. 2018, Vol. 116, ]Чо. 6, pp. 52-58

Detection of bulbar amyotrophic lateral sclerosis based on speech analysis

A.D. Gvozdovich, Y.N. Rushkevich, M.I. Vashkevich

Введение

Ощутимые изменения в речи присущи многим неврологическим заболеваниям. В частности, бульбарные нарушения (т. е. трудности с глотанием и речью) являются первым симптомом в приблизительно 30 % случаев заболевания боковым амиотрофическим склерозом (БАС) [1]. В большинстве случаев диагностика отклонений в речи выполняется медицинским работником, однако такой способ оценки чувствителен к различным источникам ошибок и не может быть автоматизирован. Более того, некоторые изменения в речи, наблюдаемые при БАС, выявляются только с привлечением инструментальных средств [2]. В настоящее время существует необходимость в улучшении систем оценки изменений в речи для повышения эффективности ранней диагностики БАС и дальнейшего терапевтического лечения [3]. Трудности в достоверной диагностике БАС и других неврологических заболеваний побудили исследователей к разработке средств поддержки принятия решений, основанных на алгоритмах, которые позволяют разделить образцы речевых сигналов здоровых людей от имеющих то или иное неврологическое заболевание. Данные средства не позволяют выполнить дифференциальную диагностику (средство дифференциальной диагностики предполагает определение конкретного типа неврологического заболевания), но являются важным этапом на пути к этой долгосрочной цели.

Особенности построения систем диагностики по речевому сигналу

Одной из проблем в выявлении БАС является отсутствие стандартизированной процедуры речевой диагностики [3]. В большинстве случаев системы диагностики построены на основе речевого теста с протяжным произнесением гласных звуков. Исходя из этого основными признаками, извлекаемыми из речевого сигнала, являются частота основного тона (F0) и производные от нее - джиттер (степень вариации F0 между соседними периодами основного тона) и шиммер (степень вариации амплитуды между соседними периодами основного тона) [4]. Часто в качестве параметров используются мел-кепстральные коэффициенты [5], а также параметр отношения гармоники-шум (англ. HNR - harmonic-to-noise ratio), характеризующий наличие аэроакустического шума, возникающего в результате неполного смыкания голосовых связок у неврологических больных. Однако данные параметры малоэффективны, если их применять в случае, когда тестовый сигнал представляет собой запись беглой речи. В данной работе для диагностики неврологических заболеваний предлагаются новые признаки, которые извлекаются из тестового сигнала беглой речи.

Признаки, используемые для диагностики неврологических заболеваний по голосу

В результате неврологических заболеваний происходят изменения в стимуляции мускулатуры вообще и мышц языка в частности. С точки зрения звукообразования важным является положение языка по горизонтали (язык находится «впереди» или «сзади») и по вертикали («высокий» подъем или «низкий» подъем), см. рис. 1 [6].

«высокий» подъем

«впереди»

7у/

/о/

7а/

«сзади»

«низкий» подъем

Рис. 1. Относительное положение языка при произнесении гласных звуков /и/, /у/, /о/, /а/, /э/

Для выявления признаков неврологических заболеваний из речевого сигнала целесообразно выбрать звуки /а/ и /и/, поскольку для их формирования требуется значительная работа мышц языка. Для практического сравнения из тестового речевого сигнала с записью счета от 1 до 10 выбирались близкие по времени участки, содержащие звуки /а/ и /и/, после чего выполнялось сравнение взаимной формантной структуры этих звуков (как правило, звуки выбирались из слов «один», «два», «три»). Пример формантной структуры звуков /а/ и /и/, произнесенных здоровым человеком, показан на рис. 2, а.

5 10 15 5 10

Частота, Барк Частота, Барк

а б

Рис. 2. Взаимное расположение формантных частот звуков /а/ и /и/ : а - здоровый человека; б - пациент с БАС

Анализ рис. 2, а показывает, что форманты имеют высокую добротность, значительно разнесены на частотной оси и расположены в следующей последовательности (1) < Еа (1) < Еа (2) < Е (2). Правильный порядок формант у больных БАС может быть нарушен (рис. 2, б). В случаях, когда правильный порядок расположения формант не нарушен, наблюдается существенное сближение формантных частот. Замечено, что у здоровых людей расстояние между первыми и вторыми формантами звуков /а/ и /и/ составляет 2 Барка и более, у больных с БАС это расстояние меньше (см. рис. 3).

Рис. 3. Пример сближения формантных частот звуков /а/ и /и/ у пациента с БАС

Для количественной оценки степени нарушения взаимной формантной структуры звуков /а/ и /и/ в [7] предложено использовать следующую меру:

Мегг (Е{,Еа)

2 -

Fa (1) - Е (1) - Е (2) - Fa (2) 2 2 ' Fa (1) - Е (1) 2

1 -

если Ц (1) > Ца (1) или Ца (2) > Ц (2) если Е (1) - Ца (1)<2 и Е (2) - Ца (2)<2

, если Ца (1) - Ц (1)<2

(1)

Fi (2) - Ца (2)

1 —^-, если Е (2) - Ца (2)<2

2

0, иначе.

Помимо изменений во взаимной формантной структуре звуков /а/ и /и/, у пациентов наблюдалось увеличение сходства между формами огибающих этих звуков (см. рис. 4).

8 10 12 14 16

Частота, Барк

Рис. 4. Пример схожести огибающих звуков /а/ и /и/ у пациента с БАС

Для количественной оценки различия между огибающими звуков /а/ (Еа) и /и/ (Е) предлагается использовать dl -норму расстояния:

4(Е, Еа) = Х|Е, ^)-Е ^), (2)

где К - число точек в частотной области барков.

2

Так как неврологические заболевания влияют также на темп речи, то для их выявления можно анализировать и паузы между словами. Для оценки пауз предлагается анализировать среднюю паузу и сумму между максимальной (Ртах) и минимальной паузой (Ртт):

У" Р(г) Р + Р

р _ ¿.—<г 1 ' р _ тах тт (3)

ср ~ N ' тт ~ р '

ср

Так как здоровый человек может выдержать паузу при медленном счете, то Ртт у здорового будет стремиться к 2, а у больного оно не обязательно будет близко к 2.

Схема анализа речевого сигнала для выявления БАС

Для выявления бульбарных нарушений при БАС предложена схема анализа речевого сигнала, показанная на рис. 5.

Рис. 5. Схема анализа речевого сигнала для выявления бульбарных нарушений при БАС

На вход системе подается речевой сигнал с записью счета от одного до десяти. Так как для выявления БАС планируется анализировать спектральные огибающие гласных звуков и паузы, то исходной задачей является выделение гласных звуков /а/ и /и/ и пауз из речевого сигнала. Звук /а/ берется из слов «один» (произносится как «а») и/или «два». Звук /и/ из слов «один» и/или «три».

Для решения указанной задачи использовался алгоритм динамической трансформации временной шкалы (англ. DTW - dynamic time warping). Исходными данными для блока DTW является анализируемый входной сигнал и размеченный эталонный сигнал. DTW-алгоритм выполняет «выравнивание» двух временных последовательностей путем трансформации временной шкалы на основании сходства между элементами двух последовательностей. Это означает, что, имея разметку слов и пауз в одной эталонной последовательности, и выполнив выравнивание по ней анализируемой последовательности можно получить разметку слов и пауз в анализируемом сигнале.

Таким образом, входом для DTW-алгоритма служат две последовательности векторов -S = (sps2,...,sn) и T = (tj,12,...,tm), где каждый вектор является огибающей спектра. В общем случае, длины последовательностей не равны, поскольку каждый диктор произносит тестовую фразу с различной скоростью. На первом этапе выполняется расчет локальных отклонении"

между элементами двух последовательностей:

p

Di,j =Х1 sa -t jл L j = n, j = m.

k=1

На втором этапе вычисляется матрица трансформаций исходя из соотношения: Q, j = D. j + min( Qi-j, j, Qi-j, j-j, Q i, j-j).

На третьем этапе строится оптимальный путь деформации, который минимизирует расстояние между S и T и устанавливает соответствие между ними [8] (см. рис. 6).

Рис. 6. Принцип работы алгоритма динамической трансформации временной шкалы

В результате работы алгоритма происходит сопоставление двух сигналов, благодаря которому можно определить длину пауз между словами в счете и выделить звуки /а/ и /и/ из входного сигнала. В дальнейшем записи гласных звуков разбивались на кадры длительностью 27 мс с перекрытием в 1/4 от длительности кадра. Для каждого кадра определяются коэффициенты линейного предсказания (англ. LP - Linear Prediction), по которым рассчитывается огибающая спектра. По совокупности всех огибающих рассчитывается усредненное их значение Ef), которое затем переводится в психоакустическую частотную шкалу Барков E(k). Далее из огибающих производится выделение формантных частот, которые затем используются для получения значения fmterr(Fj,Fa). Так же значение E(k), полученное в блоке «Расчет огибающей спектра в шкале Барков», отправляется в блок «Оценка различия между огибающими» для расчета значения d1 (Et, Ea). Выделенные паузы между словами P(z) обрабатываются в блоке «Анализ пауз», где высчитываются значения Pp

и Pmm . Полученные значения объединяются в вектор x = [d1 (Et, Ea) fmterr (F, Fa) Pcp Pmm f

и отправляются для классификации в блок LDA (англ. linear discriminant analysis - линейный дискриминантный анализ) [9]. В результате обучения в блоке LDA формируется разделяющая гиперплоскость. Классификация выполняется следующим образом: q = wT ■ x - b , c = sign(q), где w - вектор, который описывает разделяющую гиперплоскость, b - смещение; если c = 1, то x относится к классу здоровых, при c = -1 x относится к классу больных.

Анализ результатов

Запись речевой базы проводилась в Республиканском научно-практическом центре неврологии и нейрохирургии (г. Минск, Республика Беларусь). Всего была выполнена запись тестовых речевых образцов у 53 лиц, 23 из которых были здоровыми, а 30 имели БАС.

Первоначально речевые сигналы обрабатывались согласно схеме, представленной на рис. 5. Ниже приводятся статистические характеристики предлагаемых признаков для выявления БАС. На рис. 7, а показано распределение плотности вероятности d1(Et, Ea), на рис. 7, б - плотности вероятности fmterr(Fj, Fa).

4

32 -10

-Здоровые! - Больные |

0.6 q 0.50.4 - F -Здоровые! - Больные |

0.3 -0.2 -

0.1 -

' ' 1 11 1........ ■ ■ ■ .......

200 400

<1,(Ь,Е„>

а б

Рис. 7. Распределение плотности вероятности: а - dI(Ei, Еа); б -Fa)

На рис. 8, а и 8, б показаны распределения вероятности Р и Ртт соответственно.

р р

теяп гага

а б

Рис. 8. Распределение вероятности: а - Рср; б - Рпт

На рис. 9 показано распределение проекций характеристических векторов на разделяющую гиперплоскость в блоке ЬБА.

0.8-

0.6^ 0.4 0.2-3-2-10 1 2 3

Я

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 9. Результаты работы алгоритма LDA

В результате работы точность классификации составила 92,6 % (9,7 % - не выявлено больных, 4,3 % - ложные срабатывания). Результаты классификации приведены в табл. 1.

Таблица 1. Результат классификации

Классифицированные больные, % Классифицированные здоровые, %

Больные 90,3 9,7

Здоровые 4,3 95,7

Заключение

В работе рассмотрена задача анализа речевого сигнала для выявления признаков бульбарных нарушений при БАС. Предложено для решения данной задачи выполнять анализ огибающих гласных звуков /а/ и /и/, извлеченных из беглой речи, а также паузы между словами. Анализ экспериментальных результатов подтвердил, что при наличии БАС огибающие звуков /а/ и /и/ имеют высокую степень схожести между собой, а взаимное расположение их формантных частот может быть нарушено. Выявлено, что при наличии болезни появляется сложность в выдерживании одинаковой паузы при медленном счете. Точность предложенного алгоритма классификации составила 92,6 % (9,7 % - не выявлено больных, 4,3 % - ложные срабатывания).

Список литературы

1. Fractal features for automatic detection of dysarthria / T. Spangler [et al.] // IEEE EMBS International Conference on Biomedical Health Informatics (BHI). Orlando, USA, Feb. 16-19, 2017. P. 437-440.

2. Detection of bulbar ALS using a comprehensive speech assessment battery / Y. Yunusova [et al.] // 8th international workshop Models and analysis of vocal emissions for biomedical applications. Florence, Italy, 16-18 Dec. 2013. P. 217-220.

3. Bulbar and speech motor assessment in ALS: challenges and future directions / J.R. Green [et al.] // Amyotrophic Lateral Sclerosis and Frontotemporal Degeneration. 2013. Vol. 14, № 7-8. P. 494-500.

4. Suitability of dysphonia measurements for telemonitoring of Parkinsons disease / M.A. Little [et al.] // IEEE Transactions on Biomedical Engineering. 2009. Vol. 56, № 4. P. 1015-1022.

5. Меженная М.М., Рушкевич Ю.Н., Борискевич А.А. Частотно-временной анализ речевых сигналов в диагностике бульбарных нарушений // Докл. БГУИР. 2016. № 7 (101). С. 260-264.

6. Михайлов В.Г., Златоустова Л.В. Изменение параметров речи. М.: Радио и связь, 1987. 168 с.

7. Выделение признаков неврологических заболеваний из речевого сигнала / М.И. Вашкевич [и др.] // Труды 20-й междунар. конф. «Цифровая обработка сигналов и ее применение». Москва, 28-30 марта 2018 г. Т. 1. C. 179-184.

8. Киен Т.Ч. Реализация и выбор параметров при использовании алгоритма выравнивания временных масштабов для систем конверсии голоса // Докл. БГУИР. 2008. № 3 (33). С. 96-102.

9. Рылов А.С. Анализ речи в распознающих системах. Минск: Бестринт, 2003. 264 с.

References

1. Fractal features for automatic detection of dysarthria / T. Spangler [et al.] // IEEE EMBS International Conference on Biomedical Health Informatics (BHI). Orlando, USA, Feb. 16-19, 2017. P. 437-440.

2. Detection of bulbar ALS using a comprehensive speech assessment battery / Y. Yunusova [et al.] // 8th international workshop Models and analysis of vocal emissions for biomedical applications. Florence, Italy, 16-18 Dec. 2013. P. 217-220.

3. Bulbar and speech motor assessment in ALS: challenges and future directions / J.R. Green [et al.] // Amyotrophic Lateral Sclerosis and Frontotemporal Degeneration. 2013. Vol. 14, № 7-8. P. 494-500.

4. Suitability of dysphonia measurements for telemonitoring of Parkinsons disease / M.A. Little [et al.] // IEEE Transactions on Biomedical Engineering. 2009. Vol. 56, № 4. P. 1015-1022.

5. Mezhennaja M.M., Rushkevich Ju.N., Boriskevich A.A. Chastotno-vremennoj analiz rechevyh signalov v diagnostike bul'barnyh narushenij // Dokl. BGUIR. 2016. № 7 (101). S. 260-264.

6. Mihailov V.G., Zlatoustova L.V. Izmenenie parametrov rechi. M.: Radio i svjaz', 1987. 168 s. (in Russ.)

7. Vydelenie priznakov nevrologicheskih zabolevanij iz rechevogo signala / M.I. Vashkevich [i dr.] // Trudy 20-j mezhdunar. konf. «Cifrovaja obrabotka signalov i ee primenenie». Moskva, 28-30 marta 2018 g. T. 1. S. 179-184. (in Russ.)

8. Kien T.Ch. Realizacija i vybor parametrov pri ispol'zovanii algoritma vyravnivanija vremennyh masshtabov dlja sistem konversii golosa // Dokl. BGUIR. 2008. № 3 (33). S. 96-102. (in Russ.)

9. Rylov A.S. Analiz rechi v raspoznajushhih sistemah. Minsk: Bestrint, 2003. 264 s. (in Russ.)

Сведения об авторах

Гвоздович А.Д., студент Белорусского государственного университета информатики и радиоэлектроники.

Рушкевич Ю.Н., к.м.н., доцент, ведущий научный сотрудник неврологического отдела РНПЦ неврологии и нейрохирургии.

Вашкевич М.И., к.т.н., доцент кафедры электронных вычислительных средств Белорусского государственного университета информатики и радиоэлектроники.

Information about the authors

Gvozdovich A.D., student of the specialty computer engineering of the Belarusian state university of informatics and radioelectronics.

Rushkevich Y.N. PhD, leading researcher of the neurology department of the scientific and technical center for neurology and neurosurgery.

Vashkevich M.I., PhD, associate professor of computer engineering department of Belarusian state university of informatics and radioelectronics.

Адрес для корреспонденции

220013, Республика Беларусь,

г. Минск, ул. П. Бровки, 6,

Белорусский государственный университет

информатики и радиоэлектроники

тел. +375-17-293-88-05;

e-mail: vashkevich@bsuir.by

Вашкевич Максим Иосифович

Address for correspondence

220013, Republic of Belarus, Minsk, P. Brovka st., 6, Belarussian state university of informatics and radioelectronics tel. +375-17-293-88-05; e-mail: vashkevich@bsuir.by Vashkevich Maksim Iosifovich

i Надоели баннеры? Вы всегда можете отключить рекламу.