Научная статья на тему 'Помехоустойчивый алгоритм определения просодических характеристик речевых сигналов для систем оценки психоэмоционального состояния человека'

Помехоустойчивый алгоритм определения просодических характеристик речевых сигналов для систем оценки психоэмоционального состояния человека Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
93
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЕВОЙ СИГНАЛ / ПОМЕХОУСТОЙЧИВОСТЬ / ДЕКОМПОЗИЦИЯ НА ЭМПИРИЧЕСКИЕ МОДЫ / ПРОСОДИЧЕСКИЕ ХАРАКТЕРИСТИКИ / ПСИХОЭМОЦИОНАЛЬНОЕ СОСТОЯНИЕ / SPEECH SIGNAL / NOISE ROBUSTNESS / EMPIRICAL MODE DECOMPOSITION / PROSODIC CHARACTERISTICS / PSYCHO-EMOTIONAL STATE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Алимурадов Алан Казанферович, Тычков Александр Юрьевич, Чураков Петр Павлович, Артамонов Дмитрий Владимирович

Актуальность и цели. В последнее десятилетие активно развивается направление автоматизированной оценки психоэмоционального состояния человека по речи. В условиях сложной «агрессивной» шумовой обстановки все речевые сигналы в той или иной степени зашумлены. В зависимости от интенсивности и вида шум может значительно исказить результаты оценки психоэмоционального состояния человека. Целью исследования является разработка помехоустойчивого алгоритма определения просодических характеристик речевых сигналов для повышения эффективности оценки психоэмоционального состояния человека. Материалы и методы. В разработке способа использовались: уникальная технология адаптивной декомпозиции нестационарных сигналов улучшенная полная множественная декомпозиция на эмпирические моды с адаптивным шумом. Программная реализация способа была выполнена в среде математического моделирования © Маtlаb (МаthWоrks). Результаты. Разработан помехоустойчивый алгоритм определения просодических характеристик речи, суть которого заключается в разложении речевого сигнала на информативные шумовые и информативные сигнальные частотные составляющие с помощью улучшенной полной множественной декомпозиции на эмпирические моды с адаптивным шумом; выделении составляющей, содержащей основной тон с последующим определением просодических характеристик. Проведено исследование с использованием верифицированной базы чистых и зашумленных речевых сигналов, зарегистрированной с использованием 220 человек мужского и женского пола в возрасте от 18 до 79 лет с признаками психоэмоциональных расстройств. Выводы. В соответствии с результатами исследований выявлено, что предложенный алгоритм обеспечивает устойчивость к шуму различной интенсивности (отношение сигнал/шум от 0 до 30 дБ) и может тестироваться в реальных условиях «агрессивной» шумовой обстановки в системах оценки психоэмоционального состояния человека.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Алимурадов Алан Казанферович, Тычков Александр Юрьевич, Чураков Петр Павлович, Артамонов Дмитрий Владимирович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A NOISE-ROBUST ALGORITHM TO DETERMINE PROSODIC CHARACTERISTICS OF SPEECH SIGNALS FOR SYSTEMS OF HUMAN PSYCHO-EMOTIONAL STATE ASSESSMENT

Background. In the last decade, an automated assessment of a human psycho-emotional state by speech has been actively developed. In the context of a complex “aggressive” noise environment, all speech signals are to some degree noisy. Depending on the intensity and type, noise can significantly distort the results of human psycho-emotional state assessment. The purpose of the study is to develop a noise-robust algorithm for determining the prosodic characteristics of speech signals to increase the effectiveness of human psycho-emotional state assessment. Materials and methods. A unique technology for adaptive decomposition of non-stationary signals, namely, the improved complete ensemble empirical mode decomposition with adaptive noise, has been used in the development of the method. Software implementation of the method was performed in the mathematical modeling environment © Matlab (MathWorks). Results. A noise-robust algorithm for determining the prosodic characteristics of speech has been developed. It consists in decomposing a speech signal into informative noise and signal frequency components using the improved complete ensemble empirical mode decomposition with adaptive noise, and selecting the component containing the pitch with the subsequent determination of prosodic characteristics. A study was conducted using a verified base of pure and noisy speech signals recorded from 220 males and females, aged 18 to 79 years with signs of psycho-emotional disorders. Conclusions. In accordance with the results of study, it was revealed that the proposed algorithm provides robustness to noise of various intensities (signal-to-noise ratio is from 0 to 30 dB), and can be tested under real conditions of “aggressive” noise environment in assessment systems of a human psycho-emotional state.

Текст научной работы на тему «Помехоустойчивый алгоритм определения просодических характеристик речевых сигналов для систем оценки психоэмоционального состояния человека»

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

УДК 004.934

DOI 10.21685/2072-3059-2019-3-1

А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков, Д. В. Артамонов

ПОМЕХОУСТОЙЧИВЫЙ АЛГОРИТМ ОПРЕДЕЛЕНИЯ ПРОСОДИЧЕСКИХ ХАРАКТЕРИСТИК РЕЧЕВЫХ СИГНАЛОВ ДЛЯ СИСТЕМ ОЦЕНКИ ПС ИХОЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ЧЕЛОВЕКА1

Аннотация.

Актуальность и цели. В последнее десятилетие активно развивается направление автоматизированной оценки психоэмоционального состояния человека по речи. В условиях сложной «агрессивной» шумовой обстановки все речевые сигналы в той или иной степени зашумлены. В зависимости от интенсивности и вида шум может значительно исказить результаты оценки психоэмоционального состояния человека. Целью исследования является разработка помехоустойчивого алгоритма определения просодических характеристик речевых сигналов для повышения эффективности оценки психоэмоционального состояния человека.

Материалы и методы. В разработке способа использовались: уникальная технология адаптивной декомпозиции нестационарных сигналов - улучшенная полная множественная декомпозиция на эмпирические моды с адаптивным шумом. Программная реализация способа была выполнена в среде математического моделирования © МайаЬ (MathWorks).

Результаты. Разработан помехоустойчивый алгоритм определения просодических характеристик речи, суть которого заключается в разложении речевого сигнала на информативные шумовые и информативные сигнальные частотные составляющие с помощью улучшенной полной множественной декомпозиции на эмпирические моды с адаптивным шумом; выделении составляющей, содержащей основной тон с последующим определением просодических характеристик. Проведено исследование с использованием верифицированной базы чистых и зашумленных речевых сигналов, зарегистрированной с использованием 220 человек мужского и женского пола в возрасте от 18 до 79 лет с признаками психоэмоциональных расстройств.

1 Исследование выполнено при финансовой поддержке Российского фонда фундаментальных исследований, проект № 18-37-00256 мол_а «Исследование информативных параметров речевых сигналов и разработка алгоритмов обнаружения скрытых признаков психоэмоционального состояния операторов критичных по безопасности систем управления».

2 © Алимурадов А. К., Тычков А. Ю., Чураков П. П., Артамонов Д. В., 2019. Данная статья доступна по условиям всемирной лицензии Creative Commons Attribution 4.0 International License (http://creativecommons.org/ licenses/by/4.0/), которая дает разрешение на неограниченное использование, копирование на любые носители при условии указания авторства, источника и ссылки на лицензию Creative Commons, а также изменений, если таковые имеют место.

Выводы. В соответствии с результатами исследований выявлено, что предложенный алгоритм обеспечивает устойчивость к шуму различной интенсивности (отношение сигнал/шум от 0 до 30 дБ) и может тестироваться в реальных условиях «агрессивной» шумовой обстановки в системах оценки психоэмоционального состояния человека.

Ключевые слова: речевой сигнал, помехоустойчивость, декомпозиция на эмпирические моды, просодические характеристики, психоэмоциональное состояние.

A. K. Alimuradov, A. Yu. Tychkov, P. P. Churakov, D. V. Artamonov

A NOISE-ROBUST ALGORITHM TO DETERMINE PROSODIC CHARACTERISTICS OF SPEECH SIGNALS FOR SYSTEMS OF HUMAN PSYCHO-EMOTIONAL STATE ASSESSMENT

Abstract.

Background. In the last decade, an automated assessment of a human psycho-emotional state by speech has been actively developed. In the context of a complex "aggressive" noise environment, all speech signals are to some degree noisy. Depending on the intensity and type, noise can significantly distort the results of human psycho-emotional state assessment. The purpose of the study is to develop a noise-robust algorithm for determining the prosodic characteristics of speech signals to increase the effectiveness of human psycho-emotional state assessment.

Materials and methods. A unique technology for adaptive decomposition of non-stationary signals, namely, the improved complete ensemble empirical mode decomposition with adaptive noise, has been used in the development of the method. Software implementation of the method was performed in the mathematical modeling environment © Matlab (MathWorks).

Results. A noise-robust algorithm for determining the prosodic characteristics of speech has been developed. It consists in decomposing a speech signal into informative noise and signal frequency components using the improved complete ensemble empirical mode decomposition with adaptive noise, and selecting the component containing the pitch with the subsequent determination of prosodic characteristics. A study was conducted using a verified base of pure and noisy speech signals recorded from 220 males and females, aged 18 to 79 years with signs of psycho-emotional disorders.

Conclusions. In accordance with the results of study, it was revealed that the proposed algorithm provides robustness to noise of various intensities (signal-to-noise ratio is from 0 to 30 dB), and can be tested under real conditions of "aggressive" noise environment in assessment systems of a human psycho-emotional state.

Keywords: speech signal, noise robustness, empirical mode decomposition, pro-sodic characteristics, psycho-emotional state.

Введение

Использование речи в качестве интерфейса взаимодействия человека с ЭВМ получило широкую практическую популярность в различных информационных системах (голосовое управление, идентификация личности по голосу, голосовой ассистент и др.). В последнее десятилетие активно развивается направление автоматизированной оценки психоэмоционального состояния человека по речи. Особенно это актуально в сферах человеческой деятельности, которые сопряжены с риском возникновения аварийных ситуаций:

пилоты гражданской и военной авиации, диспетчеры аэропортов, диспетчеры опасных производственных объектах (химическая и ядерная промышленность), сотрудники специальных служб (полиция, военнослужащие) и др.

Автоматизированные системы оценки психоэмоционального состояния человека относятся к классу автоматизированных систем обработки и передачи информации. Данные системы реализуют различные информационные технологии в виде определенной последовательности связанных функций, задач или процедур (регистрация речи, фильтрация, выделение полезной информации и др.), выполняемых в автоматизированном режиме. На рынке речевых технологий уже имеются коммерческие варианты подобных систем [1, 2], позволяющие в автоматическом режиме с определенной точностью оценить эмоциональное состояние человека по речи.

Речь представляет собой сложный акустический нестационарный сигнал, формируемый артикуляционным отделом речевого аппарата с целью общения посредством определенных языковых конструкций. Речь очень чувствительна к нарушениям работы нервной системы и в зависимости от психологической обстановки «кодирует» эмоциональное состояние человека в определенные релевантные информативные параметры.

В условиях свободной активности человека и современной «агрессивной» шумовой обстановки все речевые сигналы в той или иной степени за-шумлены. В зависимости от интенсивности и вида шум может значительно исказить результаты оценки психоэмоционального состояния человека. Для повышения помехоустойчивости систем оценки психоэмоционального состояния актуальным является создание новых методов обработки речи, адаптивных к сложной шумовой обстановке.

В настоящее время деятельность в области помехоустойчивой обработки речи ведется достаточно активно. Разработано большое количество алгоритмов, методов, способов и средств на основе классических подходов (повышение четкости (корректировка) речи, хорошо известное как методы вычитания спектра), фильтров Винера, кепстральном среднем вычитании (Cepstral Mean Subtraction, CMS), нормализации кепстральных отклонений (Cepstral Variance Normalization, CVN) и др. [3-6]. Исследования существующих методов фильтрации выявили, что проблема остаточного шума решена не полностью [7]. В условиях агрессивной шумовой обстановки при значениях отношения сигнал/шум (ОСШ) 10, 5 и 0 дБ известные методы не обеспечивают требуемое подавление шума. Причиной является использование неадаптивных методов обработки зашумленных нестационарных речевых сигналов.

На основе анализа работ [7-9] создан помехоустойчивый алгоритм обработки речевых сигналов, применимый в системах оценки психоэмоционального состояния в условиях зашумленной обстановки [10]. В частности, алгоритм предназначен для определения просодических характеристик и основан на технологии адаптивной обработки нестационарных данных - декомпозиции на эмпирические моды (ДЭМ) [11]. Технология ДЭМ применяется в различных направлениях исследований, в том числе для оценки психоэмоционального состояния человека [12, 13].

Данная статья является развитием ранее опубликованных трудов авторов [9, 10].

Материалы и методы Просодические характеристики

Как отмечалось ранее, вид и степень выраженности психоэмоционального состояния кодируются в релевантные информативные параметры речи, которые из всего их многообразия можно разделить на три условные группы [14]: амплитудно-частотные, спектрально-временные и кепстральные. Каждая группа информативных параметров релевантна к определенным особенностям речевых сигналов. К амплитудно-частотным параметрам, релевантным к низким и высоким психоэмоциональным возбуждениям, относятся просодические характеристики речи [10].

Просодические характеристики описывают мелодию речи, ее темпоральные и тембральные особенности, ритм, словесные тоны и интонации и осуществляет фонацию основного тона на уровне фраз. Речевые сигналы можно разделить на участки, состоящие из вокализованной речи, невокализо-ванной речи и пауз [15]. Первые и вторые участки сформированы в результате периодических и непериодических колебаний голосовых связок соответственно. Паузы образуются в период спокойствия речевого аппарата в соответствии с определенными языковыми конструкциями. Периодические колебания называются основным тоном (ОТ). Частота колебаний голосовых связок определяется частотой основного тона (ЧОТ) и является важной просодической характеристикой речи.

При психоэмоциональном возбуждении колебания голосовых связок характеризуются нерегулярностью вследствие неполного смыкания в начале и в конце вокализованных участков речи. При крайне высоком и низком возбуждении изменение ЧОТ может достигать 30-40 % от номинального значения, соответствующего нейтральному психоэмоциональному состоянию.

К просодическим характеристикам, применяемым в алгоритме и максимально полно отражающим информацию о психоэмоциональном состоянии человека, относятся ЧОТ и ее функционалы:

1. Среднее значение ЧОТ (измеряемое в Гц) представляет собой среднее значение частот, вычисленных для каждого периода ОТ на всех вокализованных участках зарегистрированной речи:

где То, теап - среднее значение ЧОТ; /0, р - значение ЧОТ в определенный период; р = 1, 2, ..., Р - номер периода ОТ.

2. Максимальное тах(/о, р) и минимальное тт(/о, р) значения ЧОТ (измеряемое в Гц) на всех вокализованных участков зарегистрированной речи.

3. Стандартное отклонение ЧОТ (измеряемое в Гц) представляет собой отклонение (ошибку) между текущим и средним значениями ЧОТ:

p=1

p=1

4. Диапазон фонационных частот представляет собой полосу от минимального тт(/0, р) до максимального тах(/0, р) значений ЧОТ в логарифмическом масштабе:

logl0

PFR = 12 х-

( max( /о, p) ^ min( /0, p )

log102

5. Среднее абсолютное значение джиттера представляет собой среднее значение разницы (по модулю) между текущим и предыдущим значениями ЧОТ на всех вокализованных участках зарегистрированной речи:

MAJ

11

= 2 |/0,p+1 - /0,p| •

p=P-1

6. Джиттер представляет собой значение изменения (дрожания) частотной модуляции ОТ:

J =

MAJ

/0,теап

7. Среднее относительное возмущение ЧОТ (сглаженное за 3 периода ОТ) представляет собой отношение разницы среднего значения ЧОТ в течение трех периодов ОТ к среднему значению ЧОТ для всех вокализованных участков зарегистрированной речи:

ЯЛР =

—2 2 р=2 ((о, p+1 + /о, p + fo, p-1/3)- A,

P -2'

f0A

х 100.

8. Коэффициент возмущения ЧОТ (сглаженный за 5 периодов ОТ) представляет собой отношение разницы среднего значения ЧОТ в течение пяти периодов ОТ к среднему значению ЧОТ для всех вокализованных участков зарегистрированной речи:

PPQ =

P

—4 2 P=2 (2 p=p-2/o,k/5)- /о,

А,

х100.

Адаптивная технология ДЭМ

Результаты подробных исследований технологий декомпозиций выявили перспективность использования улучшенной полной множественной декомпозиции на эмпирические моды с адаптивным шумом (ПМДЭМАШ) [16], базисом которой является классическая ДЭМ. Принцип ДЭМ состоит в разложении сигнала в сумму функций с ограниченной полосой, называемых эмпирическими модами (ЭМ). При разложении модель сигнала не задается заранее, ЭМ вычисляются в ходе процедуры отсеивания с учетом локальных особенностей (таких как экстремумы и нули сигнала) и внутренней структуры каждого конкретного сигнала. Таким образом, ЭМ не имеют строгого ана-

литического описания, но должны удовлетворять двум условиям, гарантирующим определенную симметричность и узкополосность базисных функций:

— общее число экстремумов равняется общему числу нулей с точностью до единицы;

— среднее значение двух огибающих - верхней, интерполирующей локальные максимумы, и нижней, интерполирующей локальные минимумы, -должно быть приближенно равно нулю.

Кроме адаптивности, технология ДЭМ обладает и другими важными свойствами:

— локальность - возможность учета локальных особенностей сигнала;

— ортогональность - обеспечение восстановления сигнала с определенной точностью;

— полнота - гарантия конечного числа базисных функций при конечной длительности сигнала.

Аналитическое выражение ДЭМ выглядит следующим образом:

где х(п) - исходный сигнал; 1ЫЕ1(п) - ЭМ; г(п) - конечный остаток; 1 = 1, 2, ..., I - номер ЭМ; п - дискретный отсчет времени (0 < п < N N - количество дискретных отсчетов в сигнале).

Отличительной особенностью улучшенной ПМДЭМАШ является добавление к исходному сигналу контролируемого белого шума малой амплитуды для создания новых экстремумов:

где х(п) - шумовые копии речевого сигнала; ^(п) - реализации белого шума,

7 = 1, 2, ..., 3 - количество реализаций белого шума.

При использовании улучшенной ПМДЭМАШ устраняются недостатки существующих разновидностей других декомпозиций: смешивание ЭМ; отсутствие полноты декомпозиции (все полученные шумовые копии разлагаются независимо друг от друга без связи между собой); остаточный шум в ЭМ; «паразитные» ЭМ на ранних этапах декомпозиции. Подробно преимущества и недостатки технологий ДЭМ в задачах обработки речевых сигналов рассмотрены в работах авторов [8-10].

На рис. 1 представлена упрощенная блок-схема помехозащищенного алгоритма определения просодических характеристик речевых сигналов для систем оценки психоэмоционального состояния человека. Суть алгоритма заключается в разложении сигнала на информативные шумовые и информативные сигнальные частотные составляющие, выделении составляющей, содержащей ОТ с последующим определением просодических характеристик.

I

x(n) = Z IMFi (n) + ri (n),

i=1

x j (n) = x(n) + Wj (n),

Описание помехоустойчивого алгоритма

Рис. 1. Упрощенная блок-схема помехозащищенного алгоритма определения просодических характеристик речевых сигналов

Рассмотрим вкратце некоторые этапы обработки алгоритма. Полное математическое описание и описание функционала работы алгоритма представлено в работе [10].

Декомпозиция методом улучшенной ПМДЭМАШ является основой алгоритма и позволяет осуществить фильтрацию зашумленного речевого сигнала. Уникальность адаптивной технологии ДЭМ в области частотно-временного анализа заключается в отсутствии необходимости априорной информации об анализируемых нестационарных речевых сигналах. Как, например, это необходимо при работе с вейвлет-анализом для подбора базисной функции (материнского вейвлета) при разложении.

На рис. 2 представлены результаты разложения вокализованного участка речевого сигнала звука «а» длительностью 100 мс с помощью улучшенной ПМДЭМАШ. Из рис. 2 следует, что вокализованный участок речи был разложен на восемь ЭМ. Первые пять ЭМ являются информативными сигнальными, последние три - компенсирующими трендовыми. Первая ЭМ является высокочастотной, а последующие моды - низкочастотные (по убыванию). Если предположить, что шумовая составляющая сигнала будет иметь самую высокую частоту, то она будет извлечена в первую ЭМ, которую можно исключить в последующих этапах обработки. На этом принципе основана идея помехозащищенности.

Процесс определения информативной сигнальной моды, содержащей ОТ, сводится к последовательному определению разницы по модулю между значениями логарифмов энергии анализируемой и последующей ЭМ [10]. Операция логарифмирования энергии по основанию 10 применяется для уплотнения значений энергии ЭМ в широком динамическом диапазоне.

Из рис. 3,а следует, что резкий спад логарифма энергии наблюдается между пятой информативной ЭМ и трендовой шестой ЭМ. Таким образом, пятая мода содержит ОТ [9] (рис. 3,6).

Для определения значения ЧОТ в алгоритме применяется функция оператора Тигра, или, как ее еще называют, функция измерения мгновенной энергии сигнала. Применение функции оператора Тигра в обработке речевых сигналов обосновывается эффективностью, простотой вычислений и хорошей восприимчивостью к резкому изменению амплитуды сигнала:

Т (п) = (М-,РР (п))2 - lM.Fi,РР (п -1) х 1МЕ1,РР (п +1), где Т(п) - функция оператора Тигра; 1М^рр(п) - ЭМ, содержащая ОТ.

Рис. 2. Результат разложения вокализованного участка речевого сигнала с помощью улучшенной ПМДЭМАШ

3 4 5 6 Номер ЭМ

а)

со

S 0.1 £

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

I 0.05 <

о

1 1 1

1 1 1 Л ia M К.

"0 500 1000

Дискретные отсчеты времени б)

1500

Рис. 3. Определение ЭМ, содержащей ОТ: а - логарифм энергии ЭМ; б - спектральное распределение: синий цвет - вокализованный участок, красный цвет - ЭМ, содержащая ОТ

Вычислив значения функции оператора Тигра, далее по близкорасположенным максимумам (через один) осуществляется определение периода ОТ в миллисекундах, а далее ЧОТ в герцах:

р _ Ттах(п + 2) - Ттах(п) f _ 1

р0 _ 7 , / 0 _ ТТ,

ро

где Р0 - значение ОТ; /0 - значение ЧОТ; Ттах(п), Ттах(п+1) - максимумы функции оператора Тигра; /а - частота дискретизации.

Исследование алгоритма

При участии областной психиатрической больницы им. К. Р. Евграфова (г. Пенза) и Медицинского института Пензенского государственного университета сформирована группа исследуемых для тестирования разработанного алгоритма. В группу отобрано 220 человек мужского и женского пола, возраст от 18 до 79 лет, с признаками психоэмоциональных расстройств. В том же количестве сформирована контрольная группа условно здоровых людей (без признаков психоэмоциональных расстройств и дефектов речи) из числа сотрудников и преподавателей Пензенского государственного университета. В соответствии с разработанной авторами методикой была зарегистрирована база данных речевых сигналов. Для определения эффективности оценки психоэмоционального состояния использовался параметр - ошибки первого и второго рода. Зашумленные речевые сигналы (ОСШ 30, 20, 10 и 0 дБ) были сформированы программно в аудиоредакторе с помощью наложения на чистый речевой сигнал белого шума с различными значениями амплитуды.

Программная реализация алгоритма выполнена в пакете прикладных программ для решения задач технических вычислений © МаЙаЬ (MathWorks).

В табл. 1 представлены результаты оценки психоэмоционального состояния человека для чистого и зашумленных речевых сигналов.

Таблица 1

Результаты оценки психоэмоционального состояния

Прогнозируемый результат Результат определения, чел. Ошибки, %

Патология Норма

1 2 3 4 5

Чистый речевой сигнал

Патология 184 36 1-го, а 16,36

Норма 18 202 2-го, ß 8,19

Зашумленный речевой сигнал, ОСШ = 30 дБ

Патология 182 38 1-го, а 17,27

Норма 22 198 2-го, ß 10,00

Зашумленный речевой сигнал, ОСШ = 20 дБ

Патология 178 42 1-го, а 19,10

Норма 27 193 2-го, ß 12,27

Зашумленный речевой сигнал, ОСШ = 10 дБ

Патология 172 48 1-го, а 21,81

Норма 31 189 2-го, ß 14,09

Зашумленный речевой сигнал, ОСШ = 0 дБ

Патология 168 52 1-го, а 23,63

Норма 36 184 2-го, ß 16,36

Обсуждение и выводы

Из полученных результатов следует, что значения ошибок первого (а) и второго (в) рода для зашумленных сигналов находятся в допустимых пределах (а < 25 % и в < 20 %), в том числе и для высоких значений интенсивности шума (ОСШ 10 и 0 дБ). На рис. 4 (левый столбец) представлены осциллограммы зашумленных вокализованных участков речевого сигнала. Достоверность полученных значения ошибок а ив подтверждается анализом спектральной плотности мощности ЭМ, содержащих ОТ, полученных в результате разложения чистого и зашумленных речевых сигналов (рис. 4, правый столбец).

Рис. 4. Осциллограммы зашумленных вокализованных участков речевого сигнала (левый столбец); спектральные плотности мощностей (правый столбец) зашумленных вокализованных участков речевого сигнала (синий цвет) и извлеченных ЭМ, содержащих ОТ (красный цвет)

Подробный спектральный анализ ЭМ, содержащих ОТ (рис. 5), выявил, что разница между значениями ЧОТ чистого и зашумленных речевых сигналов незначительная, а в некоторых случаях вообще отсутствует. Для самого зашумленного сигнала с ОСШ 0 дБ отклонение ЧОТ составляет всего лишь 3 Гц. А для остальных зашумленных сигналов разница находится в пределах 1 Гц, что можно отнести к погрешности.

Рис. 5. Спектральное распределение ЭМ, содержащих ОТ

Исходя из полученных результатов, можно сделать вывод, что разработанный алгоритм определения просодических характеристик речевых сигналов устойчив к интенсивному шуму. Таким образом, разработанный алгоритм может успешно тестироваться в условиях современной «агрессивной» шумовой обстановки в системах автоматизированной оценки психоэмоционального состояния человека.

Библиографический список

1. Официальный сайт компании «WEVOSYS». - URL: http://www.wevosys.com (дата обращения: 20.06.2019).

2. Официальный сайт компании «NEMESYSCO». - URL: http://www.nemesysco.com (дата обращения: 20.06.2019).

3. Boll, S. Suppression of acoustic noise in speech using spectral subtraction / S. Boll // IEEE Transactions on Acoustics, Speech, and Signal Processing. - 1979. - Vol. 27 (2). -P. 113-120.

4. Berstein, A. A hypothesized Wiener filtering approach to noisy speech recognition / A. Berstein, I. Shallom // 1991 International Conference on Acoustics, Speech, and Signal Processing (ICASSP) (Toronto, Canada, 14-17 May 1991). - Toronto, Canada : IEEE, 2018. - P. 913-916.

5. Furui, S. Cepstral analysis technique for automatic speaker verification / S. Furui // IEEE Transactions on Acoustics, Speech, and Signal Processing. - 1981. - Vol. 29(2). -P. 254-272.

6. Viikki, O. A recursive feature vector normalization approach for robust speech recognition in noise / O. Viikki, D. Bye, K. Laurila // 1998 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP '98) (Seattle, USA, 14-15 May). - Seattle, USA : IEEE, 1998. - P. 733-736.

7. Alimuradov, A. K. Noise-robust speech signals processing for the voice control system based on the complementary ensemble empirical mode decomposition / A. K. Alimuradov, P. P. Churakov // 2015 International Siberian Conference on Control and Communications (SIBCON) (Omsk, Russia, 21-23 May). - Omsk, Russia : IEEE, 2015. - 6 p.

8. Alimuradov, A. K. A method to determine cepstral markers of speech signals under psychogenic disorders / A. K. Alimuradov, A. Yu. Tychkov, A. V. Ageykin, P. P. Churakov // 2018 Ural Symposium on Biomedical Engineering, Radioelectronics and Information Technology (USBEREIT) (Yekaterinburg, Russia, 7-8 May 2018). -Yekaterinburg, Russia : IEEE, 2018. - P. 128-131.

9. Alimuradov, A. K. Automation of empirical mode decomposition to increase efficiency of speech signal processing / A. K. Alimuradov, A. Yu. Tychkov, Yu. S. Kvitka // 2018 International Russian Automation Conference (RusAutoCon) (Sochi, Russia, 9-16 Sept. 2018). - Sochi, Russia : IEEE, 2018. - 6 p.

10. Improved CEEMDAN based speech signal analysis algorithm for mental disorders diagnostic system. Pitch frequency detection and measurement / A. K. Alimuradov, A. Yu. Tychkov, A. V. Kuzmin, P. P. Churakov, A. V. Ageykin, G. V. Vishnevskaya // International Journal of Embedded and Real-Time Communication Systems (IJERTCS). - 2019. - Vol. 10, № 2. - P. 22-47.

11. Huang, N. E. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis / N. E. Huang, Sh. Zheng, R. L. Steven // Proceedings of the Royal Society of London. - 1998. - Vol. A 454. - P. 903-995.

12. Stassi, A. E. Vocal fold activity detection from speech related biomedical signals: a preliminary study / A. E. Stassi, G. A. Alzamendi, G. Schlotthauer, M. E. Torres // VI Latin American Congress on Biomedical Engineering CLAIB 2014 (Parana, Argentina, 29- 31 October 2014) / A. Braidot, A. Hadad (eds). - IFMBE Proceedings. -Cham : Springer, 2014. - Vol. 49. - P. 520-523.

13. Torres, M. E. Empirical mode decomposition. Spectral properties in normal and pathological voices / M. E. Torres, G. Schlotthauer, H. L. Rufiner, M. C. Jackson-Menaldi // 4th European Conference of the International Federation for Medical and Biological Engineering, ECIFMBE (Antwerp, Belgium, 23-27 November 2008). -Antwerp, Belgium : Springer, 2008. - P. 252-255.

14. Schuller, B. W. Computational Paralinguistics: Emotion, Affect and Personality in Speech and Language Processing / B. W. Schuller, A. M. Batliner. - New York : Wiley, 2013. - P. 344.

15. Фант, Г. К. Акустическая теория речеобразования / Г.К. Фант ; пер. с англ. Л. А. Варшавского и В. И. Медведева ; науч. ред. В.С. Григорьева. - Москва : Наука, 1964. - 284 с.

16. Colominasa, M. A. Improved complete ensemble EMD: a suitable tool for biomedical signal processing / M. A. Colominasa, G. Schlotthauera, M. E. Torres // Bio-med. Signal Proces. - 2014. - Vol. 14. - P. 19-29.

References

1. Ofitsial'nyy sayt kompanii «WEVOSYS» [Official website of «WEVOSYS» company]. Available at: http://www.wevosys.com (accessed June 20, 2019).

2. Ofitsial'nyy sayt kompanii «NEMESYSCO» [Official website of «NEMESYSCO» company]. Available at: http://www.nemesysco.com (accessed June 20, 2019).

3. Boll S. IEEE Transactions on Acoustics, Speech, and Signal Processing. 1979, vol. 27 (2), pp. 113-120.

4. Berstein A., Shallom I. 1991 International Conference on Acoustics, Speech, and Signal Processing (ICASSP) (Toronto, Canada, 14-17 May 1991). Toronto, Canada: IEEE, 2018, pp. 913-916.

5. Furui S. IEEE Transactions on Acoustics, Speech, and Signal Processing. 1981, vol. 29 (2), pp. 254-272.

6. Viikki O., Bye D., Laurila K. 1998 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP '98) (Seattle, USA, 14-15 May). Seattle, USA: IEEE, 1998, pp. 733-736.

7. Alimuradov A. K., Churakov P. P. 2015 International Siberian Conference on Control and Communications (SIBCON) (Omsk, Russia, 21-23 May). Omsk, Russia: IEEE, 2015, 6 p.

8. Alimuradov A. K., Tychkov A. Yu., Ageykin A. V., Churakov P. P. 2018 Ural Symposium on Biomedical Engineering, Radioelectronics and Information Technology (US-BEREIT) (Yekaterinburg, Russia, 7-8 May 2018). Yekaterinburg, Russia: IEEE, 2018, pp. 128-131.

9. Alimuradov A. K., Tychkov A. Yu., Kvitka Yu. S. 2018 International Russian Automation Conference (RusAutoCon) (Sochi, Russia, 9-16 Sept. 2018). Sochi, Russia: IEEE, 2018, 6 p.

10. Alimuradov A. K., Tychkov A. Yu., Kuzmin A. V., Churakov P. P., Ageykin A. V., Vishnevskaya G. V. International Journal of Embedded and Real-Time Communication Systems (IJERTCS). 2019, vol. 10, no. 2, pp. 22-47.

11. Huang N. E., Zheng Sh., Steven R. L. Proceedings of the Royal Society of London. 1998, vol. A 454, pp. 903-995.

12. Stassi A. E., Alzamendi G. A., Schlotthauer G., Torres M. E. VI Latin American Congress on Biomedical Engineering CLAIB 2014 (Parana, Argentina, 29-31 October 2014). BraidotA., HadadA. (eds). IFMBE Proceedings. Cham: Springer, 2014, vol. 49, pp. 520-523.

13. Torres M. E., Schlotthauer G., Rufiner H. L., Jackson-Menaldi M. C. 4th European Conference of the International Federation for Medical and Biological Engineering, ECIFMBE (Antwerp, Belgium, 23-27 November 2008). Antwerp, Belgium: Springer, 2008, pp. 252-255.

14. Schuller B. W., Batliner A. M. Computational Paralinguistics: Emotion, Affect and Personality in Speech and Language Processing. New York: Wiley, 2013, p. 344.

15. Fant G. K. Akusticheskaya teoriya recheobrazovaniya [The acoustic theory of speech production]. Transl. from Engl. by L. A. Varshavskiy and V. I. Medvedev. Moscow: Nauka, 1964, 284 p. [In Russian]

16. Colominasa M. A., Schlotthauera G., Torres M. E. Biomed. Signal Proces. 2014, vol. 14, pp. 19-29.

Алимурадов Алан Казанферович

кандидат технических наук, директор студенческого научно-производственного бизнес-инкубатора, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40)

E-mail: alansapfir@yandex.ru

Alimuradov Alan Kazanferovich Candidate of engineering sciences, director of student research and production business incubator, Penza State University (40 Krasnaya street, Penza, Russia)

Тычков Александр Юрьевич

кандидат технических наук, заместитель директора научно-исследовательского института фундаментальных и прикладных исследований, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40)

E-mail: tychkov-a@mail.ru

Чураков Петр Павлович

доктор технических наук, профессор, кафедра информационно-измерительной техники и метрологии, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40)

E-mail: churakov-pp@mail.ru

Артамонов Дмитрий Владимирович

доктор технических наук, профессор, первый проректор Пензенского государственного университета (Россия, г. Пенза, ул. Красная, 40)

E-mail: aius@pnzgu.ru

Tychkov Aleksandr Yur'evich Candidate of engineering sciences, deputy director of the Research Institute for Basic and Applied Studies, Penza State University (40 Krasnaya street, Penza, Russia)

Churakov Petr Pavlovich

Doctor of engineering sciences, professor,

sub-department of information

and measuring equipment and metrology,

Penza State University (40 Krasnaya

street, Penza, Russia)

Artamonov Dmitriy Vladimirovich Doctor of engineering sciences, professor, First Vice Rector of Penza State University (40 Krasnaya street, Penza, Russia)

Образец цитирования:

Алимурадов, А. К. Помехоустойчивый алгоритм определения просодических характеристик речевых сигналов для систем оценки психоэмоционального состояния человека / А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков, Д. В. Артамонов // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2019. - № 3 (51). - С. 3-16. - DOI 10.21685/ 2072-3059-2019-3-1.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.