Научная статья на тему 'Оценка психоэмоционального состояния человека на основе декомпозиции на эмпирические моды и кепстрального анализа речевых сигналов'

Оценка психоэмоционального состояния человека на основе декомпозиции на эмпирические моды и кепстрального анализа речевых сигналов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
153
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБРАБОТКА РЕЧЕВЫХ СИГНАЛОВ / ОЦЕНКА ПСИХОЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ / ДЕКОМПОЗИЦИЯ НА ЭМПИРИЧЕСКИЕ МОДЫ / МЕЛ-ЧАСТОТНЫЙ КЕПСТРАЛЬНЫЙ АНАЛИЗ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Алимурадов Алан Казанферович, Тычков Александр Юрьевич, Чураков Петр Павлович

Точность оценки психоэмоционального состояния зависит от корректной обработки речевых сигналов. Основная причина низкой точности и больших погрешностей при измерениях связана с использованием неэффективных и неадаптивных методов обработки нестационарных речевых сигналов. Предлагается оригинальный способ повышения эффективности оценки психоэмоционального состояния на основе улучшенной полной множественной декомпозиции на эмпирические моды с адаптивным шумом и мел-частотного кепстрального анализа. Представлена блок-схема способа и краткое математическое описание. Приведены результаты исследования, на основании которых сделан вывод, что предложенный авторами способ может успешно применяться в системах дистанционного мониторинга оценки психоэмоционального состояния.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Алимурадов Алан Казанферович, Тычков Александр Юрьевич, Чураков Петр Павлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Оценка психоэмоционального состояния человека на основе декомпозиции на эмпирические моды и кепстрального анализа речевых сигналов»

ТЕХНИКА, ТЕХНОЛОГИЯ. УПРАВЛЕНИЕ

УДК 004.934.2

А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков

ОЦЕНКА ПСИХОЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ЧЕЛОВЕКА НА ОСНОВЕ ДЕКОМПОЗИЦИИ НА ЭМПИРИЧЕСКИЕ МОДЫ И КЕПСТРАЛЬНОГО АНАЛИЗА РЕЧЕВЫХ СИГНАЛОВ

Аннотация. Точность оценки психоэмоционального состояния зависит от корректной обработки речевых сигналов. Основная причина низкой точности и больших погрешностей при измерениях связана с использованием неэффективных и неадаптивных методов обработки нестационарных речевых сигналов. Предлагается оригинальный способ повышения эффективности оценки психоэмоционального состояния на основе улучшенной полной множественной декомпозиции на эмпирические моды с адаптивным шумом и мел-частотного кепстрального анализа. Представлена блок-схема способа и краткое математическое описание. Приведены результаты исследования, на основании которых сделан вывод, что предложенный авторами способ может успешно применяться в системах дистанционного мониторинга оценки психоэмоционального состояния.

Ключевые слова: обработка речевых сигналов, оценка психоэмоционального состояния, декомпозиция на эмпирические моды, мел-частотный кепстральный анализ.

По данным Федеральной службы государственной статистики [1] за предшествующие пять лет зарегистрировано более 326,7 тыс. пациентов с психоэмоциональными расстройствами (психическими расстройствами, расстройствами поведения, алкогольными и наркотическими психозами и т.п.).

Психоэмоциональное расстройство является наиболее распространенным аффективным расстройством. Как правило, причиной психоэмоционального расстройства является низкое социально-экономическое положение и наличие большого количества социальных стрессов.

В течение долгого времени точная оценка психоэмоционального состояния не представлялась возможной и ограничивалась психометрическими методами и лабораторным анализом. Однако с момента увеличения мощности вычислительных машин стали появляться экспериментально-статистические методики [2-6], наиболее адаптивные среди которых основаны на анализе речевых сигналов [7].

В основе диагностирования нарушений работы нервной системы лежит важное правило: патофизиологические механизмы развития психоэмоциональных расстройств строятся на принципах взаимодействия нервной и речеобразующей систем организма; расстройства нервной системы активируют каскад механизмов, влияющих на работу моторики органов речевого аппарата. Из данного правила можно сделать вывод, что психоэмоциональные расстройства «кодируются» в определенных информативных параметрах речевых сигналов.

Точность оценки психоэмоционального состояния зависит от корректной обработки речевых сигналов, которая определяется правильностью измерения его амплитудных, временных, частотных и энергетических характеристик. Основная причина низкой точности и больших погрешностей при измерениях связана с использованием неэффективных и неадаптивных методов обработки нестационарных речевых сигналов.

В данной работе авторами предлагается оригинальный способ повышения эффективности обнаружения пограничных психических расстройств на основе адаптивной технологии разложения нестационарных сигналов - декомпозиции на эмпирические моды (ДЭМ) и мел-частотного кепстрального анализа. Исследование является развитием ранее опубликованных трудов авторов [8-10].

Декомпозиция на эмпирические моды [11] - это адаптивная технология разложения нестационарных сигналов, возникающих в нелинейных системах. ДЭМ обеспечивает локальное разложение сигнала на быстрые и медленные колебательные функции. В результате разложения исходный сигнал может быть представлен в виде суммы амплитудных и частотных модулированных функций, называемых эмпирическими модами (ЭМ). Аналитическое выражение ДЭМ выглядит следующим образом:

I

х(п) = £ МЦ (п) + г (п), 1=1

где х(п) - исходный сигнал, 1ИР; (п) - ЭМ, г; (п) - конечный остаток, ; = 1, 2, ..., I - номер ЭМ, п - дискретный отсчет времени (о < п < Ы, N - количество дискретных отсчетов в сигнале).

Среди всех разновидностей методов декомпозиции наиболее адаптивной к речевым сигналам является улучшенная полная множественная декомпозиция на эмпирические моды с адаптивным шумом (ПМДЭМАШ) [12]. Краткое математическое описание метода улучшенной ПМДЭМАШ представлено ниже:

1. С помощью аппарата ДЭМ и выражая из формулы {Е1 {х]- (п))) = ( (п)) - (м {х^п))

локальные средние значения шумовых копий исходного сигнала {х]- (п) = х(п) + р0 Е1 {wj (п)^, определяется первый остаток:

П(п) = {М {х^ (п))),

где £;(•) - аппарат извлечения ЭМ методом ДЭМ (; - номер моды), х,(п) = х(п) + и>)(п) -шумовые копии исходного сигнала (х(п) - исходный речевой сигнал, ~ш(п) - реализации белого шума с нулевой средней единичной дисперсией), М(-) - аппарат, создающий локальное среднее значение применяемого сигнала, Р; = е^^г;) - коэффициент, допускающий выбор различных значений отношения сигнал/шум.

2. На первом этапе для ; = 1 вычисляется первая мода: 1М^(п) = х(п) - п(п).

3. Вычисляется второй остаток как усредненное локальное среднее значение шумовых копий первого остатка г\(п) + РЕ {м> ^ (п)) и определяется вторая мода:

ВЩ (и) = г! (и) = п (и) - (м {п) + Р,Л2 (wj (и)))).

4. На последующих этапах для ; = 3,.., I вычисляется ;-й остаток

Г (п) = {м {г-1 (п) + РмЕ {Wj (п)))).

5. Вычисляется 1-я мода

6. Переход к шагу 4 для следующего значения г.

Константы вг выбираются так, чтобы получить желаемое отношение сигнал/шум между добавленным шумом и остатком, к которому добавляется шум.

В области обработки речевых сигналов кепстральный анализ получил широкую практическую популярность, объясняемую достоинством сжатия информации о сигнале при переходе из временной в частотную область обработки [13]. Кепстральный анализ основан на выделении кепстральных коэффициентов на мел-шкале, называемых мел-частотными кепстральными коэффициентами (МЧКК). МЧКК включают в себя два основных понятия: кепстр и мел-шкала. Кепстр - это дискретно-косинусное преобразование амплитудного спектра сигнала в логарифмическом масштабе. Кепстр сигнала определяется по формуле

с(п) = БСТ

1сВ (Х|х(п)|2 )

где БСТ - дискретно-косинусное преобразование, X - спектральное представление сигнала х(п).

Метод получения МЧКК основан на модели функционирования органов слуха человека и использует частотную шкалу в мелах, которая моделирует частотную чувствительность человеческого уха [13].

На рис. 1 представлена упрощенная блок-схема способа обнаружения и оценки психоэмоционального состояния.

Ввод речевого сигнала

С

11рсд верительная обработки

г Формирование \

информативных

V компонент

к

Гъ Декомпозиция

на эмпирические

молы у

1 Мел-частотный кепстральный >

анализ )

Т

Гь Вывод Л

V резул ьтата >

1 База данных значений "нормататология

1

Определение "норма/патология"

Рис. 1. Упрощенная блок-схема способа обнаружения и оценки психоэмоционального состояния

Этапы обработки 1, 2, 5, 6 представляют собой классический способ. Этапы 3, 4 введены авторами для повышения эффективности обнаружения. Этап обработки 6 подвергся модернизации. Этапы 7, 8 не относятся к обработке. Рассмотрим вкратце некоторые этапы.

Этап 2. В рамках предварительной обработки осуществляется: удаление постоянной составляющей, фильтрация с помощью ФВЧ Чебышева четвертого порядка частот ниже 130 Гц и сегментация на вокализованные и невокализованные участки.

Этап 3. На основе вышеупомянутого краткого анализа преимуществ и недостатков различных видов декомпозиции и учитывая специфику речевых сигналов при психоэмоциональных расстройствах авторами принято решение использовать улучшенную ПМДЭМАШ [14], которая обеспечит:

- адаптивное разложение, так как базисные функции, используемые при декомпозиции, извлекаются непосредственно из исходного речевого сигнала и позволяют учитывать только ему свойственные особенности (скрытые модуляции, области концентрации энергии и т.п.);

- минимальный уровень остаточного шума;

- отсутствие паразитных ЭМ, возникающих на ранних этапах декомпозиции вследствие перекрытия масштабно-энергетических пространств мод.

Этап 4. Для абсолютно произвольного сигнала все ЭМ можно разбить на две категории: информативные ЭМ с шумовыми и сигнальными составляющими; неинформативные ЭМ с трендовыми составляющими. Формирование информативных компонент заключается в вычитании из исходного сигнала информативных шумовых и неинформативных ЭМ. Целью формирования информативных компонент является сбор информации, отражающей нарушения работы органов речевого аппарата вследствие пограничных психических расстройств. Формирование набора информативных компонент осуществляется по формуле

(

хаЬ (п) = х(п) -

ч

а х£ 1МЦ+1 (п) + Ь х £ 1МЦ-1 (п)

V г=0 1=0

где хаъ,; (п) - информативная компонента; х(п) - исходный сигнал; а, Ь - коэффициенты, определяющие участие ЭМ в формировании информативных компонент; р - количество первых ЭМ, участвующих в формировании информативных компонент (обычно р = 2); д - количество последних ЭМ, участвующих в формировании информативных компонент (обычно д = 3).

На рис. 2 представлена графическая интерпретация формирования информативных компонент.

дооо 6000 еооо тоооо

Дискретные отсчеты времени

в)

Рис. 2. Графическая интерпретация получения информативных компонент (синий цвет - исходный речевой сигнал, красный цвет - информативная компонента): а) информативная компонента № 1 (вычитание последних трех ЭМ); б) информативная компонента № 2 (вычитание первой и последних трех ЭМ); в) информативная компонента № 3 (вычитание первых двух и последних трех ЭМ)

Этап 5. Как отмечалось ранее, в качестве кепстральных характеристик в способе вычисляются МЧКК. Основными этапами мел-частотного кепстрального анализа являются:

- перевод сигнала из шкалы герц в шкалу мелов;

- спектральное преобразование и определение периодограммы сигнала;

- фильтрация периодограммы сигнала набором мел-фильтров;

- логарифмирование энергии сигнала в каждом мел-фильтре;

- дискретно-косинусное преобразование логарифма энергии.

Итогом вычисления являются МЧКК (MFCC(c), где c = 1, 2, ..., C - номер МЧКК, C - желаемое количество коэффициентов).

Модернизация мел-частотного кепстрального анализа заключается в нормализации и вычислении первого и второго приращения значений МЧКК, которые позволяют получить динамическую информацию о коэффициентах.

Как известно, высокие частоты менее восприимчивы, и МЧКК на этих частотах менее информативны по сравнению с МЧКК на низких частотах. Нормализация МЧКК -это умножение каждого коэффициента на число, которое увеличивается с номером коэффициента. Таким образом, первые коэффициенты по уровню уменьшаются, а последние коэффициенты увеличиваются. Для этой операции используется следующая формула:

МЦССы (с) = МЦСС (с) •

\

, Ь . (пс

1 + — 81П| -

2 V 2

где L - величина, подбираемая эмпирически и равная 22.

Вектор коэффициентов описывает фиксированную спектральную огибающую одного фрагмента, но очевидно, что речевые сигналы несут информацию и о динамике в виде незначительного изменения коэффициентов с течением времени:

£ё {(МСС (с + ё)) - МЦСС (с - ё)

МЦССЩс) =-—,

МЦСС

2£ ё2 £,=1ё{МЦСС,{с+ё)) -МЦССВ(с-ё)

°щс) 2

где MFCC_D(c), MFCC_DD(c) - первое и второе приращение МЧКК, MFCC(c) - статические МЧКК, D - типовое значение приращения, равное 2.

Для оценки эффективности обнаружения и оценки психоэмоционального состояния предлагаемого авторами способа при поддержке Областной клинической больницы им. К. Р. Евграфова (г. Пенза) и Медицинского института ПГУ сформирована группа испытуемых и верифицированная база сигналов. В группу испытуемых отобрано 100 человек мужского и женского пола в возрасте от 18 до 6о лет, поступивших с явно выраженной симптоматикой пограничных психических расстройств. Для оценки эффективности способа использовался параметр - ошибки первого и второго рода.

Задачей исследования являлось обнаружение и оценка психоэмоционального состояния классическим способом и предлагаемым авторами способом на основе улучшенной ПМДЭМАШ и мел-частотного кепстрального анализа.

Все этапы обработки сигналов и анализа данных были выполнены в среде математического моделирования © МаЙаЬ (MathWorks).

Результаты исследования способа оценивались в сравнении с известным классическим способом обнаружения психоэмоциональных расстройств, основанным только лишь на мел-частотном кепстральном анализе (см. рис. 1).

В табл. 1 представлены результаты обнаружения и оценки психоэмоциональных расстройств.

Таблица 1

Результаты обнаружения и оценки психоэмоциональных расстройств

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Прогнозируемый результат Результат определения Ошибки первого и второго рода, %

Патология Норма

Классический способ

Патология 78 человек 22 человека 1-го 22

Норма 16 человек 84 человека 2-го 16

Предлагаемый способ

Информативная компонента № 1 (вычитание последних трех ЭМ)

Патология 84 человека 16 человек 1-го 16

Норма 9 человек 81 человек 2-го 9

Информативная компонента № 2 (вычитание первой и последних трех ЭМ)

Патология 91 человек 9 человек 1-го 9

Норма 6 человек 94 человека 2-го 6

Информативная компонента № 3 (вычитание первых двух и последних трех ЭМ)

Патология 87 человек 13 человек 1-го 13

Норма 8 человек 82 человека 2-го 8

В соответствии с полученными данными можно сделать вывод о том, что применение улучшенной ПМДЭМАШ и мел-частотного кепстрального анализа в классическом способе позволяют повысить эффективность обнаружения и оценки психоэмоционального состояния. Наилучшие результаты достигаются при вычитании из исходного речевого сигнала первой шумовой и последних трех трендовых ЭМ (информационная компонента № 2). Объясняется это тем, что первая ЭМ содержит большую часть остаточного шума, и при вычитании осуществляется фильтрация исходного сигнала. Три последние трендо-вые моды - результат разложения суммы гармонического сигнала и полиномиального тренда. Вычитание данных ЭМ избавляет исходный сигнал от избыточной информации.

Таким образом, полученные результаты позволяют сделать вывод: предложенный авторами способ может успешно тестироваться в системах дистанционного мониторинга оценки психоэмоционального состояния.

Авторы благодарят Российский фонд фундаментальных исследований за финансовую поддержку проекта «Исследование информативных параметров речевых сигналов и разработка алгоритмов обнаружения скрытых признаков психоэмоционального состояния операторов критичных по безопасности систем управления» № 18-37-00256, 2018-2019 гг.

Библиографический список

1. Здравоохранение в России 2017. Статистический сборник. - URL: http://www.gks.ru/ free_doc/doc_20i7/zdravi7.pdf (дата обращения: 21.02.2018).

2. Koelstra, S. A dynamic texture-based approach to recognition of facial actions and their temporal models / S. Koelstra, M. Pantic, I. Patras // IEEE TPAMI. - 2010. - Vol. 32. - P. 1940-1954.

3. Towards long term monitoring of electrodermal activity in daily life / C. Kappeler-Setz, F. Gravenhors, J. Schumm, B. Arnrich, G. Troster // Journal Personal and Ubiquitous Computing. -2013. - Vol. 17 (2). - P. 261-271.

4. Farwell, L. A. Brain fingerprinting: a comprehensive tutorial review of detection of concealed information with event-related brain potentials / L. A. Farwell / / Cogn Neurodyn. - 2012. - Vol. 6. -Р. 115-154.

5. EMOTHAW: A Novel Database for Emotional State Recognition From Handwriting and Drawing / L. Likforman-Sulem, A. Esposito, M. Faundez-Zanuy, S. Clemengon, G. Cordasco // IEEE Transactions on Human-Machine Systems. - 2017. - Vol. 47 (2). - Р. 273-284.

6. Barabanschikov, V. A. Methods of eye tracking in psychology: educational program. Exp. Psych. / V. A. Barabanschikov, A. V. Zhegallo. - 2014. - Vol. 7 (1). - P. 132-137.

7. Vocal and facial biomarkers of depression based on motor incoordination and timing. 4th International Workshop on Audio / J. R. Williamson, T. F. Quatieri, B. S. Helfer, G. Ciccarelli, D. D. Mehta // Visual Emotional Challenge (AVEC). - 2014. - P. 65-72.

8. Алимурадов, А. К. Разработка алгоритма обработки речевых сигналов для определения информативно-значимых параметров пограничных психических расстройств / А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков, А. В. Агейкин // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2017. - № 3 (47). - С. 4-25.

9. Алимурадов, А. К. Способ определения кепстральных маркеров речевых сигналов при психогенных расстройствах / А. К. Алимурадов, А. Ю. Тычков, А. П. Зарецкий, А. П. Кулешов // Труды МФТИ. - 2017. - Т. 9, № 4. - С. 201-214.

10. Алимурадов, А. К. Оценка психоэмоционального состояния на основе анализа речевых сигналов: современное состояние, проблемы и перспективы / А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков, А. В. Агейкин // Перспективные информационные технологии (ПИТ-2018) : тр. Междунар. науч.-техн. конф. / под ред. С. А. Прохорова. - Самара : Изд-во Самарского науч. центра РАН, 2018. - С. 677-681.

11. Huang, N. E. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis / N. E. Huang, Sh. Zheng, R. L. Steven // Proc. R. Soc. Lond. -1998. - A 454. - P. 903-995.

12. Colominasa, M. A. Improved complete ensemble EMD: a suitable tool for biomedical signal processing / M. A. Colominasa, G. Schlotthauera, M. E. Torres // Biomed. Signal Proces. - 2014. -Vol. 14. - P. 19-29.

13. Huang, X. Spoken Language Processing / X. Huang, A. Acero, H.-W. Hon // Guide to Algorithms and System Development. - Prentice Hall, Upper Saddle River, 2001.

14. Свидетельство о государственной регистрации программы для ЭВМ № 2018612742. Программа определения кепстральных характеристик речевых сигналов / А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков // Программы для ЭВМ, базы данных, топологии интегральных микросхем ; заявл. 11.01.2018 ; опубл. 26.02.2018.

Алимурадов Алан Казанферович, кандидат технических наук, директор студенческого научно-производственного бизнес-инкубатора Пензенского государственного университета. E-mail: [email protected]

Тычков Александр Юрьевич, кандидат технических наук, заместитель директора научно-исследовательского института фундаментальных и прикладных исследований Пензенского государственного университета.

E-mail: [email protected]

Чураков Петр Павлович, доктор технических наук, профессор, кафедра «Информационно-измерительная техника и метрология», Пензенский государственный университет. E-mail: [email protected]

УДК 004.934.2 Алимурадов, А. К.

Оценка психоэмоционального состояния человека на основе декомпозиции на эмпирические моды и кепстрального анализа речевых сигналов / А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков // Вестник Пензенского государственного университета. - 2018. - № 2 (22). - С. 89-95.

i Надоели баннеры? Вы всегда можете отключить рекламу.