ТЕХНИКА, ТЕХНОЛОГИЯ. УПРАВЛЕНИЕ
УДК 004.934.2
А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков
ОЦЕНКА ПСИХОЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ЧЕЛОВЕКА НА ОСНОВЕ ДЕКОМПОЗИЦИИ НА ЭМПИРИЧЕСКИЕ МОДЫ И КЕПСТРАЛЬНОГО АНАЛИЗА РЕЧЕВЫХ СИГНАЛОВ
Аннотация. Точность оценки психоэмоционального состояния зависит от корректной обработки речевых сигналов. Основная причина низкой точности и больших погрешностей при измерениях связана с использованием неэффективных и неадаптивных методов обработки нестационарных речевых сигналов. Предлагается оригинальный способ повышения эффективности оценки психоэмоционального состояния на основе улучшенной полной множественной декомпозиции на эмпирические моды с адаптивным шумом и мел-частотного кепстрального анализа. Представлена блок-схема способа и краткое математическое описание. Приведены результаты исследования, на основании которых сделан вывод, что предложенный авторами способ может успешно применяться в системах дистанционного мониторинга оценки психоэмоционального состояния.
Ключевые слова: обработка речевых сигналов, оценка психоэмоционального состояния, декомпозиция на эмпирические моды, мел-частотный кепстральный анализ.
По данным Федеральной службы государственной статистики [1] за предшествующие пять лет зарегистрировано более 326,7 тыс. пациентов с психоэмоциональными расстройствами (психическими расстройствами, расстройствами поведения, алкогольными и наркотическими психозами и т.п.).
Психоэмоциональное расстройство является наиболее распространенным аффективным расстройством. Как правило, причиной психоэмоционального расстройства является низкое социально-экономическое положение и наличие большого количества социальных стрессов.
В течение долгого времени точная оценка психоэмоционального состояния не представлялась возможной и ограничивалась психометрическими методами и лабораторным анализом. Однако с момента увеличения мощности вычислительных машин стали появляться экспериментально-статистические методики [2-6], наиболее адаптивные среди которых основаны на анализе речевых сигналов [7].
В основе диагностирования нарушений работы нервной системы лежит важное правило: патофизиологические механизмы развития психоэмоциональных расстройств строятся на принципах взаимодействия нервной и речеобразующей систем организма; расстройства нервной системы активируют каскад механизмов, влияющих на работу моторики органов речевого аппарата. Из данного правила можно сделать вывод, что психоэмоциональные расстройства «кодируются» в определенных информативных параметрах речевых сигналов.
Точность оценки психоэмоционального состояния зависит от корректной обработки речевых сигналов, которая определяется правильностью измерения его амплитудных, временных, частотных и энергетических характеристик. Основная причина низкой точности и больших погрешностей при измерениях связана с использованием неэффективных и неадаптивных методов обработки нестационарных речевых сигналов.
В данной работе авторами предлагается оригинальный способ повышения эффективности обнаружения пограничных психических расстройств на основе адаптивной технологии разложения нестационарных сигналов - декомпозиции на эмпирические моды (ДЭМ) и мел-частотного кепстрального анализа. Исследование является развитием ранее опубликованных трудов авторов [8-10].
Декомпозиция на эмпирические моды [11] - это адаптивная технология разложения нестационарных сигналов, возникающих в нелинейных системах. ДЭМ обеспечивает локальное разложение сигнала на быстрые и медленные колебательные функции. В результате разложения исходный сигнал может быть представлен в виде суммы амплитудных и частотных модулированных функций, называемых эмпирическими модами (ЭМ). Аналитическое выражение ДЭМ выглядит следующим образом:
I
х(п) = £ МЦ (п) + г (п), 1=1
где х(п) - исходный сигнал, 1ИР; (п) - ЭМ, г; (п) - конечный остаток, ; = 1, 2, ..., I - номер ЭМ, п - дискретный отсчет времени (о < п < Ы, N - количество дискретных отсчетов в сигнале).
Среди всех разновидностей методов декомпозиции наиболее адаптивной к речевым сигналам является улучшенная полная множественная декомпозиция на эмпирические моды с адаптивным шумом (ПМДЭМАШ) [12]. Краткое математическое описание метода улучшенной ПМДЭМАШ представлено ниже:
1. С помощью аппарата ДЭМ и выражая из формулы {Е1 {х]- (п))) = ( (п)) - (м {х^п))
локальные средние значения шумовых копий исходного сигнала {х]- (п) = х(п) + р0 Е1 {wj (п)^, определяется первый остаток:
П(п) = {М {х^ (п))),
где £;(•) - аппарат извлечения ЭМ методом ДЭМ (; - номер моды), х,(п) = х(п) + и>)(п) -шумовые копии исходного сигнала (х(п) - исходный речевой сигнал, ~ш(п) - реализации белого шума с нулевой средней единичной дисперсией), М(-) - аппарат, создающий локальное среднее значение применяемого сигнала, Р; = е^^г;) - коэффициент, допускающий выбор различных значений отношения сигнал/шум.
2. На первом этапе для ; = 1 вычисляется первая мода: 1М^(п) = х(п) - п(п).
3. Вычисляется второй остаток как усредненное локальное среднее значение шумовых копий первого остатка г\(п) + РЕ {м> ^ (п)) и определяется вторая мода:
ВЩ (и) = г! (и) = п (и) - (м {п) + Р,Л2 (wj (и)))).
4. На последующих этапах для ; = 3,.., I вычисляется ;-й остаток
Г (п) = {м {г-1 (п) + РмЕ {Wj (п)))).
5. Вычисляется 1-я мода
6. Переход к шагу 4 для следующего значения г.
Константы вг выбираются так, чтобы получить желаемое отношение сигнал/шум между добавленным шумом и остатком, к которому добавляется шум.
В области обработки речевых сигналов кепстральный анализ получил широкую практическую популярность, объясняемую достоинством сжатия информации о сигнале при переходе из временной в частотную область обработки [13]. Кепстральный анализ основан на выделении кепстральных коэффициентов на мел-шкале, называемых мел-частотными кепстральными коэффициентами (МЧКК). МЧКК включают в себя два основных понятия: кепстр и мел-шкала. Кепстр - это дискретно-косинусное преобразование амплитудного спектра сигнала в логарифмическом масштабе. Кепстр сигнала определяется по формуле
с(п) = БСТ
1сВ (Х|х(п)|2 )
где БСТ - дискретно-косинусное преобразование, X - спектральное представление сигнала х(п).
Метод получения МЧКК основан на модели функционирования органов слуха человека и использует частотную шкалу в мелах, которая моделирует частотную чувствительность человеческого уха [13].
На рис. 1 представлена упрощенная блок-схема способа обнаружения и оценки психоэмоционального состояния.
Ввод речевого сигнала
С
11рсд верительная обработки
г Формирование \
информативных
V компонент
к
Гъ Декомпозиция
на эмпирические
молы у
1 Мел-частотный кепстральный >
анализ )
Т
Гь Вывод Л
V резул ьтата >
1 База данных значений "нормататология
1
Определение "норма/патология"
Рис. 1. Упрощенная блок-схема способа обнаружения и оценки психоэмоционального состояния
Этапы обработки 1, 2, 5, 6 представляют собой классический способ. Этапы 3, 4 введены авторами для повышения эффективности обнаружения. Этап обработки 6 подвергся модернизации. Этапы 7, 8 не относятся к обработке. Рассмотрим вкратце некоторые этапы.
Этап 2. В рамках предварительной обработки осуществляется: удаление постоянной составляющей, фильтрация с помощью ФВЧ Чебышева четвертого порядка частот ниже 130 Гц и сегментация на вокализованные и невокализованные участки.
Этап 3. На основе вышеупомянутого краткого анализа преимуществ и недостатков различных видов декомпозиции и учитывая специфику речевых сигналов при психоэмоциональных расстройствах авторами принято решение использовать улучшенную ПМДЭМАШ [14], которая обеспечит:
- адаптивное разложение, так как базисные функции, используемые при декомпозиции, извлекаются непосредственно из исходного речевого сигнала и позволяют учитывать только ему свойственные особенности (скрытые модуляции, области концентрации энергии и т.п.);
- минимальный уровень остаточного шума;
- отсутствие паразитных ЭМ, возникающих на ранних этапах декомпозиции вследствие перекрытия масштабно-энергетических пространств мод.
Этап 4. Для абсолютно произвольного сигнала все ЭМ можно разбить на две категории: информативные ЭМ с шумовыми и сигнальными составляющими; неинформативные ЭМ с трендовыми составляющими. Формирование информативных компонент заключается в вычитании из исходного сигнала информативных шумовых и неинформативных ЭМ. Целью формирования информативных компонент является сбор информации, отражающей нарушения работы органов речевого аппарата вследствие пограничных психических расстройств. Формирование набора информативных компонент осуществляется по формуле
(
хаЬ (п) = х(п) -
ч
а х£ 1МЦ+1 (п) + Ь х £ 1МЦ-1 (п)
V г=0 1=0
где хаъ,; (п) - информативная компонента; х(п) - исходный сигнал; а, Ь - коэффициенты, определяющие участие ЭМ в формировании информативных компонент; р - количество первых ЭМ, участвующих в формировании информативных компонент (обычно р = 2); д - количество последних ЭМ, участвующих в формировании информативных компонент (обычно д = 3).
На рис. 2 представлена графическая интерпретация формирования информативных компонент.
дооо 6000 еооо тоооо
Дискретные отсчеты времени
в)
Рис. 2. Графическая интерпретация получения информативных компонент (синий цвет - исходный речевой сигнал, красный цвет - информативная компонента): а) информативная компонента № 1 (вычитание последних трех ЭМ); б) информативная компонента № 2 (вычитание первой и последних трех ЭМ); в) информативная компонента № 3 (вычитание первых двух и последних трех ЭМ)
Этап 5. Как отмечалось ранее, в качестве кепстральных характеристик в способе вычисляются МЧКК. Основными этапами мел-частотного кепстрального анализа являются:
- перевод сигнала из шкалы герц в шкалу мелов;
- спектральное преобразование и определение периодограммы сигнала;
- фильтрация периодограммы сигнала набором мел-фильтров;
- логарифмирование энергии сигнала в каждом мел-фильтре;
- дискретно-косинусное преобразование логарифма энергии.
Итогом вычисления являются МЧКК (MFCC(c), где c = 1, 2, ..., C - номер МЧКК, C - желаемое количество коэффициентов).
Модернизация мел-частотного кепстрального анализа заключается в нормализации и вычислении первого и второго приращения значений МЧКК, которые позволяют получить динамическую информацию о коэффициентах.
Как известно, высокие частоты менее восприимчивы, и МЧКК на этих частотах менее информативны по сравнению с МЧКК на низких частотах. Нормализация МЧКК -это умножение каждого коэффициента на число, которое увеличивается с номером коэффициента. Таким образом, первые коэффициенты по уровню уменьшаются, а последние коэффициенты увеличиваются. Для этой операции используется следующая формула:
МЦССы (с) = МЦСС (с) •
\
, Ь . (пс
1 + — 81П| -
2 V 2
где L - величина, подбираемая эмпирически и равная 22.
Вектор коэффициентов описывает фиксированную спектральную огибающую одного фрагмента, но очевидно, что речевые сигналы несут информацию и о динамике в виде незначительного изменения коэффициентов с течением времени:
£ё {(МСС (с + ё)) - МЦСС (с - ё)
МЦССЩс) =-—,
МЦСС
2£ ё2 £,=1ё{МЦСС,{с+ё)) -МЦССВ(с-ё)
°щс) 2
где MFCC_D(c), MFCC_DD(c) - первое и второе приращение МЧКК, MFCC(c) - статические МЧКК, D - типовое значение приращения, равное 2.
Для оценки эффективности обнаружения и оценки психоэмоционального состояния предлагаемого авторами способа при поддержке Областной клинической больницы им. К. Р. Евграфова (г. Пенза) и Медицинского института ПГУ сформирована группа испытуемых и верифицированная база сигналов. В группу испытуемых отобрано 100 человек мужского и женского пола в возрасте от 18 до 6о лет, поступивших с явно выраженной симптоматикой пограничных психических расстройств. Для оценки эффективности способа использовался параметр - ошибки первого и второго рода.
Задачей исследования являлось обнаружение и оценка психоэмоционального состояния классическим способом и предлагаемым авторами способом на основе улучшенной ПМДЭМАШ и мел-частотного кепстрального анализа.
Все этапы обработки сигналов и анализа данных были выполнены в среде математического моделирования © МаЙаЬ (MathWorks).
Результаты исследования способа оценивались в сравнении с известным классическим способом обнаружения психоэмоциональных расстройств, основанным только лишь на мел-частотном кепстральном анализе (см. рис. 1).
В табл. 1 представлены результаты обнаружения и оценки психоэмоциональных расстройств.
Таблица 1
Результаты обнаружения и оценки психоэмоциональных расстройств
Прогнозируемый результат Результат определения Ошибки первого и второго рода, %
Патология Норма
Классический способ
Патология 78 человек 22 человека 1-го 22
Норма 16 человек 84 человека 2-го 16
Предлагаемый способ
Информативная компонента № 1 (вычитание последних трех ЭМ)
Патология 84 человека 16 человек 1-го 16
Норма 9 человек 81 человек 2-го 9
Информативная компонента № 2 (вычитание первой и последних трех ЭМ)
Патология 91 человек 9 человек 1-го 9
Норма 6 человек 94 человека 2-го 6
Информативная компонента № 3 (вычитание первых двух и последних трех ЭМ)
Патология 87 человек 13 человек 1-го 13
Норма 8 человек 82 человека 2-го 8
В соответствии с полученными данными можно сделать вывод о том, что применение улучшенной ПМДЭМАШ и мел-частотного кепстрального анализа в классическом способе позволяют повысить эффективность обнаружения и оценки психоэмоционального состояния. Наилучшие результаты достигаются при вычитании из исходного речевого сигнала первой шумовой и последних трех трендовых ЭМ (информационная компонента № 2). Объясняется это тем, что первая ЭМ содержит большую часть остаточного шума, и при вычитании осуществляется фильтрация исходного сигнала. Три последние трендо-вые моды - результат разложения суммы гармонического сигнала и полиномиального тренда. Вычитание данных ЭМ избавляет исходный сигнал от избыточной информации.
Таким образом, полученные результаты позволяют сделать вывод: предложенный авторами способ может успешно тестироваться в системах дистанционного мониторинга оценки психоэмоционального состояния.
Авторы благодарят Российский фонд фундаментальных исследований за финансовую поддержку проекта «Исследование информативных параметров речевых сигналов и разработка алгоритмов обнаружения скрытых признаков психоэмоционального состояния операторов критичных по безопасности систем управления» № 18-37-00256, 2018-2019 гг.
Библиографический список
1. Здравоохранение в России 2017. Статистический сборник. - URL: http://www.gks.ru/ free_doc/doc_20i7/zdravi7.pdf (дата обращения: 21.02.2018).
2. Koelstra, S. A dynamic texture-based approach to recognition of facial actions and their temporal models / S. Koelstra, M. Pantic, I. Patras // IEEE TPAMI. - 2010. - Vol. 32. - P. 1940-1954.
3. Towards long term monitoring of electrodermal activity in daily life / C. Kappeler-Setz, F. Gravenhors, J. Schumm, B. Arnrich, G. Troster // Journal Personal and Ubiquitous Computing. -2013. - Vol. 17 (2). - P. 261-271.
4. Farwell, L. A. Brain fingerprinting: a comprehensive tutorial review of detection of concealed information with event-related brain potentials / L. A. Farwell / / Cogn Neurodyn. - 2012. - Vol. 6. -Р. 115-154.
5. EMOTHAW: A Novel Database for Emotional State Recognition From Handwriting and Drawing / L. Likforman-Sulem, A. Esposito, M. Faundez-Zanuy, S. Clemengon, G. Cordasco // IEEE Transactions on Human-Machine Systems. - 2017. - Vol. 47 (2). - Р. 273-284.
6. Barabanschikov, V. A. Methods of eye tracking in psychology: educational program. Exp. Psych. / V. A. Barabanschikov, A. V. Zhegallo. - 2014. - Vol. 7 (1). - P. 132-137.
7. Vocal and facial biomarkers of depression based on motor incoordination and timing. 4th International Workshop on Audio / J. R. Williamson, T. F. Quatieri, B. S. Helfer, G. Ciccarelli, D. D. Mehta // Visual Emotional Challenge (AVEC). - 2014. - P. 65-72.
8. Алимурадов, А. К. Разработка алгоритма обработки речевых сигналов для определения информативно-значимых параметров пограничных психических расстройств / А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков, А. В. Агейкин // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2017. - № 3 (47). - С. 4-25.
9. Алимурадов, А. К. Способ определения кепстральных маркеров речевых сигналов при психогенных расстройствах / А. К. Алимурадов, А. Ю. Тычков, А. П. Зарецкий, А. П. Кулешов // Труды МФТИ. - 2017. - Т. 9, № 4. - С. 201-214.
10. Алимурадов, А. К. Оценка психоэмоционального состояния на основе анализа речевых сигналов: современное состояние, проблемы и перспективы / А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков, А. В. Агейкин // Перспективные информационные технологии (ПИТ-2018) : тр. Междунар. науч.-техн. конф. / под ред. С. А. Прохорова. - Самара : Изд-во Самарского науч. центра РАН, 2018. - С. 677-681.
11. Huang, N. E. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis / N. E. Huang, Sh. Zheng, R. L. Steven // Proc. R. Soc. Lond. -1998. - A 454. - P. 903-995.
12. Colominasa, M. A. Improved complete ensemble EMD: a suitable tool for biomedical signal processing / M. A. Colominasa, G. Schlotthauera, M. E. Torres // Biomed. Signal Proces. - 2014. -Vol. 14. - P. 19-29.
13. Huang, X. Spoken Language Processing / X. Huang, A. Acero, H.-W. Hon // Guide to Algorithms and System Development. - Prentice Hall, Upper Saddle River, 2001.
14. Свидетельство о государственной регистрации программы для ЭВМ № 2018612742. Программа определения кепстральных характеристик речевых сигналов / А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков // Программы для ЭВМ, базы данных, топологии интегральных микросхем ; заявл. 11.01.2018 ; опубл. 26.02.2018.
Алимурадов Алан Казанферович, кандидат технических наук, директор студенческого научно-производственного бизнес-инкубатора Пензенского государственного университета. E-mail: alansapfir@yandex.ru
Тычков Александр Юрьевич, кандидат технических наук, заместитель директора научно-исследовательского института фундаментальных и прикладных исследований Пензенского государственного университета.
E-mail: tychkov-a@mail.ru
Чураков Петр Павлович, доктор технических наук, профессор, кафедра «Информационно-измерительная техника и метрология», Пензенский государственный университет. E-mail: churakov-pp@mail.ru
УДК 004.934.2 Алимурадов, А. К.
Оценка психоэмоционального состояния человека на основе декомпозиции на эмпирические моды и кепстрального анализа речевых сигналов / А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков // Вестник Пензенского государственного университета. - 2018. - № 2 (22). - С. 89-95.