Программный комплекс для формирования ситуационно обусловленных паттернов физических сигналов
Брдрина Наталья 1/Ъановна
кандидат технических наук
доцент, кафедра автоматизации технологических процессов, Тверской государственный технический
университет
170026, Россия, г. Тверь, проспект Ленина, 25, оф. 327 ЕЗ [email protected] Сццоров Константин Владимирович
кандидат технических наук
доцент, кафедра автоматизации технологических процессов, Тверской государственный технический
университет
170026, Россия, г. Тверь, проспект Ленина, 25, оф. 327 И [email protected] Филатова Наталья Николаевна
доктор технических наук
профессор, кафедра автоматизации технологических процессов, Тверской государственный
технический университет
170026, Россия, г. Тверь, проспект Ленина, 25, оф. 243 И [email protected]
Шемаев Павел Дмитриевич
старшей преподаватель, кафедра автоматизации технологических процессов, Тверской государственный
технический университет
170026, Россия, г. Тверь, проспект Ленина, 25, оф. 327 И [email protected]
Статья из рубрики "Базы данных"
Аннотация.
Предметом исследования является задача создания инструментальных средств для формирования информационных ресурсов с образцами записей физических сигналов, зарегистрированных у человека, переживающего эмоциональную реакцию, вызванную определенным информационным стимулом. Приведены результаты анализа наиболее известных национальных баз данных с примерами эмоциональных реакций в паттернах английской и французской речи, на фотоизображениях лиц, в образцах кардиограмм, кожно-гальванических реакций, частоты сердечных сокращений и др. физических сигналов. Рассмотрена структура нового аппаратно-программного комплекса для формирования и сопровождения открытого информационного ресурса, интегрирующего примеры записей русской речи с записями других физических сигналов, зарегистрированных у человека при эмоциональных реакциях разного знака. Проведены натурные эксперименты с аппаратно-программным комплексом. Для формирования векторных моделей паттернов физических сигналов использованы методы спектрального
анализа и нелинейной динамики. База данных разработана с применением методов системного анализа. К новым результатам относятся структура программного и информационного обеспечения; особенности методического обеспечения, позволяющие регистрировать объективно подтвержденные изменения в эмоциональном состоянии человека, особенности технического обеспечения поддерживающего регистрацию биомедицинских сигналов по пяти каналам: видео, аудио, электроэнцефалограмма, электрокардиограмма, электромиограмма, а также структура и особенности открытой онлайн версии мультимодальной базы эмоций. Создание и периодическая актуализация содержания базы паттернов ситуационных откликов делает доступным для всех заинтересованных пользователей полную информацию по каждому эксперименту, включая записи речевых и физических сигналов, а также данные о методике экспериментов и протоколов наблюдений.
Ключевые слова: база данных, программный комплекс, эмоциональная реакция, русская речь, электроэнцефалограмма, стимулированная эмоция, база эмоциональных реакций, аттрактор, база ситуационных откликов, инструментарий для наполнения
DOI:
10.25136/2306-4196.2018.6.28151
Дата направления в редакцию:
29-11-2018
Дата рецензирования:
29-11-2018
Исследование выполнено при финансовой поддержке РФФИ в рамках научных проектов № 17-01-00742, № 18-37-00225.
Введение. На современном этапе развития средств регистрации и воспроизведения звука мы можем себе позволить рассматривать весь информационный поток, который формирует говорящий в процессе коммуникации. Любой образец устной речи содержит информацию не только о тексте высказывания, но и некоторую дополнительную компоненту, связанную с личной оценкой говорящего темы беседы. Эта личная оценка проявляется в эмоциональных оттенках речи и может быть выражена достаточно сильно или, наоборот, тщательно замаскирована. Привычка к этому дополнительному информационному фону с одной стороны расширяет коммуникационные возможности, а с другой порождает ряд технических задач, связанных с созданием моделей и алгоритмов дешифровки латентной информации, инспирированной эмоциональными реакциями собеседника.
Системы, способные генерировать эмоционально окрашенную речь, или распознающие эмоциональное состояние человека, необходимы в виртуальном обучении, при исследовании нарушений функций мозга, в процедурах идентификации контента, в интерактивных развлечениях, а также могут быть полезны людям, имеющим какие-либо речевые отклонения. Учитывая, что на данный момент механизм формирования
эмоциональных реакций человеком описан только на качественном уровне, более того, так и не решен окончательно вопрос о классификаторе эмоций, для разработки программ-интерпретаторов эмоций применяют экспериментально-статистический подход, а также нейросетевые классификаторы [1, 2' 3' 4' 5' 6' 7' 8].
Успешная разработка модулей распознавания эмоций по различным физическим сигналам, регистрируемым у человека переживающего эмоцию, возможна при наличии большого количества примеров таких сигналов. Этнические исследования показывают, что выражение эмоций формируется и изменяется с течением истории лингвистики. Очевидно, в качестве источников эмоциональных реакций должны использоваться носители соответствующего языка.
В современных базах эмоциональных реакций —обычно содержатся отдельные примеры ярко выраженных признаков, по которым можно классифицировать объекты -источники эмоциональных реакций. Менее представительны выборки, иллюстрирующие слабые эмоциональные реакции. Необходим инструмент, который позволит аккумулировать результаты экспериментов по исследованию эмоциональных реакций и непрерывно расширять число доступных примеров.
Современные базы примеров эмоциональных реакций. Ранние исследования эмоциональных реакций часто основаны на записях речи профессиональных актеров,
которые имитируют различные эмоции [1' 2' 3' 4' 6' 9]. На основе идентичных текстов выполняется анализ акустических признаков. Такие эмоции обычно успешно распознаются сторонними слушателями. Тем не менее, не известно насколько правильно актер способен представить все характеристики речи, проявляющиеся у обычных людей в момент, когда они испытывают подобные эмоции. Имитируемые эмоции воспроизводятся по заданию и не нуждаются в стимуле.
Ряд современных исследователей (таблица 1) вместо имитации эмоций используют образцы естественных эмоций, которые вызываются специально подготовленными эмоциогенными стимулами. Стимулы или их описания включаются в состав информационного обеспечения баз данных с паттернами эмоций. Имеются публикации, внимание которых сосредоточено на классификации, оценке и разметке стимулов [5' 10].
Таблица 1. Базы примеров стимулированных эмоциональных реакций
Название, год, язык Испытуемые Стимулы Виды хранимых данных
DEAP data i101, 2005, англ. не актеры 1-минутные видео со звуком (более 120) - ЭЭГ; - физиол. замеры; - видео лица; - оценки испытуемых
Film Stim -151, 2010, англ., фр. не а кте ры 1-7-минутные видео со звуком (более 70) - опрос
Cognitive Human Computer Interaction Lab I11!, не а кте ры записи классической музыки - ЭЭГ
2011, англ.
MAHNOB-HCI не а кте ры видео со звуком - ЭЭГ;
(более 30),
2012, англ. изображения - физиол. замеры;
(более 20) - в иде о лица и те л а ;
- речь;
- положение зрачка;
- оценки испытуемых
Яесо1а Databаse [81, не а кте ры взаимодействие с - ЭЭГ;
человеком-
2013, фр. помощником - ЭКГ;
- речь;
- видео лица;
- оценки испытуемых
Особую ценность приобретают записи эмоций дополненные объективными подтверждениями фактов изменения физического состояния человека, эмоции которого регистрируются. При таком подходе к речевым образцам добавляются другие биомедицинские сигналы (кардиограммы, показатели кожно-гальванических реакций и частоты сердечных сокращений, миограммы, электроэцефалограммы и т.д.), регистрируемые на временном интервале, когда испытуемый демонстрирует
эмоциональную реакцию [7, 8 101. В экспериментах с естественными эмоциональными реакциями инструктор убеждает испытуемых не сдерживать выражение эмоций, однако в реальных социальных взаимодействиях выражение личных чувств часто подавляется в связи с определенными этическими ограничениями. По этой причине некоторые исследователи используют в качестве источников эмоциогенных стимулов других людей. В эксперименте испытуемый совместно с помощником должен решить определенную задачу. В этом случае в качестве стимула выступает собственно процесс коммуникации [7, 81.
Программно-аппаратный комплекс для формирования образцов ситуационных откликов. Для решения задач, связанных с созданием специализированной базы данных, объединяющей образцы русской речи и синхронно зарегистрированных физических сигналов, подтверждающих изменение эмоционального состояния говорившего, использованы отдельные компоненты биотехнической системы «EEG-
Speech» На рисунке 1 показан состав и схема взаимодействия компонентов
инструментария для формирования базы ситуационных откликов в виде паттернов биомедицинских сигналов на основе биотехнической системы «EEG-Speech». На данном этапе реализовано пять каналов регистрации эмоциональных реакций: видео, звук, ЭЭГ, миограмма и информационный (отчет испытуемого).
Рисунок 1. Состав инструментария для формирования базы ситуационных откликов в
виде паттернов биомедицинских сигналов
Персональный компьютер служит для предъявления визуальных или акустических стимулов и содержит базу стимулов, а также всё программное обеспечение, необходимое для их воспроизведения. Обонятельные стимулы подаются испытуемому с
помощью специального устройства ———78]. Управление процессом предъявления обонятельных стимулов выполняет основная рабочая станция (А). Каждый сеанс эксперимента проходит по специально подготовленному сценарию. На рабочую станцию (А) поступают биомедицинские сигналы, которые сохраняются в соответствующие базы данных. Полученные сигналы обрабатываются и очищаются от помех и артефактов.
Программное обеспечение включает в себя три группы модулей (рисунок 1) [13' с 79]: регистрации, обработки и сохранения биомедицинских сигналов; формирования моделей биомедицинских сигналов; мониторинга эмоций. Модули реализованы в среде МА^АВ и на языке С#. Программное обеспечение установлено на основной рабочей станции (А), но может быть использовано автономно на любом персональном компьютере, так что обработка результатов экспериментов может проходить удаленно и в распределенном режиме. Коллекция паттернов речевых образцов и физических сигналов дополняется векторными моделями, включающими оценки признаков, определенных для соответствующего образца. Для формирования этих моделей используются методы
спектрального анализа и нелинейной динамики Отличительной особенностью
рассматриваемого программного комплекса является реализация методов оценки знака и уровня эмоциональной реакции путем анализа исходного сигнала (рисунок 2) и последующей реконструкции аттрактора (рисунок 3), который в дальнейшем и выступает в качестве объекта исследования.
а)
в)
Рисунок 2. Временные ряды исходных биомедицинских сигналов: а - ЭЭГ; б - ЭМГ; в -
речевой сигнал
Так, для распознавания знака эмоций ряд авторов ^^—151 используют показатель корреляционной размерности восстановленного аттрактора. Например, в работе [151 отмечается значительное увеличение корреляционной размерности в условиях эмоционального переживания по сравнению с нейтральным состоянием; исследовались образцы «горе» и «радость», т.е. негативные и позитивные реакции.
а)
в)
Рисунок 3. Двумерные проекции аттракторов, реконструированных из биомедицинских сигналов: а) - из ЭЭГ-сигнала; б) - из ЭМГ-сигнала; в) - из звукового сигнала
Признаки изменения знака эмоции для образцов русской речи. Исследование
аттракторов, реконструированных по образцам русской речи, а также ЭЭГ-сигналов, показало, что при переживании испытуемым положительных эмоций размер аттрактора увеличивается, а при отрицательных наоборот уменьшается. Этот процесс сопровождается изменением количество точек вблизи начала координат (в окрестностях
центра аттрактора). В работах —161 мы предложили качестве меры плотности аттрактора в центре использовать показатель:
р, = к / Sj , к = Ь + г,- / 2 , (1)
который представляет собой отношение количество точек аттрактора (к-), связанных с
одной из ячеек ортогональной сетки, покрывающей проекцию аттрактора, к площади этой ячейки Показатель - число точек, оказавшихся внутри ---ой ячейки.
Количество точек, оказавшихся на границе ---ой и - + 1-ой ячейки (г,), делится поровну
между ними. Экспериментально установлено, что наличие шумовой компоненты
практически не отражается на классифицирующей способности параметра р,
В общей сложности проанализировано 74 фрагмента речевого сигнала от 8 испытуемых (по 3 стимула для каждого знака эмоций). Отмечено, что практически у всех испытуемых, находящихся под влиянием негативного стимула, наблюдается рост показателя р-
относительно нейтрального состояния (от 2 до 55 %). При позитивном видео-стимуле данный параметр наоборот имеет тенденцию к снижению (от 5 до 38 %). Полученный результат подтверждает гипотезу о взаимосвязи знака эмоционального воздействия и плотности аттрактора.
Аналогичные эксперименты выполнены с образцами речевых записей из международной
базы данных Ето^В содержащей аудиозаписи эмоционально окрашенной речи на немецком языке от 10 различных дикторов. Для анализа были взяты сигналы с отрицательным стимулом (отвращение), положительным (счастье) и нейтральным. Результаты усредненных значений р, для нескольких испытуемых по одной и той же
фразе представлены на рисунке 4.
Плотность аттрактора в центре (р,) 8450
3550
Negative Positive Neutral
□ Русская речь □ Немецкая речь
Рисунок 4. Зависимость плотности аттрактора в центре (р,) от знака эмоций для образцов
русской и немецкой речи
В отличие от образцов русской речи, для немецкой речи характерно увеличение (в среднем на 20%) числа точек в центре аттрактора при стимуляции положительными стимулами относительно нейтрального состояния. При отрицательных стимулах также наблюдается повышение плотности р, (в среднем на 10 %).
Исследование динамики эмоций на основе анализа ЭЭГ-сигналов. В серии
экспериментов в качестве эмоциогенных стимулов использовались видеоролики со звуком продолжительностью 2-4 минуты. Испытуемыми были студенты и аспиранты ТвГТУ от 18 до 25 лет. Каждый видео-стимул предварительно маркировался испытуемым в соответствии со знаком эмоциональной реакции. В ходе серии экспериментов испытуемому последовательно предъявлялись несколько негативных стимулов (-Э), а потом несколько позитивных (+Э). Перед изменением знака стимула, испытуемому предъявлялись нейтральные кадры с изображением зеленого фона. Каждый эксперимент продолжался не менее 20 и не более 25 минут. Во время просмотра стимулов непрерывно регистрировалась ЭЭГ испытуемого, а также после каждого стимула записывалась его речь. Обработка результатов эксперимента выполнялась в 2 этапа.
На первом этапе созданы фрагменты записей биомедицинских сигналов, свободные от шумов (для речевых сигналов) и артефактов (для ЭЭГ-сигналов). В результате восприятия стимулов одного знака (-Э или +Э) получены последовательности фрагментов ЭЭГ, характеристики которых содержат информацию об изменении эмоциональных реакций испытуемого. На втором этапе обработки результатов экспериментов выполняется выявление и количественная оценка этих скрытых характеристик, путем расчета спектров мощности сигналов (ЭЭГ или РС), а также реконструкция по ним аттракторов (рисунок 3, а). Для характеристики аттракторов использованы оценки плотности траекторий аттрактора вблизи его центра Pj (1) и
количество пустых ячеек в сетке, покрывающей проекцию аттрактора к0. Размеры сетки
фиксированы: 196 ячеек, шаг - 50 отсчетов. Наблюдение за изменением признаков Pj и
к0 показали, что в большинстве экспериментов существует их взаимосвязь со знаком
эмоциональной реакции. Выявлено уменьшение к0 при восприятии испытуемым
позитивных эмоций и увеличение к0 при негативных эмоциях (рисунок 5).
Рисунок 5. Изменение количества пустых ячеек в сетке, покрывающей проекцию аттрактора (к0) при демонстрации стимулов разного знака
Мультимодальная база эмоций и общедоступная база примеров эмоциональных реакций. Результаты проведенных экспериментов положены в основу мультимодальной базы эмоций, содержащей примеры сигналов с ярко и слабо выраженным эмоциональным окрасом. На первом этапе в базе размещены речевые образцы и
связанные с ними ЭЭГ-паттерны [13' с- 83]. Модель «сущность-связь» расширенной базы эмоций (рисунок 6) дополнена описаниями стимулов и новых каналов.
Рисунок 6. ER-модель расширенной базы примеров эмоциональных реакций
Примеры эмоциональных реакций, помещаемые в базу, не маркируются названиями эмоций («гнев», «страх», «радость» и т.д.). Классификационными признаками являются знак эмоции (положительная, отрицательная или нейтральное состояние) и её уровень (сильная, слабая). Ведутся работы по определению направления развития эмоции (рост, затухание). В состав мультимодальной базы эмоций включены:
- 266 паттернов контрольной фразы длительностью 2-6 с., произнесенной различными дикторами не актерами в ответ на предъявление видео стимула;
- 2660 гласных фонем длительностью 0,025-0,25 с., сегментированных из контрольных фраз;
- 240 очищенных от артефактов паттернов ЭЭГ длительностью по 12 с.
С 2016 года идет работа по наполнению общедоступной базы примеров эмоциональных
реакций i18!. База разработана на языке PHP с СУБД MySQL, для удаленного доступа к этому ресурсу создан сайт (http://emotions.tstu.tver.ru) с использованием cms joomla. В настоящее время в открытом доступе размещены серии экспериментов:
I. Записи образцов речи на русском языке в формате .wav (17 испытуемых). Число паттернов для одного испытуемого - до 10 примеров. В качестве эмоциогенных стимулов использованы специально подготовленные видеоролики со звуком, вызывающие положительные, отрицательные и нейтральные эмоциональные реакции.
II. Записи образцов речи (в формате .wav) и сделанных параллельно записей ЭЭГ-сигналов (в формате .txt) для 9 испытуемых. Для отдельных испытуемых выполнено несколько сеансов записей. В качестве эмоциогенных стимулов также использованы видеоролики со звуком. Параллельная регистрация речевых сигналов и ЭЭГ позволила объективно зафиксировать изменения реакции испытуемого при восприятии стимулов разной модальности.
Заключение. Программный комплекс позволяет проводить эксперименты с регистрацией и систематизацией данных по условиям каждого эксперимента и его результатам. Создание и периодическая актуализация содержания базы паттернов ситуационных откликов делает доступным для всех заинтересованных пользователей полную информацию по каждому эксперименту, включая записи речевых и физических сигналов, а также данные о методике экспериментов и протоколов наблюдений.
Библиография
1. Burkhardt F., Paeschke A., Rolfes M., Sendlmeier W.F., Weiss B. A Database of German Emotional Speech // Proceedings of 9th European Conference on Speech Communication and Technology (Interspeech). - ISCA. Lisbon, Portugal, 2005. - P. 1517-1520.
2. Engberg I.S., Hansen A.V. Documentation of the Danish Emotional Speech Database (DES). Aalborg University. - Denmark, 1996.
3. Haq S., Jackson P.J.B., Edge J.D. Audio-Visual Feature Selection and Reduction for Emotion Classification // International Conference on Auditory-Visual Speech Processing (AVSP). - ISCA. Australia, 2008. - P. 185-190.
4. Ellbogen T., Steffen A., Schiel F. The BITS Speech Synthesis Corpus for German // Proc. of the IV International Conference on Language Resources and Evaluation. - ISCA. Lisbon, Portugal, 2004. - P. 2091-2094.
5. Shaefer A., Nils F., Sanchez X., Philippot P. Assessing the effectiveness of a large database of emotion-eliciting films: A new tool for emotion researches // Cognition and Emotion. - 2010. Vol. 24. - No. 7. - P.1153-1172.
6. RAVDESS Speech/Song Database, https://smartlaboratory.org/ravdess/.
7. Soleymani M., Lichtenauer J., Pun T., Pantic M. A multimodal database for affect recognition and implicit tagging // IEEE Transactions on Affective Computing. - 2012. -Vol. 3. - No. 1. - P. 42-55.
8. Ringeval F., Sonderegger A., Sauer J., Lalanne D. Introducing the RECOLA Multimodal Corpus of Remote Collaborative and Affective Interactions // Proceedings of 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition.-IEEE. Shanghai, 2013. - P. 1-8.
9. Wang Y., Guan L. Recognizing human emotional state from audiovisual signals // IEEE Transactions on Multimedia. - 2008. - Vol.
10. - No. 5. - P. 936-946. 10. Koelstra S., Muehl C., Soleymani M., Lee J.-S., Yazdani A., Ebrahimi T., Pun T., Nijholt A., Patras I. DEAP: A Database for Emotion Analysis using Physiological Signals // IEEE Transaction on Affective Computing. - 2013. - Vol. 3. -No. 1. - P. 18-31.
11. Liu Y., Sourina O., Nguyen M.K. Real-Time EEG-based Human Emotion Recognition and Visualization // Proc. 2010 Int. Conf. on Cyberworlds. - IEEE Computer Society. Singapore, 2010. - P. 262-269.
12. Сидоров К.В. Биотехническая система мониторинга эмоций человека по речевым сигналам и электроэнцефалограммам: дисс. ... канд. тех. наук. - Тверь, 2015. - 182
с.
13. Филатова Н.Н., Сидоров К.В. Компьютерные модели эмоций: построение и методы исследования: монография. - Тверь: РИЦ ТвГТУ, 2017. - 200 с.
14. Меклер А.А. Программный комплекс для анализа электроэнцефалограмм методами теории динамического хаоса: дис. ...канд. техн. наук: 05.13.18. - СПб, ИМЧ РАН, 2006. - 168 с.
15. Перервенко Ю.С. Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния: дис. .канд. техн. наук: 03.11.17. - Таганрог, ТТИ ЮФУ, 2009. - 171 с.
16. Филатова Н.Н., Сидоров К.В., Терехин С.А. Программный комплекс для интерпретации невербальной информации путем анализа образцов речи или электроэнцефалограммы // Программные продукты и системы. - 2015. - № 3 (111). -С. 24-29.
17. Шемаев П.Д., Филатова Н.Н. Исследование влияния шума в голосовом сигнале на распознавание характеристик знака эмоций // Сборник трудов конф. «БИ0МЕДСИСТЕМЫ-2015». - Рязань, 2015. - С. 90-93.
18. Архив примеров эмоциональных реакций, http://emotions.tstu.tver.ru.