Научная статья на тему 'Модель интерпретации знака эмоций по естественной речи'

Модель интерпретации знака эмоций по естественной речи Текст научной статьи по специальности «Математика»

CC BY
314
81
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭМОЦИЯ / ЭМОЦИОНАЛЬНОЕ СОСТОЯНИЕ / РЕЧЬ / РЕЧЕВОЙ СИГНАЛ / НЕЛИНЕЙНАЯ ДИНАМИКА / НЕЧЕТКОЕ МНОЖЕСТВО / THE EMOTION / THE EMOTIONAL STATE / SPEECH / THE SPEECH SIGNAL / NONLINEAR DYNAMICS / FUZZY SET

Аннотация научной статьи по математике, автор научной работы — Филатова Наталья Николаевна, Сидоров Константин Владимирович

Предложена модель интерпретации знака эмоционального состояния человека на основе анализа образцов его речи. Показана возможность применения характеристик нелинейной динамики для оценки информативных показателей эмоционального состояния человека. Предложен новый количественный признак Rmax усредненный максимальный вектор реконструкции аттрактора по четырем квадрантам. Показано, что нейтральное состояние характеризуется средними его оценками по сравнению с эмоцией гнева и счастья; закономерность сохраняется независимо от длительности образца. Предложена модель интерпретации знака эмоции по правилу объединения нечетких множеств, характеризующих значения Rmax для соответствующих эмоциональных состояний.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Филатова Наталья Николаевна, Сидоров Константин Владимирович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE MODEL FOR THE INTERPRETATION OF SIGN OF EMOTIONS ON NATURAL SPEECH

In this paper we propose a model interpretation of the character's emotional state based on the analysis of samples of his speech. The possibility of using the characteristics of nonlinear dynamics to assess the informative indicators of emotional state. A new quantitative characteristic Rmax the average maximum vector of the reconstruction of the attractor for the four quadrants. It is shown that the neutral state is characterized by its average ratings compared with the emotion of anger and happiness; pattern persists regardless of the length of the sample. A model interpretation of the sign of emotion by the rule of union of fuzzy sets that characterize the values Rmax for the corresponding emotional states.

Текст научной работы на тему «Модель интерпретации знака эмоций по естественной речи»

4. Журавлев Б.В., Шумилина А.И., Лосева Т.Н., Рычкова Г.Н. Поведенческие, вегетативные и электрофизиологические корреляты аппарата акцептора результат действия // Вестник АМН СССР. - 1985. - Т. 2. - С. 46-53.

5. Журавлев Б.В., Муртазина Е.П., Ломакина Т.Е. Патент на изобретение №2006103141/14 (003428), «Способ комплексной психофизиологической оценки индивидуальнотипологических особенностей целенаправленной деятельности личности». Утвержден патент от 03.02.2006 г.

6. Karanasiou .I, Papageorgiou C., Tsianaka E. et al. Mismatch task conditions and error related ERPs// Behavioral and Brain Functions 2010, 6:14.

7. Baker TE, Holroyd CB. Dissociated roles of the anterior cingulate cortex in reward and conflict processing as revealed by the feedback error-related negativity and N200 // Biol Psychol.

- 2011. - Apr; 87(1). - C. 25-34.

Статью рекомендовал к опубликованию д.м.н., профессор О.С. Глазачев.

Муртазина Елена Павловна - Федеральное государственное бюджетное учреждение «НИИ нормальной физиологии им. П.К. Анохина» РАМН; e-mail: murtazina@yandex.ru; 125315, г. Москва, ул. Балтийская, 8, к. 228; тел.: 84992310048; лаборатория общей физиологии функциональных систем; к.м.н.; доцент.

Журавлев Борис Васильевич - e-mail: zhuravlev-bv@yandex.ru; 125315, г. Москва, ул. Балтийская, 8, к. 224; тел.: 84992310048; лаборатория общей физиологии функциональных систем, д.м.н.; профессор.

Murtazina Helen Pavlovna - P.K. Anochin Institute of Normal Physiologe Russian Academy of Medical Science; e-mail: murtazina@yandex.ru; r. 228, 8, Baltiisky street, Moscou, 125315, Russia; phone: +74992310048; laboratory of common physiologe of functional systems, assistant professor; cand. of med. sc.; associate professor.

Zhuravlev Boris Vasilevich - e-mail: zhuravlev-bv@yandex.ru; r. 224, 8, Baltiisky street, Moscou, 125315, Russia; phone: 84992310048; laboratory of common physiologe of functional systems; doctor. med. sc.; professor.

УДК 004.934.2

Н.Н. Филатова, К.В. Сидоров

МОДЕЛЬ ИНТЕРПРЕТАЦИИ ЗНАКА ЭМОЦИЙ ПО ЕСТЕСТВЕННОЙ

РЕЧИ

Предложена модель интерпретации знака эмоционального состояния человека на основе анализа образцов его речи. Показана возможность применения характеристик нелинейной динамики для оценки информативных показателей эмоционального состояния человека. Предложен новый количественный признак Rmax — усредненный максимальный вектор реконструкции аттрактора по четырем квадрантам. Показано, что нейтральное состояние характеризуется средними его оценками по сравнению с эмоцией гнева и счастья; закономерность сохраняется независимо от длительности образца. Предложена модель интерпретации знака эмоции по правилу объединения нечетких множеств, характеризующих значения Rmax для соответствующих эмоциональных состояний.

Эмоция; эмоциональное состояние; речь; речевой сигнал; нелинейная динамика; нечеткое множество.

N.N. Filatova, C.V. Sidorov

THE MODEL FOR THE INTERPRETATION OF SIGN OF EMOTIONS ON NATURAL SPEECH

In this paper we propose a model interpretation of the character's emotional state based on the analysis of samples of his speech. The possibility of using the characteristics of nonlinear dynamics to assess the informative indicators of emotional state. A new quantitative characteristic Rmax - the average maximum vector of the reconstruction of the attractor for the four quadrants. It is shown that the neutral state is characterized by its average ratings compared with the emotion of anger and happiness; pattern persists regardless of the length of the sample. A model interpretation of the sign of emotion by the rule of union of fuzzy sets that characterize the values Rmax for the corresponding emotional states.

The emotion; the emotional state; speech; the speech signal; nonlinear dynamics; fuzzy set.

Процесс интерпретации (распознавания) знака эмоций человека по естественной речи является весьма сложной задачей как в плане математической формализации задачи, так и в способах четкой конкретизации эмоционального состояния (ЭС) - однозначного детектирования эмоции по речевому сигналу (РС).

В настоящее время отсутствует универсальная теоретическая модель описания речевых образцов в условиях проявления разных видов эмоций. Модель должна отражать взаимосвязь вида эмоций и объективных характеристик РС. Различные исследования в области акустики, психолингвистики и психофизиологии позволили собрать нам сведения о множестве акустических, просодических и лингвистических характеристик речи, которые можно использовать в качестве информативных признаков при распознавании ЭС, и проявляющихся на уровне речевых сегментов, фонем (отдельных звуков), слогов, целых слов и предложений. Чаще всего используются следующие признаки РС: спектрально-временные, амплитудно-частотные, вейвлет, кепстральные и характеристики нелинейной динамики [1].

В настоящее время в Тверском государственном техническом университете активно ведутся разработки по созданию модели интерпретации знака эмоций по естественной речи с использованием методов нелинейной динамики, позволяющих получить качественную и количественную оценку эмоций. Речевой тракт и процесс речеобразования представляют собой нелинейную диссипативную систему, что позволяет применять методы нелинейной динамики для анализа РС [2].

Методы нелинейной динамики базируются на фундаментальной математической теории, в основе которой лежит теорема Ф. Такенса [3], которая доказывает возможность восстановления (реконструкции) фазового портрета аттрактора по временному ряду или по одной его координате. Для реконструкции аттрактора исследуемый временной ряд xn,..., xn_j подвергается методу задержки координат (рис. 1), т.е. в фазовом пространстве строится последовательность реконструированных векторов, получаемых из элементов временного ряда [4]:

Уп = (xn , Xn+TXnHm^rl n = s _1, s = N _ (m _ l)T, (1)

где N - общее число элементов (точек) временного ряда; т - задержка по времени между элементами временного ряда (временной лаг); m - размерность вложения (размерность лагового пространства).

При построении аттрактора необходимо правильно осуществлять выбор оптимальных значений параметров реконструкции аттрактора - m и т (1). Величина размерности вложения m может быть определена с помощью корреляционного интеграла, а выбор задержки по времени т может быть выполнен на основе анализа автокорреляционной функции [5].

Время, отс Значения временного ряда Хя^ОШС

а б

Рис. 1. Временной ряд (а) (N = 6); аттрактор (б) (т = 1 и m = 2 )

Для проведения исследований использовались записи, взятые из берлинской БД эмоциональной речи EmoDB (Berlin Database of Emotional Speech) [6]. БД состоит из 535 фраз (предложений), произнесенных 10 дикторами (5 мужчин, 5 женщин). Каждый диктор произносил 10 фраз с имитацией одного из 7 эмоциональных состояний: гнев, скука, отвращение, беспокойство/страх, печаль, счастье и нейтральное состояние. Для некоторых эмоций в БД существует несколько вариантов их озвучивания одним и тем же диктором. Авторское исследование данной БД показало, что эмоции распознаются слушателями правильно в 80 % случаев, кроме того, в 60 % случаев признаются естественными. Всего для проведения исследований нами была построена экспериментальная выборка параметрических описаний РС, включающая обучающие выборки ОВ1 (60 предложений) и ОВ2 (150 гласных фонем, полученных из ОВ1). Проведен нелинейный анализ обучающих выборок объектов (предложений) ОВ1 и объектов (фонем) ОВ2 на основе реконструкции аттрактора (рис. 2).

Анализ геометрии полученных визуальных изображений показал (рис. 2), что в большинстве случаев наблюдается взаимосвязь геометрии аттрактора с видом эмоции. Визуально установлено, что эмоция гнева по сравнению с эмоцией счастья имеет большую траекторию разброса реконструкции аттрактора. Следует особо отметить тот факт, что закономерность разброса траектории реконструкции аттрактора одинакова как на уровне предложений речи (ОВ1), так и на уровне отдельных фонем РС (ОВ2).

Разработана подсистема количественной оценки аттракторов РС. Предложен новый признак, определяемый по результатам реконструкции, который существенно снижает размерность описаний речевых образцов и позволяет осуществлять количественно сравнение аттракторов, отображающих различные эмоции - усредненный максимальный вектор реконструкции аттрактора по 4 квадрантам Rmax (рис. 3).

Вначале находится первый вектор реконструкции аттрактора в I квадранте

I I 2 2

R1 = у xi + xi+т , где xi - значение временного ряда в i -й момент времени, т -

временная задержка. Далее вычисляются оставшиеся n -векторов в I квадранте, в результате получается множество значений векторов реконструкции

Я1 = [Я/,Я!2,...,яЩ}. Из множества Я1 выбирается максимальный вектор Я^к . Аналогично находятся максимальные вектора реконструкции аттрактора в других квадрантах Я^к , Я^х и Я^к . Далее рассчитывается усредненный максимальный вектор реконструкции аттрактора по 4 квадрантам Ятах , который является новым количественным признаком для распознавания і -го речевого образца:

ЯтахО') = 0,25^4= Яі^і), І = 1,.., М (2)

где ] - номер квадранта; і - номер речевого образца (предложение или фонема); М = 60 для ОВ1; М = 150 для ОВ2.

Рис. 2. Примеры реконструкций аттракторов выборок ОВ1 (слева) и ОВ2 (справа): а, б - гнев; в, г - нейтральное состояние; д, е - счастье

Рис. 3. Усредненный максимальный вектор реконструкции аттрактора Ошах

Проведена количественная оценка реконструкций аттракторов на выборках речевых образцов разной длительности с помощью Яшах (табл. 1).

Таблица 1

Усредненный максимальный вектор реконструкции аттрактора Ошах

Эмоция Выборка объектов Признак, отс

п I шах п II шах яш шах „IV шах О шах

Гнев ОВ1 37772 38185 43289 37125 39080

ОВ2 23562 23440 18988 26407 23099

Нейтральное состояние ОВ1 31671 33045 34846 40882 35111

ОВ2 15590 11801 18777 14434 15151

Счастье ОВ1 28257 34587 29716 39138 32925

ОВ2 11098 10208 11800 11762 11217

На рис. 4 показаны средние оценки признака Лтах для выборок ОВ1 и ОВ2. Анализ результатов показывает, что нейтральное состояние характеризуется средними оценками признака Л’тах по сравнению с эмоцией гнева и счастья. Эта закономерность сохраняется как на уровне предложений (ОВ1), так и на уровне отдельных фонем (ОВ2).

Гнев Нейтральное состояние Счастье □ ОВ1 (предложения) ЫОВ2 (фонемы)

Рис. 4. Средние оценки признака Л’тах для выборок ОВ1 и ОВ2

Учитывая, что количественные оценки речевых образцов могут изменяться у разных дикторов, для интерпретации знака эмоции целесообразно перейти к лингвистическим переменным и использовать аппарат нечетких множеств. Для построения новой модели введем лингвистическую переменную - «Знак эмоции»:

P( И) = (< Эмоция(ЗНАК) >,{т;}, M (T)), (3)

где {Т} - терм-множество с вербальными оценками знака эмоции для г -го речевого объекта; М (Т) - нечеткие подмножества универсального множества оценок [25000,45000] для ОВ1 и [5000,25000] для ОВ2.

Для перехода от значений базовой шкалы (2) к лингвистической шкале (3) построены функции принадлежностей (рис. 5). Тогда для каждого речевого объекта оценка знака эмоции будет определяться по правилу объединения нечетких множеств:

T (Rmax ) max{ T (Rmax ), (Rmax ), (Rmax ) }

(4)

Рис. 5. График функций принадлежности к термам переменной «Знак эмоции» для

объектов ОВ2

Например, образец фонемы (в) (рис. 2,е) с R^ie) = 12357 принадлежит нечеткому множеству «положительная эмоция» ( T1) с функцией принадлежности jUT = 0,7 и нечеткому множеству «нейтральное состояние» ( Т2) с функцией принадлежности /и1 = 0,3 (рис. 5). Тогда в соответствии с (3 и 4) интепретация знака эмоции примет вид

P(E) = (< Эмоция(ПОЛОЖИТЕЛЬНАЯ) > = 0,7)

Таким образом, объединение методов нелинейной динамики и аппарата нечетких множеств позволяет по новому подойти к решению задачи анализа и интерпретации ЭС человека по РС.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Сидоров К.В., Филатова Н.Н. Анализ признаков эмоционально окрашенной речи // Вестник Тверского государственного технического университета. - Тверь, 2012. - Вып. 20. - С. 26-31.

2. Старченко И.Б., Перервенко Ю.С., Борисова О.С., Момот Т.В. Методы нелинейной динамики для биомедицинских приложений // Известия ЮФУ. Технические науки. 2010. - № 9 (110). - С. 42-51.

3. Takens F. Detecting strange attractors in turbulence // Dynamical Systems and Turbulence.

- Heidelberg: Springer-Verlag, 1981. - Р. 366-381.

4. Горшков В.А., Касаткин С.А. Идентификация временных рядов авиационных событий методами и алгоритмами нелинейной динамики. - М.: Бланк Дизайн, 2008. - 208 с.

5. Малинецкий Г.Г., Потапов А.Б. Современные проблемы нелинейной динамики. - М.: Эдиториал УРСС, 2000. - 336 с.

6. Burkhardt F., Paeschke A., Rolfes M., Sendlmeier W., Weiss B. A Database of German Emotional Speech // Proc. Intern. Conf. Interspeech. - Lissabon, 2005. - URL: http://pascal.kgw.tu-berlin.de/emodb/index-1280.html.

Статью рекомендовал к опубликованию к.т.н. Ф.Ф. Филиппов.

Филатова Наталья Николаевна - Тверской государственный технический университет; e-mail: nfilatova99@mail.ru; 170026, г. Тверь, наб. Аф. Никитина, 22, тел.: 84822444488; кафедра автоматизации технологических процессов; д.т.н.; профессор.

Сидоров Константин Владимирович - e-mail: bmisidorov@rambler.ru; тел.: 89607038330;

кафедра автоматизации технологических процессов; аспирант.

Filatova Natalia Nicolaevna - Tver State Technical University; e-mail: nfilatova99@mail.ru; 22, Afanasy nikitin street, Tver, 170026, Russia; phone: +74822444488; the department of automation technological processes; dr. of eng. sc.; professor.

Sidorov Constantine Vladimirovich - e-mail: bmisidorov@rambler.ru; phone: +79607038330; the department of automation technological processes; postgraduate student.

УДК 004.93'1

Д.М. Ханеев, Н.Н. Филатова ПИРАМИДАЛЬНАЯ СЕТЬ ДЛЯ КЛАССИФИКАЦИИ ОБЪЕКТОВ, ПРЕДСТАВЛЕННЫХ НЕЧЕТКИМИ ПРИЗНАКАМИ

Приводится результат исследования пирамидальной сети применительно к задаче классификации объектов, представленных нечеткими признаками в области биомедицинских систем. Рассмотрена методика построения пирамидальной сети и способ выделения из ее структуры нечетких описаний классов объектов, представленных в обучающей выборке. Полученные с помощью сети описания классов могут быть использованы для последующей классификации объектов рабочей выборки. Рассмотрено применение пирамидальной сети в задаче автоматической классификации образцов дыхательных шумов, заданных спектральными признаками.

Классификация; распознавание; дыхательные шумы; нечеткая логика; теория графов.

D.M. Khaneyev, N.N. Filatova THE PYRAMIDAL NETWORK FOR CLASSIFICATION OF OBJECTS, PRESENTED BY FUZZY FEATURES

This paper presents the research results of the pyramidal network applied to the problem of classification of objects presented fuzzy features in the field of biomedical systems. The technique of building pyramidal network and an extraction method from this structure the fuzzy descriptions of object classes presented in training set is considered. Classes ’ descriptions which obtained through the network may be used for the working sample objects classifying. The application of a pyramidal network in problem of automatic classification of respiratory noise samples, presented by spectra, is considered.

Classification; pattern recognition; respiratory noises; fuzzy logic; graph theory.

Автоматическая классификация объектов в области биомедицинских систем является сложной задачей в силу множества зависимостей от различных факторов, поэтому ориентироваться на точные значения признаков объектов нельзя. Следовательно, для классификации сложных нестационарных объектов необходимо использовать аппарат нечетких множеств. Такой подход предполагает составление нечетких описаний классов, на основании которых можно судить о степени принадлежности объектов рабочей выборки к тому или иному классу. В качестве структуры, генерирующей нечеткие описания классов, предлагается нейроподоб-ная сеть аналогичная растущей пирамидальной сети (РПС) [1, 2]. Из достоинств пирамидальных сетей следует отметить, что структуру обученной сети, в отличие от большинства искусственных нейронных сетей, можно легко интерпретировать в

i Надоели баннеры? Вы всегда можете отключить рекламу.