ИСПОЛЬЗОВАНИЕ СТАТИСТИЧЕСКИХ МЕТОДОВ ДЛЯ ОПРЕДЕЛЕНИЯ ЭМОЦИОНАЛЬНОЙ ОКРАСКИ ОКРУЖАЮЩЕЙ СРЕДЫ

Наривная А.В.; Дзансолов Г.О.

А.В. Наривная, магистрант Г.О. Дзансолов, магистрант

Московский государственный технический университет имени Н.Э. Баумана (Россия, г. Москва)

DOI:10.24412/2500-1000-2022-5-2-42-46

Аннотация. Статья посвящена исследованию применения статистических методов для оценки эмоциональной окраски окружающей среды. Описан алгоритм, по которому производит анализ окружения разрабатываемая система автоматического распознавания и интерпретации эмоций человека. Приведены результаты использования различных статистических методов для обработки данных о среде, сопоставления эмоциональной окраски окружающих предметов и речи людей, находящихся в данном окружении. Выбраны методы, подходящие для обработки промежуточных данных разрабатываемой системы.

Ключевые слова: статистические методы, малая выборка, элементарные математические статистики, интерпретация эмоций, эмоциональная окраска окружающей среды.

Нами разрабатывается система автоматического определения и интерпретации эмоций человека [1]. Проектируемая система получает на вход видеозапись, распознает эмоцию человека по мимике его лица, определяет объекты, которые находятся в непосредственной близости с человеком и фиксирует содержание речи, которую произносит человек, чью эмоцию анализируют, и окружающие его люди. После распознавания перечисленных характеристик, необходимо эти данные проанализировать.

Одним из шагов анализа данных является определение эмоционального фона контекста в целом: какие эмоции вероятнее всего вызовет ситуация, в которой находится человек. Определение эмоциональной окраски окружения производится с помощью вычисления семантической близости слов, отражающих шесть основных эмоций по классификации Р. Вудвортса [2], и слов, описывающих окружение. Семантически близкие слова, как правило, вызывают одинаковые ассоциации и, следовательно, чем ближе по смыслу анализируемые слова, тем сильнее они связаны ассоциативно, тем вероятнее рассматриваемая ситуация вызовет данную эмоцию [3].

Однако, вычисление семантической близости производится по отдельности для каждой пары слов «эмоция - окружение», что, в результате, производит массив чисел. Данный массив нуждается в отдельной обработке, в которой используются статистические методы.

Обработка массива полученных векторный расстояний имеет крайне специфической свойство, а именно маленькую размерность. Работа с выборками малой размерности предполагает использование измененных статистических метрик [4]. Обычно автоматически удается распознать крайне небольшое количество предметов, что говорит нам о необходимости особенного подхода к обработке информации о распознанных предметах. Соответственно, необходимо было определить, какой статистический метод является наиболее подходящим для работы с малым набором данных для того, чтобы разработать алгоритм вычисления эмоциональной окраски окружающей среды.

Предварительный выбор статистических методов

При анализе данных об окружающей среде система работает по следующему алгоритму:

1. Система получает на вход текстовый файл формата JSON, в котором содержатся

слова, описывающие предметы, которые держания данного файла показан на ри-находятся рядом с человеком (пример со- сунке 1).

-["env": ["cake", "dog", "cat", "sun", "balloon", "banana"]}

Рис. 1. Пример содержания файла JSON, содержащего список объектов окружающей среды

2. Далее система рассчитывает вектор- радость, грусть). На данном этапе мы по-ные расстояния между всеми словами лучаем шесть наборов дробных чисел -окружения и шестью основными эмоция- векторных расстояний между окружением ми (страх, удивление, отвращение, гнев, и эмоциями (рис. 2).

fear joy anger disgust sadness surprise

cake 0.18 0.32 0.12 0.14 0.17 0.45

dog 0.33 0.28 0.26 0.19 0.19 0.31

cat 0.28 0.26 0.2 0.19 0.21 0.29

sun 0.32 0.36 0.25 0.11 0.28 0.24

balloon 0.15 0.2 0.09 0.03 0.1 0.24

banana 0.15 0.22 0.08 0.13 0.09 0.27

Рис. 2. Промежуточный результат работы системы: векторные расстояния между словами

окружения и основными эмоциями

На данном этапе мы получаем данные, которые нам необходимо обработать статистическим методом. А именно, необходимо было определить: в какой степени окружение вызывает каждую эмоции в целом. Как мы видим, данные представляют собой независимые измерения. Соответственно, между ними нет связи. Также, при каждом запуске системы рассматривается только одна ситуация. Значит, измерения не поменяются со временем, что говорит об отсутствии динамики в расчетах [5].

Из всего ранее сказанного можно сделать вывод, что для анализа данных, полученных на рассматриваемом шаге работы модуля, целесообразно использование элементарных математических статистик.

Результатом работы подсистемы анализа эмоциональной окраски окружения должен стать список степеней соответствия окружения каждой из шести основных эмоций.

3. Третьим шагом в работе системы является анализ тональности текста. Результат выполнения данного шага будет бинарным: текст положительно окрашен или отрицательно.

4. Четвертым шагом является оценка эмоционального окраса контекста. Так как результатом второго шага является массив

из шести дробных чисел, а результатом третьего - одно целое число (1 - если текст эмоционально положителен, 0 - если текст эмоционально отрицателен), необходим статистический метод для связи результатов второго и третьего шагов. Так как в данных отсутствует зависимость и динамика, то метод выбирался из элементарных математических статистик.

Результаты применения различных статистических метрик для обработки данных об окружающей ситуации

В ходе исследования для обработки двумерного массива векторных расстояний между словами, отражающими эмоции, и словами, отражающими объекты окружающей среды, было обнаружено следующее:

- Показатель моды для некоторых эмоций невозможен для вычисления, так как векторные расстояния между словами крайне редко полностью совпадают, несмотря на округление значений. Соответственно, данный показатель неинформативен.

- Значения дисперсии и среднеквадратичного отклонения для всех эмоций достаточно малы (не превышают 0,1), что говорит о том, что значения векторных расстояний практически не отклоняются от среднего значения. Это говорит нам о

том, что четко определить конкретную эмоцию, которую гипотетически вызывает окружение, крайне трудно. Соответственно, можно только рассчитать, в какой степени окружение относится к той или иной эмоции.

- Для всех исследуемых эмоций, среднее значение и медиана совпадает. Мы можем говорить о том, что распределение данных является симметричным.

- Размах выборки не превышает 0,2. Это значит, что мы можем не убирать из анализа максимум и минимум при подсчете среднего, так как серьезных отклонений крайние значения не внесут. Это позволяет сохранить и без того небольшое количество значений для анализа.

Пример результатов вычислений для одной эмоции представлен на рисунке 3.

Полусумма крайних значений: 0.24 Среднеквадратическое отклонение: 0.Э772

Рис. 3. Результаты вычисления статистических метрик для эмоции

После проведения вычислений по формулам для большой и малой выборок был сделан вывод о том, что дисперсия и среднеквадратичное отклонение действительно смещены и отличаются от значений, рассчитанных для большой выборки. Однако,

различия между значениями порядка 0,01 для дисперсии и 0,1 для среднеквадратичного отклонения (рис. 4). Это значит, что смещение значений крайне мало и незначительно.

Среднеквадратическое отклонение большой выборки: 0.0772 Среднеквадратическое отклонение малой выборки: 0.0926

Рис. 4. Результат расчета статистических метрик по формулам для большой

и малой выборок

Для определения степени вызываемых эмоций окружающими предметами была выбрана метрика «среднее выборочное значение». Данная метрика информативна, так как расчеты показали, что значения

мало отклоняются от среднего значения. Гистограмма с результатами расчета средних выборочных значений для заявленного на рисунке 1 окружения представлена на рисунке 5.

Bud

Рис. 5. Гистограмма вызываемых эмоций окружающей средой

Данная гистограмма позволяет сделать вывод, что окружение вероятнее всего вызовет удивление и радость, и с наименьшей вероятностью вызовет отвращение и гнев. Данный вывод является адекватным для переданного в систему окружения, что говорит о правильности выбранной статистической метрики.

Для учета тональности речи было решено прибавлять к среднему выборочному значению эмоций вес, равный ее среднестатистическому отклонению от среднего

значения. Если речь положительно окрашена, то к значениям для эмоций «радость» и «удивление» прибавляется среднестатистическое отклонение показателей для «радости» и «удивления» соответственно. Если речь окрашена отрицательно, то среднестатистическое отклонение показателей прибавляется к эмоциям «злость», «грусть», «отвращение» и «страх». На рисунке 6 представлены результаты добавление веса положительной речи к эмоциональной окраске среды.

0,40 1

: 0.20 - I

0.15 - I

0.10 I

0.05 ■ I 0.00

fear

и

joy

anger

disgust sadness surprise

Рис. 6. Гистограмма вызываемых эмоций окружающей средой с положительной речью при весе равном среднеквадратичному отклонению

Заключение. В данной статье был описан алгоритм работы системы автоматического распознавания и интерпретации эмоций при оценке эмоциональной окраски окружающей среды анализируемой ситуации. Приведены результаты исследования использования различных статистиче-

ских метрик в алгоритме обработки данных об среде. Определены статистические методы для сопоставления результатов определения тональности речи, которая является частью окружения, и эмоциональной составляющей объектов окружающей обстановки.

Библиографический список

1. Наривная А.В. Подход к решению задачи автоматического оценивания влияния окружающей среды на эмоциональное состояние человека / А.В. Наривная, Г.О. Дзансолов // Молодежный научно-технический вестник. - 2022. - С. 1-5.

2. Овсянникова В.В. К вопросу о классификации эмоций: категориальный и многомерный подходы // Финансовая аналитика: проблемы и решения. - 2013. - №37. - С. 43-48.

3. Прокопчик О.Д. О рациональной и эмоциональной оценке // Вестник Ленинградского государственного университета им. А.С. Пушкина. - 2010. - №3.

4. Статистика: учебник для прикладного бакалавриата / М.В. Боченина [и др.]; под ред. И.И. Елисеевой. - 2-е изд., перераб. и доп. - М.: Изд-во Юрайт, 2014. - 447 с. - Серия: Бакалавр. Прикладной курс.

5. Статистический анализ данных и способы представления результатов исследования: Учебно-методическое пособие к курсам «Экспериментальная психология» и «Психодиагностика» / Е.Г. Заверткина, Н.Г. Рукавишникова. - Ярославль: Изд-во ЯГПУ, 2000. - 47 с.

HYBRID APPROACH TO SELECTING EVENTS OF DOMAIN AREA

A.V. Narivnaya, Graduate Student G.O. Dzansolov, Graduate Student Bauman Moscow State Technical University (Russia, Moscow)

Abstract. The article is devoted to the study of the use of statistical methods to assess the emotional coloring of the environment. The algorithm by which the developed system of automatic recognition and interpretation of human emotions analyzes the environment is described. The results of using various statistical methods for processing data about the environment, comparing the emotional coloring of surrounding objects and the speech of people in this environment are presented. The methods suitable for processing intermediate data of the developed system are selected.

Keywords: statistical methods, small sample, elementary statistics math, interpretation of emotions, emotional coloring of the environment.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Наривная А. В., Дзансолов Г. О.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Наривная А. В., Дзансолов Г. О.

HYBRID APPROACH TO SELECTING EVENTS OF DOMAIN AREA

Текст научной работы на тему «ИСПОЛЬЗОВАНИЕ СТАТИСТИЧЕСКИХ МЕТОДОВ ДЛЯ ОПРЕДЕЛЕНИЯ ЭМОЦИОНАЛЬНОЙ ОКРАСКИ ОКРУЖАЮЩЕЙ СРЕДЫ»