Научная статья на тему 'Комбинирование подходов кластеризации и классификации для задачи распознавания эмоций по речи'

Комбинирование подходов кластеризации и классификации для задачи распознавания эмоций по речи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
575
112
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ ЭМОЦИЙ / КЛАСТЕРИЗАЦИЯ / КЛАССИФИКАЦИЯ / ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ / МЕТОД ОПОРНЫХ ВЕКТОРОВ / EMOTION RECOGNITION / CLUSTERING / CLASSIFICATION / ARTIFICIAL NEURAL NETWORKS / SUPPORT VECTOR MACHINES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Полякова А. С., Сидоров М. Ю., Семенкин Е. С.

Общение это важная способность человека, которая основана на лингвистике и эмоциональной составляющей. В области техники распознавание эмоций компьютером до сих пор остается сложной проблемой, особенно когда распознавание основывается исключительно на голосе, который является основным средством общения. Выбор множества параметров для автоматической классификации и распознавания является необходимым этапом в математической постановке задачи. Эффективность распознавания эмоций зависит от типа базы данных, используемой в системе. Распознавание эмоций говорящего это непростая задача, требующая выполнения последовательных операций, таких как идентификация голосовой активности, выделение признаков, обучение и классификация. Идентификация эмоций по речи (по акустическим характеристикам) является одной из самых популярных и обсуждаемых задач в области компьютерной лингвистики. В этой области основным критерием обработки данных является точность. В данной работе для решения задачи автоматического распознавания эмоций предлагается использовать различные методы интеллектуального анализа данных, такие как искусственные нейронные сети, метод опорных векторов, логистическая регрессия и др. В качестве метода предобработки данных предлагается использовать предварительную кластеризацию с последующим применением алгоритмов классификации. Для выделения значимых признаков используется метод главных компонент. Тестирование предлагаемого подхода, объединяющего в себе кластеризацию и классификацию, проведено на задаче распознавания эмоций по акустическим характеристикам.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Полякова А. С., Сидоров М. Ю., Семенкин Е. С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMBINING CLUSTERING AND CLASSIFICATION APPROACHES FOR SPEECH-BASED EMOTION RECOGNITION PROBLEM

Communication is an important ability of a human, which is based on linguistics and the emotional component. In the field of technology, the emotion recognition is still a challenge, especially when the recognition is based solely on the voice, which is the primary means of human communication. Selecting of relevant features for automatic classification and recognition is an important step. Recognition efficiency of speaker’s emotions depends on the database used in the system. Recognition of speaker’s emotions is a difficult task, since it requires a set of consecutive operations, such as voice activity identification, feature extraction, training and classification. Speech-based emotion recognition is one of the most popular and common task in the field of the computer linguistics. In this area, the main criterion is the accuracy of the classification procedures. In current work, a variety of data mining techniques, such as artificial neural networks, logistic regression, support vector machines, are proposed to solve the problem of automatic emotion recognition. To improve the performance of emotion recognition we used pre-clustering and classification approaches. The method of principal component analysis is used for selecting important features. Testing of the proposed approach was carried out with the task of emotion recognition based on acoustic characteristics.

Текст научной работы на тему «Комбинирование подходов кластеризации и классификации для задачи распознавания эмоций по речи»

УДК 004.93

Вестник СибГАУ Том 17, № 2. С. 335-342

КОМБИНИРОВАНИЕ ПОДХОДОВ КЛАСТЕРИЗАЦИИ И КЛАССИФИКАЦИИ ДЛЯ ЗАДАЧИ РАСПОЗНАВАНИЯ ЭМОЦИЙ ПО РЕЧИ

А. С. Полякова1 , М. Ю. Сидоров2, Е. С. Семенкин1

1Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

2Ульмский университет Германия, 89081, г. Ульм, аллея Альберта Эйнштейна, 43 E-mail: [email protected]

Общение - это важная способность человека, которая основана на лингвистике и эмоциональной составляющей. В области техники распознавание эмоций компьютером до сих пор остается сложной проблемой, особенно когда распознавание основывается исключительно на голосе, который является основным средством общения. Выбор множества параметров для автоматической классификации и распознавания является необходимым этапом в математической постановке задачи. Эффективность распознавания эмоций зависит от типа базы данных, используемой в системе. Распознавание эмоций говорящего - это непростая задача, требующая выполнения последовательных операций, таких как идентификация голосовой активности, выделение признаков, обучение и классификация. Идентификация эмоций по речи (по акустическим характеристикам) является одной из самых популярных и обсуждаемых задач в области компьютерной лингвистики. В этой области основным критерием обработки данных является точность. В данной работе для решения задачи автоматического распознавания эмоций предлагается использовать различные методы интеллектуального анализа данных, такие как искусственные нейронные сети, метод опорных векторов, логистическая регрессия и др. В качестве метода предобработки данных предлагается использовать предварительную кластеризацию с последующим применением алгоритмов классификации. Для выделения значимых признаков используется метод главных компонент. Тестирование предлагаемого подхода, объединяющего в себе кластеризацию и классификацию, проведено на задаче распознавания эмоций по акустическим характеристикам.

Ключевые слова: распознавание эмоций, кластеризация, классификация, искусственные нейронные сети, метод опорных векторов.

Sibirskii Gosudarstvennyi Aerokosmicheskii Universitet imeni Akademika M. F. Reshetneva. Vestnik Vol. 17, No. 2, P. 335-342

COMBINING CLUSTERING AND CLASSIFICATION APPROACHES FOR SPEECH-BASED EMOTION RECOGNITION PROBLEM

A. S. Polyakova1*, M. Yu. Sidorov2, E. S. Semenkin1

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation

2Ulm University 43, Albert Einstein Alee, Ulm, 89081, Germany E-mail: [email protected]

Communication is an important ability of a human, which is based on linguistics and the emotional component. In the field of technology, the emotion recognition is still a challenge, especially when the recognition is based solely on the voice, which is the primary means of human communication. Selecting of relevant features for automatic classification and recognition is an important step. Recognition efficiency of speaker's emotions depends on the database used in the system. Recognition of speaker's emotions is a difficult task, since it requires a set of consecutive operations, such as voice activity identification, feature extraction, training and classification. Speech-based emotion recognition is one of the most popular and common task in the field of the computer linguistics. In this area, the main criterion is the accuracy of the classification procedures. In current work, a variety of data mining techniques, such as artificial neural networks, logistic regression, support vector machines, are proposed to solve the problem of automatic emotion recognition. To improve the performance of emotion recognition we used pre-clustering and classification approaches. The method of principal component analysis is used for selecting important features. Testing of the proposed approach was carried out with the task of emotion recognition based on acoustic characteristics.

Keywords: emotion recognition, clustering, classification, artificial neural networks, support vector machines.

Введение. Речевая аналитика - новое направление в области речевых технологий, ориентированное на автоматический анализ разговора с целью выявления степени удовлетворенности беседой. Эволюция компьютеров, с одной стороны, и требования рынка -с другой, неуклонно стимулируют развитие систем распознавания эмоций, а также иных систем голосового анализа, определяющих уровень стресса, депрессии, усталости и т. п.

На современном этапе развития информационных технологий разработка методов автоматического определения эмоционального состояния человека по голосу является актуальной задачей, позволяющей решить ряд экономических, социальных и бытовых проблем и, кроме того, играющей важную роль в вопросах безопасности [1].

Самыми значимыми сферами деятельности с повышенной ответственностью являются космические системы (космонавты, сотрудники ЦУП), авиация (летчики, диспетчеры аэропорта), обслуживание АЭС (персонал диспетчерской и оперативных служб) и др.

К примеру, работа летчика и космонавта связана с воздействием на организм целого ряда экстремальных факторов окружающей среды и условий полета и вызывает, как правило, значительное нервно-эмоциональное напряжение. Огромный интерес представляет изучение эмоциональных реакций у космонавтов во время их профессиональной деятельности, связанной с новизной обстановки, элементами риска и неопределенности, со спецификой жизни и работы в тесном замкнутом помещении, с отсутствием ряда привычных и необходимых условий комфорта, с социальной изоляцией и отрывом от Земли.

Чем сложнее полет или его отдельные элементы, тем выше уровень эмоциональных реакций. При выполнении особенно сложных полетов, связанных с новизной обстановки или повышенной опасностью, эмоциональное напряжение может являться причиной снижения работоспособности и качества выполнения полетного задания.

Однако, несмотря на множество исследований и коммерческих предложений в данной области, проблема автоматического распознавания эмоционального состояния по речи на данный момент не является полностью решенной. Процесс интерпретации (распо-

знавания) эмоций человека по естественной речи является весьма сложной задачей как в области математической формализации, так и в плане поиска способов четкой конкретизации эмоционального состояния, т. е. однозначного детектирования эмоции по речевому сигналу.

В общем случае системы автоматического распознавания эмоций состоят из двух компонентов (рис. 1): первый осуществляет акустическую обработку входного речевого сигнала, выделяя из него набор признаков, а второй содержит классификатор, который на основе выделенных признаков распознает эмоциональное состояние человека. Исследователями разработано множество программных систем для анализа голосовых сигналов, позволяющих извлекать акустические характеристики (ОрепБМ1ЬБ, Ргаа1 и др.) [2; 3]. В общем случае распознавание эмоций может производиться на основе множества входных данных, например, видеосигналы, физиологические характеристики (пульс, электроэнцефалограмма и др.), жесты, мимика и др. Однако в данной работе рассматривается распознавание эмоций, основанное только на акустических характеристиках.

В настоящее время отсутствует универсальная математическая модель для описания речевых образцов в условиях проявления разных видов эмоций.

Задача распознавания эмоций - это задача классификации, которая решается, в частности, с помощью методов интеллектуального анализа данных при постановке эксперимента в виде обучения с учителем.

Наиболее популярными алгоритмами классификации являются следующие [4]: метод ближайших соседей, метод опорных векторов, скрытые марковские модели, модель смеси нормальных распределений, модели на основе нечеткой логики и байесовские классификаторы.

Однако невозможно знать заранее, какая из моделей окажется наиболее эффективной в конкретном случае. В работе [5] для повышения надежности процедуры распознавания были разработаны технологии принятия решений коллективом классификаторов. Коллективы классификаторов были сформированы с помощью трех алгоритмических схем, которые позволяют учитывать предсказания различных моделей для принятия окончательного решения.

Виды»

11 юлг^гчше При ЛН!К1>1)

ДттыеОЙ

Л1К>Н(ЛЯТ

г км! / Г £ Г-

Аудио —► *

Изображении

Рис. 1. Этапы задачи распознавания эмоций

Разрабатываемый подход. Среди методов интеллектуального анализа данных особое место занимают классификация и кластеризация. Когда необходимо классифицировать большие объемы информации на пригодные для дальнейшей обработки группы, кластерный анализ может оказаться полезным и эффективным.

Чтобы воспользоваться всеми преимуществами обоих подходов рядом исследователей было разработано множество способов комбинирования классификаторов и алгоритмов кластеризации [6-9].

В работе [10] в качестве дополнительного шага к классификации текстов используется кластеризация, которая применяется не только на обучающей выборке, но и на тестовых данных. Кластеризация используется как метод сжатия или извлечения признаков или смысл, заложенный в текстовых документах. Такой подход позволяет изучать структуру всего набора данных. Использование этих знаний повышает эффективность работы классификатора.

В работе [11] показано, что комбинирование простых классификаторов с ансамблем кластеров может быть эффективнее, чем работа отдельного метода интеллектуального анализа данных. Данный подход применялся к задаче определения положительных и отрицательных эмоций, мнений и другого отношения к ситуации по твиттер-сообщениям [12].

В данной работе предлагается применить подход предварительной кластеризации объектов выборки к задаче распознавания эмоций (рис. 2). В процессе решения задачи идентификации эмоций предварительная кластеризация подразумевает разбиение аудиозаписей на группы (кластеры), в каждой из которых задачу классификации решает отдельный алгоритм.

Традиционные методы кластерного анализа работают с объектами, параметры которых заданы исключительно в четком виде, что затрудняет их практическое использование при работе с объектами нечеткой природы. В настоящее время для кластеризации подобных объектов активно развиваются методы, основанные на нечеткой логике. Данные методы формируют кластеры, границы которых размыты, а объект может одновременно относиться к нескольким из них с различными степенями принадлежности.

В данной работе для кластеризации применяются 2 алгоритма: алгоритм ^-средних (k-means) и алгоритм нечеткой кластеризации (fuzzy c-means). Для задачи

классификации применяется несколько методов интеллектуального анализа данных: искусственные нейронные сети (ANN), метод опорных векторов (SMO), линейная регрессия (LR), а также алгоритм &-ближай-ших соседей (k-NN).

Использование всего набора численных признаков в процессе распознавания может существенно замедлить работу алгоритма и снизить точность получаемого решения. Поэтому важным для снижения размерности в процессе решения задачи идентификации эмоций является извлечение наиболее информативных признаков, используемых алгоритмами распознавания. Для того, чтобы выбрать наиболее подходящие характеристики, могут быть использованы статистические методы, такие как факторный анализ, а также более сложные, к примеру, основанные на генетических алгоритмах (GA).

В работах [13; 14] рассматривается процедура извлечения информативных признаков, основанная на адаптивном многокритериальном генетическом алгоритме, исследуется ее эффективность в сочетании с различными классификационными моделями.

В данной работе для отбора информативных признаков используется метод главных компонент (PCA).

Решение задачи распознавания эмоций по акустическим характеристикам. Для исследования работоспособности и качества предложенной схемы была использована база данных Emo-DB [15], содержащая более 500 эмоциональных записей говорящего. База данных включает в себя звуковые файлы с эмоциональными высказываниями 10 актеров на немецком языке. Каждое высказывание имеет свою эмоциональную метку: счастье, нейтральность, гнев, печаль, страх, скука, отвращение.

Каждый звуковой файл описывается 384 числовыми признаками, представляющими собой статистическое описание таких параметров звуковой волны, как кепстральные коэффициенты, форманты, интенсивности и др. В базе Emo-DB имена классов дискретны и изменяются от 0 до 6. Тестирование проводилось как с исходным количеством классов (7), так и с тремя классами. Три класса были сформированы путем разбиения эмоций на положительные, отрицательные и нейтральные (1-й класс - счастье; 2-й класс - нейтральность, скука; 3-й класс - гнев, печаль, отвращение, тревожность).

Рис. 2. Схема разработанного подхода к задаче классификации

Для анализа эффективности применения предварительной кластеризации была проведена оценка точности классификации на полном наборе признаков. Критерием качества работы классификатора является среднее значение точности, полученное на множестве прогонов (50), представленных на рис. 3-6 (статистически значимое различие эффективности алгоритмов, определяется на основе /-критерия Стьюдента, обозначение на рисунке «*»). В алгоритмах кластеризации параметр к меняется от 2 до 5.

По результатам, представленным на рис. 3, алгоритмы ANN, SMO, SL и k-NN (к = 7) дали значимое ухудшение среднего значения точности при применении предварительной кластеризации. Алгоритмы к-NN (к = 2, к = 4) показали меньшую эффективность, но статистически незначимую.

По результатам, представленным на рис. 4, только алгоритм к-NN при к = 2 показал улучшение по среднему значению точности, но улучшение статистиче-

ANN* SMO* SL*

□ с кластеризацией

ски незначимо. Алгоритм к-NN при к =4 показал ухудшение с применением предварительной кластеризации, но ухудшение статистически незначимо. Оставшиеся классификаторы не показали улучшений при применении предварительной кластеризации.

При сравнении двух методов кластеризации для исходного набора данных, содержащего семь классов, со всеми средними значениями точности, алгоритмы ANN, SMO, SL показывают значительно лучший результат, чем алгоритм к-NN.

По результатам, представленным на рис. 5, применение предварительной кластеризации для алгоритмов SMO и к-NN (к = 4) позволяет добиться лучшего результата по среднему значению точности, но различия не являются статистически значимыми. Для алгоритмов ANN, SL, к-NN (к = 2, к = 7) по среднему значению точности результат ухудшился, но различия являются статистически значимыми только для алгоритма SL.

К-NN (К=2) К-NN (К=4) К-NN (К=7)* □ без кластеризации

Рис. 3. Наилучшее среднее значение точности для каждого алгоритма классификации при к от 2 до 5, полученное с помощью алгоритма кластеризации к-шеаш (7 классов)

77,76% 80,62%

77,88%

80,00%

75,15%

78,38%

51,37%

50,75%

58,07% 58,76%

59,32% 62,11%

ANN*

SMO* SL* K-NN (k=2) K-NN (k=4) K-NN (k=7)*

□ с кластеризацией ■ без кластеризации

Рис. 4. Наилучшее среднее значение точности для каждого алгоритма классификации при к от 2 до 5, полученное с помощью алгоритма кластеризации fuzzy c-means (7 классов)

Рис. 5. Наилучшее среднее значение точности для каждого алгоритма классификации при к от 2 до 5, полученное с помощью алгоритма кластеризации к-шеаш (3 класса)

По результатам, представленным на рис. 6, применение предварительной кластеризации для алгоритмов ANN, SMO, k-NN (k = 2, k = 4, k = 7) показывает улучшение по среднему значению точности, но статистически значимым это является только для алгоритма SMO. В случае алгоритма SL показывается статистически значимое ухудшение при применении предварительной кластеризации.

При сравнении двух методов кластеризации для базы данных с тремя классами у всех алгоритмов, кроме SL, среднее значение точности выше при использовании алгоритма кластеризации fuzzy c-means.

При сравнении со всеми средними значениями точности алгоритмы ANN, SMO, SL для двух алгоритмов кластеризации показывают более высокий результат, чем алгоритм k-NN.

Разбиение выборки на три класса показало улучшение средних значений точности как для алгоритма кластеризации fuzzy c-means, так и для алгоритма k-means.

В сравнении со всеми вычислениями наилучшее статистически значимое улучшение точности показало использование алгоритма кластеризации fuzzy c-means (2 кластера) с последующей классификацией на 3 класса с помощью SMO.

Применение предварительной нормализации (Z-преобразование, при котором среднее значение - 0, а дисперсия - 1) данных показало улучшение эффективности работы алгоритма классификации k-NN для всех предыдущих комбинаций параметров и алгоритмов. Это обусловлено тем, что атрибуты в базе данных имеют разные шкалы, которые численно друг от друга могут отличаться на порядки. Точность алгоритма классификации k-NN сильно зависит от шкал переменных, так как критерием эффективности этого алгоритма является расстояние по выбранной метрике, к примеру, евклидовой.

Применим отбор информативных признаков с помощью метода PCA (principal component analysis) к двум исходным выборкам (7 и 3 класса), варьируя параметр кластеризации k от 2 до 5 (статистически значимое различие эффективности алгоритмов с отбором информативных признаков и без него, опреде-

ляется на основе /-критерия Стьюдента, обозначение в таблице «*»). Результаты исследований представлены в табл. 1-4.

По данным, представленным в табл. 1, улучшение в результате применения отбора информативных признаков показал только алгоритм k-NN, но при этом все улучшения являются статистически незначимыми при любом значении k. В этом случае эффективность алгоритма k-NN для всех k ниже, чем для алгоритмов ANN, SL и SMO. Варьирование параметра k в алгоритме кластеризации не влияет на результаты алгоритма k-NN без применения предварительной кластеризации.

По данным табл. 2 улучшение в результате применения отбора информативных признаков показал также только алгоритм k-NN, и при этом все улучшения являются статистически незначимыми. Эффективность алгоритма k-NN для всех k ниже, чем для алгоритмов ANN, SL и SMO.

В результате вычислений можно определить, что для исходной задачи распознавания эмоций (7 классов) применение отбора информативных признаков не дает статистически значимого улучшения ни при каких комбинациях алгоритмов кластеризации и классификации.

По результатам табл. 3 отбор информативных признаков показал статистически значимое улучшение для алгоритма классификации k-NN (k = 2) без применения предварительной кластеризации.

По результатам табл. 4 статистически значимое улучшение в результате отбора информативных признаков показал только алгоритм k-NN (k = 2), причем улучшение является статистически значимым без применения предварительной кластеризации.

В результате вычислений можно определить, что для задачи распознавания эмоций (3 класса) применение отбора информативных признаков дает статистически значимое улучшение как при алгоритме кластеризации k-means, так и для fuzzy c-means, но только при алгоритме классификации k-NN (k = 2). Но эффективность алгоритма k-NN ниже, чем для алгоритмов ANN, SL и SMO.

ANN

SMO* SL* K-NN (K=2) K-NN(K=4) K-NN (K=7)

□ wit h_clu storing □ without_clustering

Рис. 6. Наилучшее среднее значение точности для каждого алгоритма классификации при k от 2 до 5, полученное с помощью алгоритма кластеризации fuzzy c-means (3 класса)

Таблица 1

Среднее значение точности (в процентах), полученное с помощью алгоритма кластеризации fuzzy c-means с отбором информативных признаков (7 классов)

with cluster without cluster with cluster without cluster with cluster without cluster with cluster without cluster with cluster without cluster with cluster without cluster

k Alg. SMO SL k-NN(2) k-NN(4) k-NN(7) ANN

2 PCA 77,88* 80,0* 75,15* 78,38* 51,37 50,75 58,07 58,76 58,70 62,11 77,76* 80,62*

+ PCA 65,53* 71,80* 68,76* 72,92* 51,37 51,61 57,45 58,76 58,63 62,48 66,21* 72,55*

3 PCA 74,90* 80,00* 73,04* 78,38* 48,76 50,75 57,76 58,76 59,32 62,11 74,78* 80,62*

+ PCA 64,91* 71,80* 67,2* 72,92* 49,63 51,61 57,58 58,76 58, 62,48 66,27* 72,55*

4 PCA 74,72* 80,00* 67,95* 78,38* 50,75 50,75 56,83 58,76 57,14 62,11 74,09* 80,62*

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

+ PCA 61,68* 71,80* 64,53* 72,92* 51,37 51,61 56,52 58,76 56,96 62,48 61,37* 72,55*

5 PCA 71,98* 80,00* 67,20* 78,38* 47,83 50,75 55,28 58,76 57,2 62,11 72,98* 80,62*

+ PCA 57,27* 71,80* 60,99* 72,92* 47,20 51,61 54,53 58,76 57,14 62,48 58,07* 72,55*

Таблица 2 Среднее значение точности (в процентах), полученное с помощью алгоритма кластеризации Л-шеаш с отбором информативных признаков (7 классов)

with cluster without cluster with cluster without cluster with cluster without cluster with cluster without cluster with cluster without cluster with cluster without cluster

k Alg. SMO SL k-NN (2) k-NN (4) k-NN (7) ANN

2 PCA 78,32* 80,00* 74,16 78,38* 49,63 50,75 57,58 58,76 59,75 62,11 79,37* 80,62*

+ PCA 67,64* 71,80* 71,99 72,92* 50,12 51,61 57,27 58,76 59,69 62,48 68,26* 72,55*

3 PCA 75,34* 80,00* 71,80 78,38* 48,70 50,75 58,20 58,76 60,50 62,11 76,77* 80,62*

+ PCA 64,15* 71,80* 68,5 72,92* 49,42 51,61 59,36 58,76 59,72 62,48 65,66* 72,55*

4 PCA 77,20* 80,00* 70,55* 78,38* 50,56 50,75 56,71 58,76 56,58 62,11 78,07* 80,62*

+ PCA 60,99* 71,80* 63,48* 72,92* 51,06 51,61 56,58 58,76 56,52 62,48 61,30* 72,55*

5 PCA 72,23* 80,00* 66,70* 78,38* 48,39 50,75 55,53 58,76 56,21 62,11 73,47* 80,62*

+ PCA 59,01* 71,80* 63,91* 72,92* 49,19 51,61 55,16 58,76 56,46 62,48 59,44* 72,55*

Таблица 3 Среднее значение точности (в процентах), полученное с помощью алгоритма кластеризации fuzzy c-means с отбором информативных признаков (3 класса)

with cluster without cluster with cluster without cluster with cluster without cluster with cluster without cluster with cluster without cluster with cluster without cluster

k Alg. SMO SL k-NN (2) k-NN (4) k-NN (7) ANN

2 PCA 86,37* 85,06* 82,65 86,00 66,81 67,06* 73,75 74,00 78,06 78,75 87,43* 87,06*

+ PCA 79,63* 82,63* 81,25 83,88 67,81 68,50* 73,56 74,50 78,06 79,44 80,75* 81,94*

3 PCA 85,25* 85,06* 82,56* 86,00 64,63 67,06* 73,13 74,00 77,50 78,75 85,81* 87,06*

+ PCA 78,31* 82,63* 78,94* 83,88 65,19 68,50* 72,94 74,50 77,88 79,44 77,94* 81,94*

4 PCA 86,81* 85,06* 82,62 86,00 66,88 67,06* 74,88 74,00 79,13 78,75 85,81* 87,06*

+ PCA 79,31* 82,63* 81,56 83,88 67,31 68,50* 74,75 74,50 79,56 79,44 79,44* 81,94*

5 PCA 82,25* 85,06* 80,81* 86,00 61,63 67,06* 72,06 74,00 76,44 78,75 83,06* 87,06*

+ PCA 76,00* 82,63* 76,81* 83,88 62,44 68,50* 71,69 74,50 76,13 79,44 76,88* 81,94*

Таблица 4

Среднее значение точности (в процентах), полученное с помощью алгоритма кластеризации Л-шеаш с отбором информативных признаков (3 класса)

with cluster without cluster with cluster without cluster with cluster without cluster with cluster without cluster with cluster without cluster with cluster without cluster

k Alg. SMO SL k-NN (2) k-NN (4) k-NN (7) ANN

2 PCA 84,37* 85,06* 83,87 86 66,25 67,06* 72,75 74,00 77,88 78,75 86,12* 87,06*

+ PCA 80,69* 82,63* 82,81 83,88 66,75 68,50* 73,56 74,50 77,88 79,44 81,50* 81,94*

3 PCA 85,12* 85,06* 83,43* 86 64,94 67,06* 73,38 74,00 78,19 78,75 85,18* 87,06*

+ PCA 77,5* 82,63* 80,38* 83,88 65,94 68,50* 74,38 74,50 79,06 79,44 78,38* 81,94*

4 PCA 86,31* 85,06* 82,37 86 65,19 67,06* 74,25 74,00 78,19 78,75 85,25* 87,06*

+ PCA 78,25* 82,63* 81,19 83,88 66,13 68,50* 73,88 74,50 78,63 79,44 79,06* 81,94*

5 PCA 82,81* 85,06* 80,62* 86 65* 67,06* 74,13 74,00 78,13 78,75 83,37* 87,06*

+ PCA 76* 82,63* 76,81* 83,88 62,4*4 68,50* 71,69 74,50 76,13 79,44 76,88* 81,94*

Заключение. Применение предварительной кластеризации данных для проведения их классификации было проведено с помощью алгоритмов fuzzy c-means и k-means. Было показано, что использование метода кластеризации fuzzy c-means дает лучшие значения средней точности, чем при применении метода k-means, во всех случаях.

Статистически значимое улучшение применения предварительной кластеризации было получено только в одном случае: fuzzy c-means для 3 классов для алгоритма классификации SMO.

Статистически значимое улучшение от применения отбора информативных признаков как при алгоритме кластеризации k-means, так и для fuzzy c-means получено только при алгоритме классификации k-NN (k = 2) для трех классов.

Комбинирование подходов кластеризации и классификации при решении задачи распознавания эмоций по акустическим характеристикам позволяет строить гибкие и эффективные модели.

Для каждого метода необходимо ставить множество экспериментов по выбору разнообразных параметров, например, меры расстояния, типа стандартизации переменных, количества кластеров и т. д. Именно от вариации комбинаций этих параметров зависит качество решения задачи.

Таким образом, результаты оказались противоречивыми, что не позволяет однозначно выбрать наилучшую комбинацию самих алгоритмов кластеризации и классификации, а также их параметров. Это значит, что необходимо строить более мощные, а лучше адаптивные, методы, которые смогут автоматически настраиваться на решаемую задачу. Необходимо исследовать другие подходы.

Библиографические ссылки

1. Классификация эмоционально окрашенной речи с использованием метода опорных векторов / И. Э. Хейдоров [и др.] // Речевые технологии. 2008. Вып. 3. С. 63-71.

2. Eyben F., Wollmer M., Schuller B. Opensmile: the munich versatile and fast open source audio feature extractor // Proceedings of the international conference on Multimedia. 2010. P. 1459-1462.

3. Boersma P. Praat, a system for doing phonetics by computer // Glot international. 2002. 5 (9/10). P. 341345.

4. Pantic M., Rothkrantz L. J. M. Toward an Affect-Sensitive Multimodal Human-Computer Interaction // Proceedings of the IEEE, Spec. Issue on HumanComputer Multimodal Interface. 2003. Vol. 91, No. 9. P. 1370-1390.

5. Эффективная процедура аутентификации студента по речи в дистанционном образовании / К. Ю. Брестер [и др.] // Вестник СибГАУ. 2014. № 5(57). P. 51-57.

6. A differential evolution algorithm to optimise the combination of classifier and cluster ensembles / L. F. S. Coletta [et al.] // International Journal of Bio-Inspired Computation. 2014. Vol. 7, No. 2. P. 111-124.

7. Rahman A., Verma B. Cluster-based ensemble of classifiers // Expert Systems. 2013. Vol. 30. No. 3, P. 270-282.

8. Lefever E., Fayruzov T., Hoste V. A combined classification and clustering approach for web people disambiguation // Proceedings of the 4th International Workshop on Semantic Evaluations. 2007. P. 105-108.

9. Papas D., Tjortjis C. Combining Clustering and Classification for Software Quality Evaluation // Proceedings 8th Hellenic Conference on AI, SETN 2014. Ioannina, 2014. P. 273-286.

10. Kyriakopoulou A., Kalamboukis T. Combining Clustering with Classification for Spam Detection in Social Bookmarking Systems // Proceedings of The European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases Discovery Challenge, (ECML/PKDD RSDC '08). 2008. P. 47-54.

11. Ghosh J., Acharya A. Cluster ensembles // Wiley Interdisc. Rew.: Data Mining and Knowledge Discovery. 2011. Vol. 1, No. 4. P. 305-315.

12. Combining Classification and Clustering for Tweet Sentiment Analysis / L. F. S. Coletta [et al.] // Proceedings of the Brazilian Conference on Intelligent Systems (Bracis 2014). Sao Carlos, 2014. P. 210-215.

13. Self-adaptive multi-objective genetic algorithms for feature selection / C. Brester [et al.] // Proceedings of the International Conference on Engineering and Applied Sciences Optimization. Kos Island, 2014. P. 1838-1846.

14. Speech-Based Emotion Recognition: Feature Selection by Self-Adapted Multi-Criteria Genetic Algorithm / M. Sidorov [et al.] // Proceedings of the 9th edition of the Language Resources and Evaluation Conference (LREC). Reykjavik, 2014. P. 3481-3485.

15. A database of german emotional speech / F. Burkhardt [et al.] // Proceedings of the International Speech Communication Association. Baixas, 2005. P. 1517-1520.

References

1. Kheydorov I. E., Tszinbin' Ya., Shi U, Soroka A. M., Trus A. A. [Classification of speech - based emotion using support vector machines]. Rechevye tekhnologii, 2008, No. 3, P. 63-71 (In Russ).

2. Eyben F., Wollmer M., Schuller B. Opensmile: the munich versatile and fast open source audio feature extractor. Proceedings of the international conference on Multimedia, 2010, P. 1459-1462.

3. Boersma P. Praat, a system for doing phonetics by computer. Glot international, 2002, 5(9/10), P. 341-345.

4. Pantic M., Rothkrantz L. J. M. Toward an Affect-Sensitive Multimodal Human-Computer Interaction. Proceedings of the IEEE, Spec. Issue on HumanComputer Multimodal Interface, 2003, Vol. 91, No. 9, P. 1370-1390.

5. Brester K. Yu., Vishnevskaya S. R., Semenkina O. E., Sidorov M. Yu. [An effective procedure for authentication of student speech in distance education]. VestnikSibGAU. 2014, No. 5 (57), P. 51-57 (In Russ.).

6. Coletta L. F. S., Hruschka E., Acharya A., Ghosh J. A differential evolution algorithm to optimise the combination of classifier and cluster ensembles. International Journal of Bio-Inspired Computation, 2014, Vol. 7, No. 2, P. 111-124.

7. Rahman A., Verma B. Cluster-based ensemble of classifiers. Expert Systems, 2013, Vol. 30, No. 3, P. 270-282.

8. Lefever E., Fayruzov T., Hoste V. A combined classification and clustering approach for web people disambiguation. Proceedings of the 4th International Workshop on Semantic Evaluations, 2007, P. 105-108.

9. Papas D., Tjortjis C. Combining Clustering and Classification for Software Quality Evaluation. Proceedings 8th Hellenic Conference on AI, SETN 2014, Ioannina, Greece, 2014, P. 273-286.

10. Kyriakopoulou A., Kalamboukis T. Combining Clustering with Classification for Spam Detection in Social Bookmarking Systems. Proceedings of the European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases Discovery Challenge, (ECML/PKDD RSDC '08), 2008, P. 47-54.

11. Ghosh J., Acharya A., Cluster ensembles. Wiley Interdisc. Rew.: Data Mining and Knowledge Discovery, 2011, Vol. 1, No. 4, P. 305-315.

12. Coletta L. F. S., Silva N. F. F., Hruschka E. R., Hruschka J. R., Estevam R. Combining Classification and Clustering for Tweet Sentiment Analysis. Proceedings of the Brazilian Conference on Intelligent Systems (Bracis 2014), Sao Carlos, 2014. P. 210-215.

13. Brester C., Semenkin E., Sidorov M., Minker W. Self-adaptive multi-objective genetic algorithms for feature selection. Proceedings of the International Conference on Engineering and Applied Sciences Optimization, Kos Island, Greece, 2014, P. 1838-1846.

14. Sidorov M., Brester C., Minker W., Semenkin E. Speech-Based Emotion Recognition: Feature Selection by Self-Adapted Multi-Criteria Genetic Algorithm. Proceedings of the 9th edition of the Language Resources and Evaluation Conference (LREC), Reykjavik, Iceland, 2014, P. 3481-3485.

15. Burkhardt F., Paeschke A., Rolfes M., Sendl-meier W. F., Weiss B. A database of german emotional speech. Proceedings of the International Speech Communication Association, Baixas, France, 2005, P. 1517-1520.

© Полякова А. С., Сидоров M. Ю., Семенкин E. C., 2016

i Надоели баннеры? Вы всегда можете отключить рекламу.