УДК 004
Никифоров А.А.
Северо-Кавказский федеральный университет (г. Ставрополь, Россия)
РАЗРАБОТКА МОДУЛЯ РАСПОЗНАВАНИЯ ЭМОЦИЙ РАЗГОВОРА КОЛЛ-ЦЕНТРА С ИСПОЛЬЗОВАНИЕМ РЕКУРРЕНТНЫХ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ, ДЛЯ ВЫЯВЛЕНИЯ НЕЖЕЛАТЕЛЬНОГО КОНТЕНТА
Аннотация: задача данного исследования состоит в разработке сервиса, который будет давать оценку эмоционального состояния, говорящего при разговоре с оператором колл-центра, что поможет анализировать эффективность центра обработки звонков.
Ключевые слова: искусственный интеллект, машинное обучение, искусственные нейронные сети, эмоции, эмоциональное состояние, анализ аудиозаписи, классификация текста, классификация изображений.
Развитие технологий позволяет систематизировать и автоматизировать все больше процессов. Год за годом в компаниях растет количество информации, которую нужно получить и обработать, в связи с чем люди пытаются создать средства, что будут автоматически делать за них ту или иную работу. Такой подход к решению вопроса затрагивает как микропроцессы, так и целые системы.
В частности, можно выделить анализ работы колл-центров. Возможность оценки качества разговора представителя компании с клиентом позволит выявить нежелательные моменты, в которых, например, был потерян потребитель.
Анализ эмоций поможет понять, например, как клиент реагировал на предложения компании или же как оператор реагировал на критику.
Основной целью реализации сервиса является обработка аудиофайла для выявления нежелательного контента как со стороны клиента, так и со стороны сотрудника центра обработки звонков.
Список эмоций может быть крайне большим, начиная от легкой симпатии и заканчивая явным презрением. Однако, для облегчения решения задачи они были обобщены в три группы: положительные, негативные, нейтральные. Так как даже при виде человека в живую, очень сложно определить каждую даже опытным специалистам.
Каждая из трех групп эмоций включает в себя:
- положительные: симпатия, удовольствие, восторг, нежность, радость, любовь, уверенность, блаженство;
- негативные: страх, тревога, злорадство, отчаяние, месть, горе, тоска,
гнев;
- нейтральные: изумление, любопытство, безразличие. [5] Распознавание эмоций из звуковой информации можно реализовать
двумя способами:
- анализировать сам звуковой файл;
- анализировать содержимое из звукового файла, а именно текст. Современным подходом к решению задачи будет использование
нейросетей, что позволит более качественно решить поставленную проблему, в отличие от обычных алгоритмических решений.
Анализ звукового файла: По различным акустическим признакам (таким как тон, громкость, высота голоса и др.) возможно определить, в каком эмоциональном состоянии находится говорящий. Использование специальных алгоритмов и ПО позволит приблизительно определить эмоции по различным параметрам.
Эмоциональное состояние человека может быть определено при помощи фонетических и просодических свойств их речи. Экспериментально доказано, что скорость речи возрастает на участках диалога, где возникают переживания
беспокойства и тревоги, вызывающие неэффективность саморегуляции речи. Снижение громкости при одновременном возрастании или, наоборот, при резком уменьшении высоты голоса приводит к оцениванию звучащей речи как неприятной.
Крайне важно учитывать тонкие речевые компоненты и их изменение в процессе разговора. Помимо того, человек часто выражает смешанные эмоции, например, одновременно и сочувствие, и раздражение. Такие смешанные эмоции чрезвычайно трудно распознать.
Также немаловажно отметить, что звуковые записи страдают от фонового шума практически всегда. Естественно, это существенно уменьшает процент распознавания эмоционального состояния, говорящего по его речи. Качество записи также влияет на процент распознавания эмоций.[4]
Конструирование искусственной нейронной сети, которая является решением задачи с определением эмоций, должно учитывать тот факт, что в таком виде машинного обучения работа напрямую со звуком не предусмотрена, поэтому на вход нейронной сети будет подаваться спектрограмма звука, которая в ходе преобразований становится набором из чисел. Пример мел -спектрограммы показан на рисунке 1.
М 14 | V* ч. ч ( »Л
УМ- ^ »— «А»
— » ^—^
Рис. 1. Мел-спектрограмма звука
Деля звуковую запись на части, каждая из которых длится не более пяти секунд, можно достичь более качественного анализа. Таким образом, из каждого полученного отрывка получается одна спектрограмма.
Обработка спектрограммы с помощью нейросети представляет из себя наличие в ней сверточных слоев, которые могут принимать на вход изображение и обрабатывать его. Суть операции свертки заключается в том, что каждый фрагмент рисунка умножается на матрицу свёртки поэлементно, а результат суммируется и записывается в аналогичную позицию выходного изображения. [2]
Проанализировав мел-спектрограмму каждого отрезка нейросетью, сервис сможет собирать количество каждой выявленной эмоции и выводить отношение друг к другу, и эмоция, имеющая наивысший процент над остальными двумя, будет результатом работы данного алгоритма.
Анализ эмоций из текста: сложность определения эмоционального состояния человека в тексте заключается в:
- сильной зависимости от контекста;
- расположении слов, что зачастую более важно, нежели их частота;
- наличии сарказма или иронии.
Так как для распознавания эмоциональной окраски предоставляется звуковая запись, то, в первую очередь, необходимо расшифровать в ней все слова и перевести их в текст. Только после этого можно приступать к распознаванию эмоций непосредственно из предложений.
Для выполнения этой роли отлично подходит модель нейронной сети «whisper» от американской компании «OpenAI», которая находится в свободном доступе.
Далее полученный текст необходимо обработать: провести процедуру лемматизации, то есть приведение всех слов к их начальной форме, и очистить от слов, не несущих смысловой нагрузки, например: ну, это, типа и т.п. Эти этапы необходимы для увеличения точности выходного результата. Также необходимо ограничить количество слов, поступающих в будущую нейронную сеть, чтобы не было избытка информации на долю обрабатываемого текста, поэтому вся информация делится на части, состоящие из 15 слов каждая. Так как
вычислительные системы работают напрямую с цифрами, то все элементы каждой части заменяются на заранее сформированный токен, который будет сгенерирован при процедуре обучения модели нейронной сети. Таким образом, подготовку аудиозаписи к анализу можно считать завершенной.
При создании нейросети стоит учитывать, что слова в предложении не являются отдельными независимыми элементами, поэтому стоит отказаться от традиционных искусственных нейронных сетей и использовать рекуррентные. Главным преимуществом является то, что такие сети способны запоминать значения как на короткие, так и на длинные промежутки времени, что позволит, в данном случае, отслеживать взаимосвязь слов между собой.[3]
Генерация токена (уникального номера) для каждого слова происходит при обработке датасета, который подобран для обучения математической модели. Если при подаче в готовую ИНС обнаружится слово, которому не присвоен номер (не было в обучающей выборке), то оно будет игнорироваться.
Подводя черту, можно сказать, что на вход сконструированной нейросети поочередно подаются все раннее образованные части, и результатом работы будет вероятная эмоция. После обработки всего текста все результаты сравниваются и выводится процентное соотношение эмоций относительно друг друга. Как и в варианте с анализом самого звукового файла эмоция, имеющая наивысший процент над остальными двумя, будет результатом работы данного алгоритма.
В конце концов, особенностью такого сервиса является использование сразу нескольких различных нейросетей, которые заточены под разные задачи, для увеличения качества обработки информации.
Поиск эмоций из телефонного разговора в данном случае разделен на два процесса, выполняющих свои вычисления. Первым из них является обработка звука посредством выделения из его частей спектрограмм, в результате анализа которых выводится результат. Вторым из них - расшифровка текста из аудиозаписи и его анализ.
Результатом работы сервиса будет предоставление данных об анализе на каждом из процессов, а также итоговый вывод одной эмоции, на основе оценки полученной информации.
Разработанный алгоритм определения эмоционального состояния человека в аудиозаписи позволит оценить качество общения людей между собой.
Также стоит отметить, что главным минусом, которого не удастся избежать - разделение голосов на разные звуковые дорожки. Этот факт может ввести в заблуждение человека, который будет анализировать результаты работы сервиса.
СПИСОК ЛИТЕРАТУРЫ:
1. Беженарь, А. Е. Нейронная сеть, распознающая рукописные цифры на языке программирования Python // А. Е. Беженарь, Ю. П. Беженарь // Молодой ученый. — 2020. — № 7 (297). — С. 5-10. (дата обращения: 15.05.2023).
2. Свёрточная нейронная сеть [Электронный ресурс]. URL: https ://ru.wikipedia.org/wiki/Свёрточная_нейронная_сеть (дата обращения: 15.05.2023).
3. Рекуррентная нейронная сеть [Электронный ресурс]. URL: https://ru.wikipedia.org/wiki/Рекуррентная_нейронная_сеть (дата обращения: 15.05.2023).
4. На самом ли деле возможно распознавание эмоций? [Электронный ресурс]. URL: https://www.speetech.by/index.php?q=press/analytics/6 (дата обращения: 15.05.2023).
5. Могут ли боты распознавать эмоции в диалоге? Мы решили проверить [Электронный ресурс]. URL: https://vc.ru/services/126407 -mogut-li-boty-raspoznavat-emocii-v-dialoge-my-reshili-proverit (дата обращения: 15.05.2023).
Nikiforov A.A.
North Caucasus Federal University (Stavropol, Russia)
DEVELOPMENT OF A CALL CENTER CONVERSATION EMOTION RECOGNITION MODULE USING RECURRENT ARTIFICIAL
NEURAL NETWORKS TO IDENTIFY UNWANTED CONTENT
Abstract: the objective of this study is to develop a service that will assess the emotional state of the speaker when talking to a call center operator, which will help analyze the effectiveness of the call center.
Keywords: artificial intelligence, machine learning, artificial neural networks, emotions, emotional state, audio recording analysis, text classification, image classification.