Научная статья на тему 'РАСПОЗНАВАНИЕ ЭМОЦИЙ ПО АУДИО СИГНАЛАМ КАК ОДИН ИЗ СПОСОБОВ БОРЬБЫ С ТЕЛЕФОННЫМ МОШЕННИЧЕСТВОМ'

РАСПОЗНАВАНИЕ ЭМОЦИЙ ПО АУДИО СИГНАЛАМ КАК ОДИН ИЗ СПОСОБОВ БОРЬБЫ С ТЕЛЕФОННЫМ МОШЕННИЧЕСТВОМ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY-NC

319

65

i Надоели баннеры? Вы всегда можете отключить рекламу.

Журнал

Программные системы и вычислительные методы

2022

ВАК

RSCI

Область наук

Компьютерные и информационные науки

Ключевые слова

МОШЕННИЧЕСТВО / ТЕЛЕФОННОЕ МОШЕННИЧЕСТВО / ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / МАШИННОЕ ОБУЧЕНИЕ / НЕЙРОСЕТЕВОЕ ОБУЧЕНИЕ / КЛАССИФИКАЦИЯ / СВЕРТОЧНЫЕ НЕЙРОННЫЕ СЕТИ / МЕЛ-КЕПСТРАЛЬНЫЕ КОЭФФИЦИЕНТЫ / ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ / ЭМОЦИИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Никитин Петр Владимирович, Осипов Алексей Викторович, Плешакова Екатерина Сергеевна, Корчагин Сергей Алексеевич, Горохова Римма Ивановна

Актуальность исследования продиктована современным состоянием в области телефонного мошенничества. Согласно исследованиям, проводимые «Лабораторией Касперского» доля пользователей, столкнувшихся весной 2022 года с различными нежелательными, спам-звонками, была на уровне 71%. Предметом исследования являются технологии машинного и глубокого обучения для определения эмоций по тембру голоса. Авторами подробно рассматривают такие аспекты как: создание размеченного датасета; преобразование звукового формата WAV в числовой вид, удобный для быстрой обработки; методам машинного обучения для решения задачи многоклассовой классификации; построению и оптимизации архитектуры нейросети, для определения эмоций в реальном времени. Особым вкладом в исследование темы является то, что авторами был реализован быстрый способ преобразования звуковых форматов в числовые мел-кепстральные коэффициенты, что значительно повысило скорость обработки данных, практически не пожертвовав их информативностью. В следствии этого обучение моделей алгоритмами машинного обучения происходило быстро и качественно. Особо отметим, что была смоделирована архитектура сверточной нейронной сети, которая позволила получить качество обучения модели до 98%. Модель получилась легковесной и была взята за основу обучения модели по определению эмоций в реальном времени. Результаты работы модели в реальном времени были сопоставимы с результатами обученной модели. Разработанные алгоритмы могут быть внедрены в работы сотовых операторов или банков в борьбе с телефонным мошенничеством. Статья подготовлена в рамках государственного задания Правительства Российской Федерации Финансовому университету на 2022 год по теме «Модели и методы распознавания текстов в системах противодействия телефонному мошенничеству» (ВТК-ГЗ-ПИ-30-2022).

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Никитин Петр Владимирович, Осипов Алексей Викторович, Плешакова Екатерина Сергеевна, Корчагин Сергей Алексеевич, Горохова Римма Ивановна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

i Надоели баннеры? Вы всегда можете отключить рекламу.

EMOTION RECOGNITION BY AUDIO SIGNALS AS ONE OF THE WAYS TO COMBAT PHONE FRAUD

The relevance of the study is dictated by the current state in the field of telephone fraud. According to research conducted by Kaspersky Lab, the share of users who encountered various unwanted spam calls in the spring of 2022 was at the level of 71%. The subject of the research is machine learning and deep learning technologies for determining emotions by the timbre of the voice. The authors consider in detail such aspects as: the creation of a marked-up dataset; the conversion of WAV audio format into a numerical form convenient for fast processing; machine learning methods for solving the problem of multiclass classification; the construction and optimization of neural network architecture to determine emotions in real time. A special contribution to the study of the topic is that the authors implemented a fast method of conversion sound formats into numerical coefficients, which significantly increased the speed of data processing, practically without sacrificing their informativeness. As a result, the models were trained by machine learning algorithms quickly and efficiently. It should be particularly noted that the architecture of a convolutional neural network was modeled, which allowed to obtain the quality of model training up to 98%. The model turned out to be lightweight and was taken as the basis for training the model to determine emotions in real time. The results of the real-time operation of the model were comparable with the results of the trained model. The developed algorithms can be implemented in the work of mobile operators or banks in the fight against telephone fraud. The article was prepared as part of the state assignment of the Government of the Russian Federation to the Financial University for 2022 on the topic "Models and methods of text recognition in anti-telephone fraud systems" (VTK-GZ-PI-30-2022).

Текст научной работы на тему «РАСПОЗНАВАНИЕ ЭМОЦИЙ ПО АУДИО СИГНАЛАМ КАК ОДИН ИЗ СПОСОБОВ БОРЬБЫ С ТЕЛЕФОННЫМ МОШЕННИЧЕСТВОМ»

Программные системы и вычислительные методы

Правильная ссылка на статью:

Никитин П.В., Осипов А.В., Плешакова Е.С., Корчагин С.А., Горохова Р.И., Гатауллин С.Т. — Распознавание эмоций по аудио сигналам как один из способов борьбы с телефонным мошенничеством // Программные системы и вычислительные методы. - 2022. - № 3. DOI: 10.7256/2454-0714.2022.3.38674 EDN: ZBVOCN URL: https;//nbpublish.com'library_read_article.php?id=38674

Распознавание эмоций по аудио сигналам как один из способов борьбы с телефонным мошенничеством

Никитин Петр Владимирович

ORCID: 0000-0001-8866-5610 кандидат педагогических наук доцент, департамент анализа данных и машинного обучения 125993, Россия, г. Мзсква, ул. 4-Й венняковский, 4, оф. корпу: 2

И pvnikitin@fa.ru Осипов Алексей Викторович

кандидат физико-математмческих наук

доцент, кафедра Информационной безопасности, Федеральное государственное образовательное бюджетное учреждение высшего образования «Финансовый университет при Правительстве

Российской Федерации»

125167, Россия, г. Мзсква, ул. 4-Й венняковский, 4, оф. корпу: 2

И avosipov@fa.ru Плечвкова Екатерина Сергеевна

кандидат технических наук

доцент, кафедра Информационной безопасности, Федеральное государственное образовательное бюджетное учреждение высшего образования «Финансовый университет при Правительстве

Российской Федерации»

125167, Россия, г. Мзсква, ул. 4-Й венняковский, 4, оф. корпу: 2

И espleshakova@fa.ru Корчагин Сергей Алексеевич

кандидат физико-математмческих наук

Заместитель декана факультета информационных технологий, Федеральное государственное образовательное бюджетное учреждение высшего образования «Финансовый университет при

Правительстве Российской Федерации»

125167, Россия, г. Мзсква, ул. 4-Й венняковский, 4, оф. корпу: 2

И sakorchagin@fa.ru Горохова Римма 1/Ъановна

кандидат педагогических наук

доцент, кафедра департамент анализа данных и машинного обучения, Федеральное государственное образовательное бюджетное учреждение высшего образования «Финансовый университет при

Правительстве Российской Федерации»

125167, Россия, г. Мзсква, ул. 4-Й венняковский, 4, оф. корпу: 2

И rigorokhova@fa.ru

Гатауллин Сергей Тимурович

кандидат экономических наук

Заместитель декана факультета информационных технологий, Федеральное государственное образовательное бюджетное учреждение высшзго образования «Финансовый университет при

Правительстве Российской Федерации»

125167, Россия, г. Мзсква, ул. 4-Й венняковский, 4, оф. корпу: 2

И stgataullin@fa.ru

Статья из рубрики "Модели и методы управления информационной безопасностью"

DOI:

10.7256/2454-0714.2022.3.38674

EDN:

ZBVOCN

Дата направления статьи в редакцию:

22-08-2022

Дата публикации:

29-08-2022

Аннотация: Актуальность исследования продиктована современным состоянием в области телефонного мошенничества. Согласно исследованиям, проводимые «Лабораторией Касперского» доля пользователей, столкнувшихся весной 2022 года с различными нежелательными, спам-звонками, была на уровне 71%. Предметом исследования являются технологии машинного и глубокого обучения для определения эмоций по тембру голоса. Авторами подробно рассматривают такие аспекты как: создание размеченного датасета; преобразование звукового формата WAV в числовой вид, удобный для быстрой обработки; методам машинного обучения для решения задачи многоклассовой классификации; построению и оптимизации архитектуры нейросети, для определения эмоций в реальном времени. Особым вкладом в исследование темы является то, что авторами был реализован быстрый способ преобразования звуковых форматов в числовые мел-кепстральные коэффициенты, что значительно повысило скорость обработки данных, практически не пожертвовав их информативностью. В следствии этого обучение моделей алгоритмами машинного обучения происходило быстро и качественно. Особо отметим, что была смоделирована архитектура сверточной нейронной сети, которая позволила получить качество обучения модели до 98%. Модель получилась легковесной и была взята за основу обучения модели по определению эмоций в реальном времени. Результаты работы модели в реальном времени были сопоставимы с результатами обученной модели. Разработанные алгоритмы могут быть внедрены в работы сотовых операторов или банков в борьбе с телефонным мошенничеством. Статья подготовлена в рамках государственного задания Правительства Российской Федерации Финансовому университету на 2022 год по теме «Модели и методы распознавания текстов в системах противодействия телефонному мошенничеству» (ВТК-ГЗ-ПИ-30-2022).

Ключевые слова: мошенничество, телефонное мошенничество, искусственный интеллект, машинное обучение, нейросетевое обучение, классификация, сверточные нейронные сети, мел-кепстральные коэффициенты, информационная безопасность, эмоции

Статья подготовлена в рамках государственного задания Правительства Российской Федерации Финансовому университету на 2022 год по теме «Модели и методы распознавания текстов в системах противодействия телефонному мошенничеству» (ВТК-ГЗ-ПИ-30-2022)

Введение. Развитие мобильной связи напрямую связано с развитием информационных технологий. Возможности, которые дают человеку средства общения, способствуют повышению качества жизни. Применение мобильной связи расширяется с каждым годом, становится неотъемлемой частью жизни практически всех людей. Это порождает увеличение и неправомерных действий, применяющих средства связи. Особенно широко распространяется телефонное мошенничество. В уголовном кодексе Российской Федерации в статье 159 дано определение мошенничества как «хищение чужого имущества или приобретение права на чужое имущество путем обмана или злоупотребления доверием». Таким образом, рассматриваемый вид мошенничества по своей сути направлен на применение информационно-телекоммуникационных технологий для получения личных денежных средств граждан или данных о банковской карте. В этом случае распространяющиеся все более широко возможности электронных платежей становятся способом получения чужих денежных средств. Согласно статье 159.3 УК РФ «электронное средство платежа - средство и (или) способ, позволяющие клиенту оператора по переводу денежных средств составлять, удостоверять и передавать распоряжения в целях осуществления перевода денежных средств в рамках применяемых форм безналичных расчетов с использованием информационно-коммуникационных технологий, электронных носителей информации, в том числе платежных карт, а также иных технических устройств». Становится понятным, что достаточно мошенникам получить конфиденциальную информацию от жертвы, то совершение преступления становится необратимым. Именно поэтому вопросам связанным с предотвращением телефонного мошенничества уделяется такое большое внимание в различных исследованиях.

Особое внимание в современных исследованиях уделено психологическому портрету людей подверженных телефонному мошенничеству. Исследование Н. В. Мешковой, В. Т.

Кудрявцева, С. Н. Ениколопова-Ш рассматривает потенциальные жертвы телефонных мошенников с позиции их психологического портрета. Реализация телефонного мошенничества начинается со звонка и развивается в дальнейшем в зависимости от поведения жертвы: насколько возможно манипулировать ею, навязывать свои правила поведения. Авторы статьи определили факторы людей, которыми пользуются мошенники: «высокий уровень притязаний, неудовлетворенность своим социальным положением, завышенный стандарт потребления и дефицит общения, излишняя доверчивость, не критичное, основанное на суеверии поведение» -Ш.

В диссертационном исследовании А. А. особенностей мошенника и потерпевших от совершающий телефонное мошенничество, преступник», который имеет высокий профе с с ио на льной обла с ти, с в я з а нной с

Пудовкина проведен анализ личностных мошенничества. Современный мошенник, характеризуется как «интеллектуальный уровень образования, компетентен в телекоммуникационными технологиями и

психологии, имеет навыки актерского мастерства, умение вызвать доверие у незнакомых людей, навыки выполнения рискованных действий. Исследование показало значимость изучения свойств личности, которая становится жертвой преступления и оказывается втянутым в сложные схемы преступников. В связи с этим А. А. Пудовкин определяет, что наиболее подверженными являются люди, с одной стороны, обладающие такими чертами как азартность и авантюризм, с другой стороны, люди не обладающие критическим мышлением, в связи с этим доверчивые и наивные. Еще одной характеристикой является жажда получения легкой наживы и патологическая жадность (Пудовкин, А. А. Уголовно-правовые и криминологические особенности мошенничества: дис. ... канд. юрид. наук: 12.00.08 Санкт-Петербург, 2007 144 с. РГБ ОД, 61:07-12/949).

Свойства виктимной личности, наиболее подверженной насилию, рассмотрены и в работе О. А. Клачковой. В проведенном исследовании определена система психологических свойств характеризующих такие личности и определены их качества. Автор в первую очередь указывает недостаточность внимания и стремление быть замеченным, суметь удивить окружающих. Особое место среди качеств людей подверженных мошенничеству

занимает беспечность

Анализ представленных исследований показывает, что телефонное мошенничество имеет две противоположные стороны. С одной стороны, находятся мошенники со своими характерными особенностями, с другой - личности подвергаемые мошенничеству. И для достижения результатов должны совпасть обе составляющие, то есть на конкретное мошенническое действие должен найтись человек готовый поверить и выполнить навязываемое ему действие, то есть стать жертвой. И. Г. Моисеева рассмотрела проблему телефонного мошенничества с позиции психологического анализа мошеннических действий посредством электронных средств платежа Автор выделяет виды мошенничества совершенные на основе применения целого ряда средств информационно-телекоммуникационных технологий. Новые технологии и их активное внедрение дают огромный простор для использования в совершении преступлений: от

мобильной связи до электронных платежей и пластиковых банковских карт

Получение технологии, которая позволит определять мошенника с помощью выявления эмоций в соответствии с общей моделью мошеннических действий, будет способствовать предотвращению действий жертвы.

В исследовании А. А. Романова и В. А. Машлякевич рассмотрены методы применения средств мобильной связи для проведения самых немыслимых преступлений для получения денежных средств при совершении сделок при купле-продаже. Авторами определены алгоритмы совершения мошенничеств с использованием средств мобильной

связи [41. Поскольку действия мошенников по разным схемам достаточно вариативны и носят, в некоторой мере, характер, зависящий от конкретной жертвы и конкретной ситуации, то в данном случае можно с помощью его эмоций определить является ли происходящее событие этапом совершения преступления.

По поводу телефонного мошенничества обеспокоены не только пользователи, но и банки. Данное направление постоянно развивается с развитием информационных технологий и доставляет все больше проблем финансовой сфере. Авторы Е. В. Барашева, Д. А. Степаненко провели историческое исследование преступлений с применением информационно-коммуникационных технологий в банковской сфере. Данное исследование показало, что мошенничество имеет свою историю развития и становится все более изощренным. А. А. Иванова, В. В. Мищенко также рассматривают

актуальность проблем, непосредственно связанных с финансовой деятельностью и методы борьбы с мошенничеством в финансовой сфере. Снижение статистики финансовых преступлений исследователи видят в необходимости повышения, в первую очередь, финансовой грамотности граждан, а также в установлении нормативно-

правовых основ борьбы с ними И. В. Сухорукова особое внимание уделяет актуальности проблем, непосредственно связанных с финансовой деятельностью «Сбербанка». В исследовании определено, что кибератаки осуществляются на банк постоянно и выделены наиболее часто применяемые методы осуществления мошенничества и кражи с банковских карт

Вопросы предсказания эмоций являются предметом исследований в самых разных областях. Предсказание эмоций, возраста, происхождения по вокальным данным

рассматривались в статье А. Апис1п^апики1, L. 5реаа[8]. Состязательный многозадачный подход Ви^2Уес использует предварительно обученные речевые представления для захвата акустической информации из необработанных сигналов и включает в себя концепцию устранения смещения модели с помощью состязательного обучения. Авторами в процессе исследования достигнуто повышение производительности применения модели на 30 %. Возможности применения исследуемого подхода показывают возможности многозадачного обучения (М^) для распознавания различных составляющих звонящего по телефону, в том числе эмоций, в борьбе с телефонным мошенничеством.

Исследование А. И. Иванова и И. А. Кубасова-9! посвящено необходимости предотвращения телефонного мошенничества путем идентификации голосовых особенностей мошенников. В основе исследования рассматривается создание базы данных голосов и переход на автоматизированные процедуры выявления телефонных мошенников на основе анализа их голосовых портретов. Авторы предлагают применение искусственного интеллекта и для этого выстраивают следующий алгоритм: автоматическая разметка голосового сообщения на кадры; автоматизированное формирование образов-улик путем документирования голоса, которое проводится по ключевым словам и позволяет определить сферу действия мошенника; рассмотрение

тональности звуков; применение различных методов распознавание речи Авторами предложен технологический метод, который может служить основой применения искусственных нейронных сетей и их обучения, для определения основных ключевых элементов портрета мошенника по его голосу и тембру звучания. Данное исследование рассматривает основы для применения искусственного интеллекта для распознавания мошенников.

Использование системы голосовой идентификации в качестве дополнительной защиты пользователя рассмотрено в исследовании М. А. Маслова и В. А. Костикова. В статье выделены достоинства и недостатки применения голосовой биометрии для распознавания звонков злоумышленников. Авторы предлагают построение системы голосовой идентификации построенной на основе акустической голосовой модели,

лингвистической языковой модели, семантической модели и смысловой модели ПШ.

Таким образом, исследования по борьбе с телефонным мошенничеством постоянно ведутся по разным направлениям. Распознавание эмоций по полученному голосовому сигналу может служит способом борьбы со злоумышленниками. Остановить преступные действия становится возможным в самом начале, если использовать современные все более широко применяемые методы. Среди таких методов наиболее актуальными

становится применение методов предиктивной аналитики и машинного обучения.

Данные и методы. Рассмотрим алгоритмы распознавания эмоций по тембру голоса средствами машинного обучения. Доказательства эффективности применения машинного и глубокого обучения в определении авторами были рассмотрены в исследованиях -Ш-

Первое, что необходимо сделать, это найти подходящие датасеты. В настоящее время в открытом доступе не так много данных с голосовыми сообщениями, описывающие эмоции. Авторы нашли три больших датасета, которые можно будет использовать в исследовании. Но для нашего исследования ограничимся двумя.

Первый датасет TESS (https://www.kaggle.com/ejlok1/toronto-emotional-speech-set-tess). Он содержит 2800 звуковых дорожек формата WAV. Отметим, что данный датасет озвучен только женскими голосами и размечен по 7 эмоциям: гнев, отвращение, страх, счастье, печаль, удивление, нейтральная эмоция.

Второй датасет SAVEE (https://www.kaggle.com/barelydedicated/savee-database). Датасет озвучен мужскими голосами и размечен по тем же по 7 эмоциям. В нем содержится 3360 звуковых дорожек формата WAV.

Так как среди мошенников (среди жертв) могут быть как мужчины, так и женщины, то для увеличения эффективности разрабатываемой системы, авторы объединили датасеты TESS и SAVEE в один датасет. Таким образом, итоговым датасетом будет датасет, состоящий из 6160 звуковых дорожек формата wav, озвученные как мужскими, так и женскими голосами и размеченный по 7 эмоциям: гнев, отвращение, страх, счастье, печаль, удивление, нейтральная эмоция. На рисунке 1 приведено распределение классов в итоговом датасете.

<BarCGntainer Object of 7 Brtist5>

lllllll

Рисунок 1. Распределение классов в датасете

Видно, что все эмоции примерно равны, есть небольшое преобладание нулевых эмоций, но все в допустимых пределах.

Основным этапом для решения последующей задачи классификации является этап преобразования звуковых файлов в числовой формат. Отметим, что данное преобразование должно проходить быстро и в тоже время информация не должна терять своей информативности. Авторы исследования пришли к выводу, что наиболее оптимально конвертировать аудиофайлы в мел-кепстральные коэффициенты (MFCC).

Математические преобразования звука в MFCC следующие (на примере слова «один»):

1. Необходимо применить преобразование Фурье для получения спектра аудиосигнала (рис. 2);

Рисунок 2. Временное представление слова "один" и его спектра после преобразования

Фурье.

2. Используя окна (весовые функции), равномерно расположенные на оси мела, мы проецируем спектр, полученный на предыдущем шаге, на шкалу мела и переносим этот результирующий график на шкалу частот (рис. 3).

Рисунок 3. Проекция функции окна на частотную шкалу

Видно, что окна более точно сконцентрированы на низких частотах, потому что именно там нам труднее всего различать звуки и именно там нам нужно максимальное количество информации из аудиосигнала.

3. Найдите количество энергии сигнала, которое находится в каждом окне, умножив векторы спектра сигнала на функцию окна (формула 1).

4. Следующим шагом возводим полученные результаты в квадрат, затем берем логарифм и используем дискретное косинусное преобразование (формула 2).

В результате мы получаем нужный нам результат (рис. 4).

Рисунок 4. Коэффициенты MFCC

Все преобразования были выполнены с использованием языка программирования Python. На рисунке 5 показано преобразование набора данных в коэффициенты мела-кепстрала.

у, s- ■ 1р..pith.jflinduMii",

mftt: ■ и.йы^.^пм-в^с^, mrj >*_niftt".jy), Tr iitii-a]

priiit(fIn ftrd - ittrt} lltotidl')

Рисунок 5. Преобразование звуковых данных

В результате мы получили небольшой набор значений, который может заменить тысячи значений важности речевого сигнала или спектрограмм при определении речи в полном объеме. Это значительно повышает скорость обработки данных, практически не жертвуя при этом их информативностью. Полученные наборы данных можно просмотреть по следующей ссылке:

https://drive.google.com/drive/folders/1WQflU_1ZYsO4EuCJx9SRB5lUGKDtgEOL ?usp =

sharing.

На втором этапе мы будем использовать методы машинного и глубокого обучения для решения задачи классификации. В нашем случае, для задачи определения эмоций.

Были применены следующие методы машинного обучения для решения задачи классификации: логистическая регрессия; RandomForest, градиентный бустинг [17-19]. В качестве метрики обучения была взята кривая ROC-AUC.

Лучше всего себя показала модель RandomForest. Результаты обучения модели представлены на рисунке 6.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рисунок 6. Качество обучения модели

Из рисунка 6 видно, что хуже всех модель угадывает эмоции 4 и 5. Данные эмоции могут быть очень важными в случаях с телефонным мошенничеством. Следовательно, необходимо улучшить результаты модели.

Рассмотрим для этого нейронные сети.

Авторами было протестировано несколько архитектур нейронных сетей: многослойные нейронные сети, сверточные нейронные сети (CNN), рекуррентные нейронные сети

(LST M) Г20-221. Лучшие результаты были достигнуты при использовании CNN, с архитектурой, представленной на рисунке 7.

Model.: "i equeritial_4"

(typ<S) Output 519p« Pi Г ЯП »

convld_li (ConvlD) (Ноге^ 128) 512

b at сh_n оrma1i;ation_7 (Batch (Höre, 2в, 128) 512

convld_14 (ConvlD) (Morej 25, 64) 2464«

in»K_ponlinild_7 (МаяРооЦпя! (Hortj 64) e

dropout_ie [Dropout) (Ноге, а, 6 + О

bdtch_normdlizstion_E (Batch (Ноге, 64) 256

convid_iS (ConvlD) (Ноге, 32) 6176

convid_i6 (convio) (Ноге, э. 16) 1552

max_poali rtgld_S (гчах Pool in gl (Ноге, О, 16) fl

dropout^ll (Dropout) (Ноге, IG) 0

flitten_4 (Flatten) (Ногеj 64 J

dropout_12 (Dropout) (Monsj S4) 0

(Dense) (Nünij V 455

Total paraifs: 34,103 Trainable params: B3j719 Non-trsirable params: 3S4

Рисунок 7. Архитектура CNN для распознавания эмоций по тембру голоса

Наилучшие результаты нейросеть достигла при скорости обучения 1г = 0,01 через 400 эпох обучений. Точность достигла 98% для каждой из эмоций (рис.8).

Epoch 3Я.'¿ее

ЖЛ/ЖЛ [■»......................I I

Epoch »2/¿Об

3624/2&24 [*........«..*.................

Ep«Ch 333 iM

[..............................

Epoch да,1«

ЙК/иы [-....................... ■ ».«

Epoch ¿№4«

Jt;*/£ » ki . kiJ . к«. kiJ ....... k*k ■ ■ ■■к

Epoch 5Н/4И

im/ia* [................«.к,...«..*..

Epoch isi.'iM

M24/JCM [—.............ж.............

Epoch sse.'Jei

гтаьи ["■■■■■■......................

Epoch »»9/4«

з««г«4 .....—■—

Epoch 4Bt.'4ee

2624/2624 f t.............. ....... n. .....

Ii 487ut/it*p losi: t.HU

Ii 1st! Г a.tsTi accuracy;

It 4»ul/tt*p lütt; 1С сигму! «.»741

It lütt; e.e»« асcuracy.

If 4№I/ICIP lo«t: accuracy: e.srw

19 4Ü9ui/it«p let*: ».й749 accuracy: a.i7i4

1» 471ui/ltap lots: accuracy: •,971*

г» 463ut/step loss: e.esw «curacy: е.97и

19 4S4ul/(t*p 1м в i accuracy:

Ii iSluI/stap lo*»: &.Ü46? accuracy: a.sen

Рисунок 8. Результаты обучения нейросети

Для использования данной модели был реализован скрипт, принимающий аудиопоток с входного устройства, вычисляющий MFCC для фиксированных отрывков этого потока и предсказывающий одну из семи эмоций с помощью разработанной модели. Отметим, что модель достаточно легковесна, чтобы проводить классификацию в реальном времени. В скрипте, использующем полученную модель на реальном аудиопотоке с входного устройства использовалась библиотека PyAudio. Результаты были сопоставимы.

Но, все-таки хочется отметить, что ввиду технических ограничений и отсутствия реальных данных, работа системы не была протестирована должным образом (например, в условиях телефонного разговора). Более того, обучение проходило на записях с англоязычной речью, это может давать непредвиденные результаты при работе с другими языками. Но данные замечания не понижают качество исследования.

Выводы. Авторами была разработана и реализована нейросетевая модель определения эмоций по тембру голоса в реальном времени. Результаты исследования показали, что технологии машинного и глубокого обучения можно использовать в качестве способа борьбы с телефонным мошенничеством. Сотовые операторы или банки имеют большие данные с мошенническими разговорами, разговорами жертв. Из этих данных можно получить размеченные датасеты и применив описанные технологии бороться с мошенничеством. Особенно интересно рассмотреть данное исследование в совокупности с уже применяемыми технологиями определения мошеннических разговоров, например, по стоп-словам. Тогда мультимодальная технология будет более эффективной и в большей степени поможет избежать мошеннических действий.

Библиография

1. Мешкова Н.В., Кудрявцев В.Т., Ениколопов С.Н. К психологическому портрету жертв телефонного мошенничества // Вестник московского университета. Серия 14. Психология. 2022. № 1. С. 138-157. doi: 10.11621/vsp.2022.01.06.

2. Клачкова О. А. Психологические особенности виктимной личности // Известия РГПУ им. А. И. Герцена. 2008. №58. URL: https://cyberleninka.ru/article/n/psihologicheskie-osobennosti-viktimnoy-lichnosti (дата обращения: 24.08.2022).

3. Моисеева И.Г. Психологические аспекты противодействия телефонному мошенничеству // Калужский экономический вестник. 2022. № 1. С. 70-74.

4. Романов А.А., Машлякевич В.А. О современных, способах мошенничеств, совершаемых с использованием средств мобильной связи // Евразийский юридический журнал. 2021. № 10 (161). С. 254-255.

5- Барашева Е. В. Степаненко Д.А. Историко-правовые аспекты киберпреступности в банковской сфере // Гуманитарные, социально-экономические и общественные науки. 2022. №6. С. 75-77. DOI 10.23672/y5463-0677-0213-l.

6. Иванова А. А. Мищенко В.В. Актуальные проблемы мошеннической деятельности в финансовой сфере // Интернаука. 2022. № 18-5(241). С. 52-53.

7. Сухорукова И. В. Кибермошенничество как главная проблема осуществления операций с пластиковыми картами в ПАО «Сбербанк»// Spirit Time. 2021. № 11(47).

C. 14-16.

8. Anuchitanukul A., Specia L. 2022. Burst2Vec: An Adversarial Multi-Task Approach for Predicting Emotion, Age, and Origin from Vocal Bursts. DOI: 10.48550/arXiv.2206.12469.

9. Иванов А. И. Перспектива усиления политики учетности голосовых особенностей биометрических данных телефонных мошенников // Вестник Воронежского института ФСИН России. 2021. № 1. С. 89-96.

10. Маслова М. А., Костиков В.А. Использование системы голосовой идентификации в качестве дополнительной защиты пользователя // Современные проблемы радиоэлектроники и телекоммуникаций. 2021. № 4. С. 223.

11. Vanneste, P., Oramas, J., Verelst, T., Tuitelaars, T., Raes, A., Depepe, F., and Van den Northgate, V. 2021. Computer vision and human behavior, emotion detection and cognition: an example of use for student engagement. Mathematics 9: 287. DOI: 10.3390/math9030287.

12. Zhang, H., Feng, L., Li, N.,. Jin, Z., and Cao, L. 2020 Video-based stress detection using deep learning. Sensors 20: 5552 DOI: 10.3390/s20195552.

13. Dogadina, E.P., Smirnov, M.V., Osipov, A.V., and Suvorov, S.V. 2021. Evaluation of the forms of education of high school students using a hybrid model based on various optimization methods and a neural network. Informaticsthis link is disabled 8(3): 46.

14. Heo, T. S., Kim, Y. S., Choi, J. M., Jeong, Y. S., Seo, S. Y., Lee, J. H., Kim, C. 2020. Prediction of stroke outcome using natural language processing-based machine learning of radiology report of brain MRI. Journal of personalized medicine, 10(4), 286

15. Prasetio, B.H., Tamura, H., and Tanno, K. 2018. Facial stress recognition based on signs of a multihistogram and convolutional neural network. IEEE Int. Conference on Systems, Man and Cybernetics (SMC): 881-887. DOI: 10.1109/SMC.2018.00157

16. Lischer S., Safi N., Dickson C. Remote learning and students' mental health during the Covid-19 pandemic: A mixed-method enquiry. PROSPECTS. 2021. p. 1-11. (In Eng.). DOI: 10.1007/s 11125-020-09530-w

17. Pranckevicius T., Marcinkevicius V. Comparison of naive bayes, random forest, decision tree, support vector machines, and logistic regression classifiers for text reviews classification. 2017. Baltic Journal of Modern Computing. Т. 5. №. 2. p. 221.

18. Shah, K., Patel, H., Sanghvi, D., & Shah, M. (2020). A comparative analysis of logistic regression, random forest and KNN models for the text classification. Augmented Human Research. 5(1). pp. 1-16.

19. Tatarintsev, M.; Korchagin, S.; Nikitin, P.; Gorokhova, R.; Bystrenina, I.; Serdechnyy,

D. 2021. Analysis of the forecast price as a factor of sustainable development of agriculture. Agronomy, 11, 1235. https://doi.org/10.3390/agronomy11061235.

20. Durstewitz D., Koppe G., Meyer-Lindenberg A. Deep neural networks in psychiatry. Molecular Psychiatry. 2019; 24:1583-1598. (In Eng.). DOI: 10.1038/s41380-019-0365-9

21. Janssen R.J., Mourao-Miranda J., Schnack H.G. 2018. Making Individual Prognoses in Psychiatry Using Neuroimaging and Machine Learning. Biological Psychiatry: Cognitive

Neuroscience and Neuroimaging. 3(9):798-808. DOI: 10.1016/j.bpsc.2018.04.004

22. Erickson B.J., Korfiatis P., Akkus Z., Kline T.L. 2019. Machine Learning for Medical Imaging. RadioGraphics. 37(2):505-515. DOI: 10.1148/rg.2017160130

Результаты процедуры рецензирования статьи

В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.

Со списком рецензентов издательства можно ознакомиться здесь.

Рецензируемая статья посвящена изучению возможности борьбы с телефонным мошенничеством на основе разработки моделей машинного обучения для распознавания эмоций по аудио сигналам.

Методология исследования базируется на обобщении литературных источников по теме работы, применении методов предиктивной аналитики и алгоритмов распознавания эмоций по тембру голоса средствами машинного обучения.

Актуальность исследования авторы справедливо связывают с тем, что распознавание эмоций по полученному голосовому сигналу может служит способом борьбы со злоумышленниками и может остановить преступные действия в самом начале пра в о на руше ния .

Научная новизна представленного исследования заключается в разработке и реализации нейросетевой модели определения эмоций по тембру голоса в режиме реального времени, которая может быть использована в качестве способа борьбы с телефонным мошенничеством.

В статье структурно выделены следующие разделы: Введение, Данные и методы, Выводы, Библиография. Во введении обоснована актуальность работы, приведен обзор современных публикаций, так или иначе связанных с решаемой в статье проблемой. Далее дано описание подходящих для использования в исследовании датасетов в открытом доступе с голосовыми сообщениями, описывающими эмоции. Итоговый датасет, использованный в статье для машинного обучения, состоит из 6160 звуковых дорожек, озвученных как мужскими, так и женскими голосами и размеченный по 7 эмоциям: гнев, отвращение, страх, счастье, печаль, удивление, нейтральная эмоция. Для преобразования звуковых файлов в числовой формат применено конвертирование аудиофайлов в мел-кепстральные коэффициенты, для получения спектра аудиосигнала использовано преобразование Фурье, компьютерная программа на языке Python. Для решения задачи классификации использованы широко известные методы машинного обучения: логистическая регрессия; метод случайного леса (RandomForest), градиентный бустинг, многослойные нейронные сети, сверточные нейронные сети, рекуррентные нейронные сети. В качестве меры способности классификатора различать классы использована ROC-кривая. Авторы делают выводы о методах, обеспечивших наилучшее обучение модели, отмечают, что результаты обучения обеспечили точность распознавания 98% для каждой из эмоций.

Библиографический список включает 22 источника - научные публикации и интернет-ресурсы на русском и английском языках, на которые в тексте приведены адресные ссылки, свидетельствующие о наличии в публикации апелляции к оппонентам. Авторы справедливо отмечают не только сильные стороны проведенного исследования, но и его недостатки: отсутствие тестирования модели в условиях реального телефонного разговора, обучение на записях с англоязычной речью - такая самокритичность способствует тому, что читатель не будет введен в заблуждение относительно практических возможностей предлагаемой разработки. Тем не менее, тема статьи

актуальна, материал соответствует тематике журнала «Программные системы и вычислительные методы», может вызвать интерес у читателей и рекомендуется к опубликованию.

i Надоели баннеры? Вы всегда можете отключить рекламу.