Научная статья на тему 'РАЗРАБОТКА МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ И БИБЛИОТЕКИ ИНТЕРПРЕТИРУЕМОГО ПРЕДСКАЗАТЕЛЬНОГО МОДЕЛИРОВАНИЯ ПОВЕДЕНИЯ ЧЕЛОВЕКА В ПРОЦЕССЕ ЕГО ОНЛАЙН-ПРОФАЙЛИНГА'

РАЗРАБОТКА МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ И БИБЛИОТЕКИ ИНТЕРПРЕТИРУЕМОГО ПРЕДСКАЗАТЕЛЬНОГО МОДЕЛИРОВАНИЯ ПОВЕДЕНИЯ ЧЕЛОВЕКА В ПРОЦЕССЕ ЕГО ОНЛАЙН-ПРОФАЙЛИНГА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
9
3
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
машинное обучение / open source / мультимодальный анализ / вербальные и невербальные признаки / machine learning / open source / multimodal analysis / verbal and non-verbal signs

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Смирнов Иван Захарович, Медведев Анатолий Андреевич, Самигулин Тимур Русланович, Комарова Алёна Алексеевна, Тимощук-Бондарь Артём Игоревич

Изучение индивидуально-психологических особенностей людей имеет важное значение в областях: образовании, менеджменте и управлении, обеспечении безопасности человека и сообществ. В решении задачи определения и анализа личностных особенностей существуют различные инструменты, однако они имеют ряд ограничений. Мы представляем решение, которое извлекает и с использованием машинного обучения анализирует признаки лица и речи человека из видеоряда, применимое для исследования восьми различных индивидуально-психологических характеристик в задаче цифрового онлайн-профайлинга. Пользователю предлагается использовать разработанную библиотеку Expert для получения новых характеристик путем применения и комбинации существующих ML-модулей для решения широкого класса задач.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Смирнов Иван Захарович, Медведев Анатолий Андреевич, Самигулин Тимур Русланович, Комарова Алёна Алексеевна, Тимощук-Бондарь Артём Игоревич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF MACHINE LEARNING METHODS AND A LIBRARY OF INTERPRETABLE PREDICTIVE MODELING OF HUMAN BEHAVIOR DURING HIS ONLINE PROFILING

The study of individual psychological characteristics of people is important in the areas of education, management and administration, ensuring the safety of individuals and communities. There are various tools for solving the problem of determining and analyzing personal characteristics, but they have a number of limitations. We present a solution that extracts and uses machine learning to analyze human facial and speech features from video footage, applicable to the study of eight different individual psychological characteristics in an online digital profiling task. The user is invited to use the developed Expert library to obtain new characteristics by applying and combining existing ML modules to solve a wide class of problems.

Текст научной работы на тему «РАЗРАБОТКА МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ И БИБЛИОТЕКИ ИНТЕРПРЕТИРУЕМОГО ПРЕДСКАЗАТЕЛЬНОГО МОДЕЛИРОВАНИЯ ПОВЕДЕНИЯ ЧЕЛОВЕКА В ПРОЦЕССЕ ЕГО ОНЛАЙН-ПРОФАЙЛИНГА»

Смирнов И.З., Медведев А. А., Самигулин Т.Р., Комарова А.А., Тимощук-Бондарь А.И., Синько М.В., Лаушкина А.А., Гофман О.О., Басов О.О. Разработка методов машинного обучения и библиотеки интерпретируемого предсказательного моделирования поведения человека в процессе его онлайн-профайлинга // Научный результат. Информационные технологии. - Т.8, №4, 2023

УДК 004.934.5 DOI: 10.18413/2518-1092-2023-8-4-0-6

Смирнов И.З. Медведев А. А. Самигулин Т.Р. Комарова А.А. Тимощук-Бондарь А.И. Синько М.В. Лаушкина А.А. Гофман О.О., Басов О.О.

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО», Кронверкский пр., д. 49, г. Санкт-Петербург, 197101, Россия

e-mail: oobasov@mail.ru

Аннотация

Изучение индивидуально-психологических особенностей людей имеет важное значение в областях: образовании, менеджменте и управлении, обеспечении безопасности человека и сообществ. В решении задачи определения и анализа личностных особенностей существуют различные инструменты, однако они имеют ряд ограничений. Мы представляем решение, которое извлекает и с использованием машинного обучения анализирует признаки лица и речи человека из видеоряда, применимое для исследования восьми различных индивидуально-психологических характеристик в задаче цифрового онлайн-профайлинга. Пользователю предлагается использовать разработанную библиотеку Expert для получения новых характеристик путем применения и комбинации существующих ML-модулей для решения широкого класса задач.

Ключевые слова: машинное обучение; open source; мультимодальный анализ; вербальные и невербальные признаки

Для цитирования: Смирнов И.З., Медведев А. А., Самигулин Т.Р., Комарова А.А., Тимощук-Бондарь А.И., Синько М.В., Лаушкина А.А., Гофман О.О., Басов О.О. Разработка методов машинного обучения и библиотеки интерпретируемого предсказательного моделирования поведения человека в процессе его онлайн-профайлинга // Научный результат. Информационные технологии. - Т.8, №4, 2023. - С. 59-69. DOI: 10.18413/25181092-2023-8-4-0-6

РАЗРАБОТКА МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ И БИБЛИОТЕКИ ИНТЕРПРЕТИРУЕМОГО ПРЕДСКАЗАТЕЛЬНОГО МОДЕЛИРОВАНИЯ ПОВЕДЕНИЯ ЧЕЛОВЕКА В ПРОЦЕССЕ ЕГО ОНЛАЙН-ПРОФАЙЛИНГА

DEVELOPMENT OF MACHINE LEARNING METHODS AND A LIBRARY OF INTERPRETABLE PREDICTIVE MODELING OF HUMAN BEHAVIOR DURING HIS ONLINE PROFILING

ITMO University, 49 Kronverkskiy prospekt, St. Petersburg, 197101, Russia

e-mail: oobasov@mail.ru

Abstract

The study of individual psychological characteristics of people is important in the areas of education, management and administration, ensuring the safety of individuals and communities. There are various tools for solving the problem of determining and analyzing personal

Smirnov I.Z. Medvedev A. A. Samigulin T.R. Komarova A.A. Timoshchuk-Bondar A.I. Sinko M.V., Laushkina A.A. Goffman O.O., Basov O.O.

Смирнов И.З., Медведев А. А., Самигулин Т.Р., Комарова А.А., Тимощук-Бондаръ А.И., Синъко М.В., Лаушкина А.А., Гофман О.О., Басов О.О. Разработка методов машинного обучения и библиотеки интерпретируемого предсказательного моделирования поведения человека в процессе его онлайн-профайлинга // Научный результат. Информационные технологии. - Т.8, №4, 2023

characteristics, but they have a number of limitations. We present a solution that extracts and uses machine learning to analyze human facial and speech features from video footage, applicable to the study of eight different individual psychological characteristics in an online digital profiling task. The user is invited to use the developed Expert library to obtain new characteristics by applying and combining existing ML modules to solve a wide class of problems. Keywords: machine learning; open source; multimodal analysis; verbal and non-verbal signs For citation: Smirnov I.Z., Medvedev A.A., Samigulin T.R., Komarova A.A., Timoshchuk-Bondar A.I., Sinko M.V., Laushkina A.A., Goffman O.O., Basov O.O. Development of machine learning methods and a library of interpretable predictive modeling of human behavior in the process of online profiling // Research result. Information technologies. - Т. 8, №4, 2023. -P. 59-69. DOI: 10.18413/2518-1092-2023-8-4-0-6

ВВЕДЕНИЕ

Вынужденный переход большинства коммуникаций в онлайн, связанный с пандемией короновируса, и устойчивое продолжение (из-за ощутимого удобства) коммуникативного взаимодействие посредством технических средств определили переход в цифровое пространство и кадрового профайлинга. Между тем, не смотря на наблюдаемый рост объёма и интенсивности использования технических средств межличностной коммуникации, возможности анализа невербальных сигналов оказываются ограниченными, что существенно снижает эффективность онлайн-профайлинга. Это происходит как в силу объективных причин, снижающих качество передаваемой информации (потеря и искажение данных при передаче по инфокоммуникационным каналам), так и по причине высокой степени неопределенности относительно её невербального компонента (нечеткая картинка, ограниченный сектор обзора камеры, посторонние шумы в акустическом канале, искажения в условиях низкоскоростных каналов связи). Как следствие, преодоление этой проблемы требует развития интеллектуальных методов восполнения невербальной составляющей поведения человека в ходе онлайн-профайлинга, исходя из объективных материалов (данных, получаемым по невербальным каналам коммуникации и характеризующих текущие состояния собеседников и (или) результатах моделирования самого такого взаимодействия), и создания интерпретируемых предсказательных моделей такого поведения.

Это позволит, в свою очередь, создавать инструменты оперативной психодиагностики (определение психотипа человека) и определения его искренности (неинвазивная детекция лжи), являющиеся важными в таких сферах как психология, медицина, менеджмент, образование и коммуникации [1, 2]. Например, для мониторинга и оценки психоэмоционального статуса обучающихся и сотрудников и их компетенций, предупреждения развития посттравматического стрессового расстройства, определения психологического и социального благополучия людей [36]. Предметом исследования в подобных областях чаще всего выступают личностные и профессиональные характеристики человека [7]. Например, агрессия может влиять на стиль управления, что, в конечном счете, сказывается на уровне здоровья сотрудников и текучести кадров [8]. Коммуникационные характеристики позволяют решать социально значимые и личностно-ориентированные задачи [9]. Такая характеристика как конгруэнтность подразумевает согласованность внутреннего состояния самого человека и отсутствие дискомфорта у оппонента, в то время как коммуникативная уклончивость, проявляемая в том числе через иронию, сарказм и ложь, имеет обратный эффект [10]. В критических ситуациях уверенность играет большую роль в процессе принятия решений [11]. Уверенность представляется как оценка личностного опыта и знаний, направленных на достижение высокого результата в деятельности [12]. Важно при этом учитывать наличие у индивида когнитивных искажений, оказывающих влияние на его поведение в ситуациях выбора. Когнитивные искажения относятся к систематическим ошибкам в мышлении и восприятии человеком реальности. Они могут влиять на принятие решений, формирование убеждений и возникать из-за предубеждений, эмоциональных переживаний и недостатка информации. Психологические эффекты, ограничивающие рациональное поведение индивида,

Смирнов И.З., Медведев А. А., Самигулин Т.Р., Комарова А.А., Тимощук-Бондарь А.И., Синько М.В., Лаушкина А.А., Гофман О.О., Басов О.О. Разработка методов машинного обучения и библиотеки интерпретируемого предсказательного моделирования поведения человека в процессе его онлайн-профайлинга // Научный результат. Информационные технологии. - Т.8, №4, 2023

существенно влияют на психологический климат в коллективе и экономические показатели [13]. Таким образом, указанные характеристики являются качественными критериями достижения результатов в профессиональной и личностной деятельности человека. Следовательно, существует потребность в эффективных и комплексных решениях, позволяющих извлекать и анализировать признаки для оценки указанных характеристик.

Мы представляем методы и собственную библиотеку, которые позволяют анализировать указанные характеристики каждого человека, присутствующего на видео. Отличительной особенностью библиотеки являются уже встроенные механизмы предобработки и интерпретируемость признаков, извлекаемых из многомодальных данных. Это обеспечивает низкий порог входа для работы с данной библиотекой. Кроме этого, библиотека содержит модули для анализа восьми различных индивидуально-психологических характеристик человека в задаче оценки состоятельности экспертного мнения. Состоятельность экспертного мнения представляет собой желательную оценку суждений на основе мнения человека, обладающего специальными знаниями, с учетом его индивидуально-психологических особенностей. В данной статье мы описываем структуру разработанной библиотеки и её модулей. В разделе 1 дается обзор инструментов и библиотек, направленных на изучение индивидуально-психологических особенностей человека. В разделе 2 представлена подробная информация о реализованных модулях предлагаемой библиотеки и используемых в них методах машинного обучения. Мы завершаем статью изложением обсуждения и основных выводов.

1 СОСТОЯНИЕ ПРОБЛЕМЫ

Традиционно алгоритмы машинного обучения работали только с одной модальностью, однако при работе с данными, которые содержат информацию разных модальностей, этого может быть недостаточно. Примером таких данных являются видеозаписи, когда возможен анализ видео, аудио каналов и текста. Так, например, в работе использование вербальных признаков позволило снизить количество ложных классификаций в решении задачи детекции агрессивной речи в сравнении с решением, учитывающим только текст [14]. Применение мультимодального подхода требует использования различных техник и моделей. В предлагаемом нами подходе используются сверточные нейронные сети, сети-трансформеры, имеющие ряд преимуществ в задаче мультимодального анализа. К преимуществам относятся инвариантность к сдвигам и искажениям, механизм внимания, учитывающий взаимосвязи между различными элементами входных данных, гибкая структура и возможность параллельной обработки данных, а также универсальность применения в различных задачах [15].

Для анализа вербальных и невербальных характеристик были созданы различные библиотеки и фреймворки. Одним из таких инструментов является EmoPy, которая решает задачу классификации человеческих эмоций по изображению их лиц [16]. Также существует фреймворк MediaPipe, который позволяет детектировать лица, извлекать лицевые ориентиры и ключевые точки тела и пальцев рук, что позволяет описывать мимические изменения и жесты человека [17]. Для предобработки текстовых данных разработана библиотека TextBlob, позволяющая проводить анализ тональности, классификацию и разбор морфем [18]. H-MMER является примером мультимодального фреймворка для распознавания эмоций по нескольких характеристикам: аудио, видео, текст, язык тела [19]. Большинство решений специализированы на выделении частных характеристик, так, например, Detoxify позволяет классифицировать токсичные высказывания [20]. Для анализа аудиоканала можно выделить набор инструментов Praat [21]. Praat позволяет получить широкий набор речевых характеристик, а также решать более высокоуровневые задачи, такие как распознавание эмоций, описание коммуникативных способностей, речевые заболевания.

Перечисленные инструменты имеют ряд преимуществ в решении узконаправленных задач, однако недостаточная обобщающая способность, проблемы совместимости и высокий порог входа затрудняют работу. По этой причине, набор инструментов, предоставляемый библиотекой Expert, позволяет использовать характеристики, получаемые при анализе видеозаписи, в широком спектре задач.

Смирнов И.З., Медведев А. А., Самигулин Т.Р., Комарова А.А., Тимощук-Бондаръ А.И., Синько М.В., Лаушкина А.А., Гофман О.О., Басов О.О. Разработка методов машинного обучения и библиотеки интерпретируемого предсказательного моделирования поведения человека в процессе его онлайн-профайлинга // Научный результат. Информационные технологии. - Т.8, №4, 2023

2 МЕТОДОЛОГИЯ

Библиотека Expert предназначена для комплексного анализа видеозаписи по восьми характеристикам, позволяющим оценить профессиональные качества человека. Библиотека включает в себя инструментарий для предобработки входных данных и извлечения частных характеристик, представленные на рисунке 1. Модули извлечения характеристик независимы друг от друга, что позволяет применять их как в общем пайплайне, так и изолированно друг от друга.

Модули предобработки позволяют разделить видеозапись на независимые фрагменты, содержащие уникальных спикеров. Это происходит за счет процесса диаризации и сопоставления сегментов аудиоканала с кадрами, полученными на этапе анализа видеоканала, что позволяет анализировать выступление каждого участника по отдельности. Далее представлено описание каждого из модулей библиотеки Expert.

ИЗВЛЕКАЕМЫЕ МОДАЛЬНОСТИ

ВИДЕО

РЕЧЬ ->

транскрибирован ие речи

ТЕКСТ

БИБЛИОТЕКА EXPERT

МОДУЛИ ПРЕДОБРАБОТКИ

Диаризация

Транскрибация

речи

Извлечение области лица

Извлечение лицевых ориентиров

Кластеризация спикеров

МОДУЛИ ИЗВЛЕЧЕНИЯ ХАРАКТЕРИСТИК

МОДУЛЬ Уверенность

модуль

Агрессия

МОДУЛЬ Конгруэнтность

МОДУЛЬ

Противоречивость

к: ру/еп

к: ру/еп

к: ру/еп

МОДУЛЬ Когнитивные искажения

М лЦУЛ Ь язы к; РУ/еп

Уклончивость в ответах

М лЦУЛ Ь язы к; РУ'еп

Оскорбления и апелляция к личности

М ,/ЦУЛ Ь язы к: ру/еп

Релевантность использования терминов

Рис. 1. Схема структуры библиотеки Expert Fig. 1. Expert library structure diagram

2.1 МОДУЛЬ ОПРЕДЕЛЕНИЯ УВЕРЕННОСТИ

Модуль определения уверенности предназначен для оценки уровня уверенности говорящего. Модуль позволяет извлекать из видео последовательности кадров и аудио фреймов длительностью 10 секунд. Работа модуля состоит из следующих этапов:

1) Анализируется мультимодальный поток видео с помощью нейронной сети-трансформер

[22].

2) Извлекаются векторы мимики лица с помощью сверточной сети BlazeFace с модулем Face Mesh [23].

3) Путем обработки аудиоканала формируется вектор аудиопризнаков.

4) Аудио и видео признаки объединяются по размерности признаков, формируя поток мультимодальных признаков.

5) К этому потоку добавляется обучаемый вектор, передаваемый в сеть-трансформер.

На выходе сети формируется вектор, содержащий информацию обо всех элементах последовательности. Модуль использует полученный вектор для нормализованной оценки уровня уверенности спикера в каждый момент выступления, обобщая опыт вербальных и невербальных характеристик.

Смирнов И.З., Медведев А. А., Самигулин Т.Р., Комарова А.А., Тимощук-Бондарь А.И., Синько М.В., Лаушкина А.А., Гофман О.О., Басов О.О. Разработка методов машинного обучения и библиотеки интерпретируемого предсказательного моделирования поведения человека в процессе его онлайн-профайлинга // Научный результат. Информационные технологии. - Т.8, №4, 2023

2.2 МОДУЛЬ ОПРЕДЕЛЕНИЯ АГРЕССИИ

Модуль определения агрессии предназначен для оценки уровня агрессии говорящего. Агрессия определяется на основе двух частных показателей: внутренней и внешней агрессии. Внутренняя агрессия - разновидность агрессивного поведения, при котором враждебные действия по каким-либо причинам не могут быть обращены на раздражающий объект и направляются человеком на самого себя, в то время как внешняя агрессия направлена на окружающих.

Детекция агрессии осуществляется исключительно на основе текстовых данных, то есть вербальных признаков. Согласно проведенным исследованиям, невербальные признаки могут указывать на наличие агрессии у человека, даже если вербальные признаки отсутствуют [24]. Модуль направлен на выделение признаков, на основе которых возможно судить о наличии взаимосвязи между невербальными признаками и уровнем агрессии (рис. 2).

МОДУЛЬ АГРЕССИЯ

ИЗВЛЕКАЕМЫЕ МОДАЛЬНОСТИ

р

ВИДЕО

РЕЧЬ

ТЕКСТ

-> Агрессия

Бнутреняя агрессия

Внешняя

агрессия

ИЗВЛЕКАЕМЫЕ ПРИЗНАКИ ВЕРБАЛЬНЫЕ НЕВЕРБАЛЬНЫЕ

1 Повелительное наклонение Громкость голоса !

Обесценивание Изменение громкости голоса!

Темп речи

Токсичные высказывания

Подвижность нижней

части лицэ

: Угрозы (присутствие угроз) Повороты головы |

Закрывание лица

Покусывание губ

: Угрозы (присутствие угроз) Резкие движения

1 Обесценивание

Рис. 2. Перечень извлекаемых признаков модуля агрессии Fig. 2. List of extracted features of the aggression module

Для определения оскорблений и угроз были обучены две модели на основе архитектуры нейронной сети BERT [25]. Модели дообучались для детектирования угроз и оскорблений. Чтобы выявлять обесценивания, к словам применялся стеммер для выделения их основы, а затем проверялось наличие ласкательно-уничижительных суффиксов.

Модуль агрессии способен определять агрессию у человека по тексту, который он произносит, а также выделять дополнительные невербальные характеристики, которые могут говорить об агрессии человека.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2.3 МОДУЛЬ ОПРЕДЕЛЕНИЯ КОНГРУЭНТНОСТИ

Модуль определения конгруэнтности предназначен для оценки уровня согласованности эмоций (злость, нейтральное состояние, радость) спикера по аудио-, видео- и текстовому каналам информации. Модуль определения конгруэнтности принимает на вход видео выступления человека, из которого извлекаются:

1) Последовательности кадров для детектирования координат лица человека с помощью сверточной нейронной сети BlazeFace и дальнейшей векторизацией и классификацией сверточной нейронной сетью DAN [26].

2) Аудио фрагменты, преобразованные в MFCC, для предсказания эмоций аудио канала с помощью сверточной нейронной сети [27].

3) Транскрибированный текст речи, для дальнейшей классификации эмоций при помощи модели-трансформера BERT [25].

Смирнов И.З., Медведев А. А., Самигулин Т.Р., Комарова А.А., Тимощук-Бондаръ А.И., Синъко М.В., Лаушкина А.А., Гофман О.О., Басов О.О. Разработка методов машинного обучения и библиотеки интерпретируемого предсказательного моделирования поведения человека в процессе его онлайн-профайлинга // Научный результат. Информационные технологии. - Т.8, №4, 2023

Полученные значения эмоциональных состояний трех каналов представляются в виде матрицы размером 3*3, внутри которой рассчитывается стандартное отклонение для отдельных эмоций и отдельных каналов.

Минимальная разница между средним значением эмоций и текущим свидетельствует о согласованности эмоций по каналам, а высокое - о рассогласованности между эмоциональными состояниями человека.

2.4 МОДУЛЬ ОПРЕДЕЛЕНИЯ НЕСОГЛАСОВАННОСТИ ВЫСКАЗЫВАНИЙ

Модуль определения несогласованности высказываний позволяет оценить релевантность текста речи человека эталонному высказыванию. В основе модуля лежит модель BERT, обученная на решение задачи Natural Language Inference (оценки логических взаимосвязей) [28]. Модель получает на вход пару высказываний и возвращает один из трех классов:

1) Следствие.

2) Нейтрально.

3) Противоречие.

При анализе видеозаписи выступления на вход поступает набор слов, полученных на этапе транскрибации (модули предобработки), из которых формируются высказывания и текст, необходимый для оценки противоречивости. Данный модуль может работать независимо от предобработки, в таком случае требуется определить набор высказываний для сравнения.

2.5 МОДУЛЬ ВЫЯВЛЕНИЯ КОГНИТИВНЫХ ИСКАЖЕНИЙ

Алгоритмы выявления когнитивных искажений основываются как на классических методах машинного обучения, так и на глубоких лингвистических моделях, позволяющих производить дихотомическое и мультиклассовое разделение исходных выражений на категории, содержащие или нет признаки иррационального мышления [29, 30, 31].

Библиотека Expert позволяет разработчикам детектировать 6 категорий когнитивных искажений в тексте речи человека [32]:

1) персонализация;

2) эмоциональное мышление;

3) чрезмерное обобщение;

4) навешивание ярлыков;

5) долженствование;

6) катастрофизация.

Для классификации когнитивных искажений используется архитектура BERT [25]. Модель была обучена на текстовом корпусе из 40 тысяч предложений на русском языке, содержащих и не содержащих когнитивные искажения. Модуль позволяет извлекать фразы из текста речи человека и получать вероятностную оценку наличия или отсутствия признаков искажений для каждого анализируемого интервала.

Функционал модуля позволяет оценить вероятность возникновения и склонность к проявлению отдельных категорий когнитивных искажений.

2.6МОДУЛЬ УКЛОНЧИВОСТИ

Модуль уклончивости предназначен для определения количества уклончивых ответов выбранного участника диалога. Он работает в 3 этапа: в первую очередь из контекста выделяется ответ на вопрос. Контекстно-ориентированные вопросно-ответные модели, помимо позиций начала и конца ответа, возвращают вероятность того, что заключенный между ними текст является ответом на вопрос. На втором этапе определяется метка ответа по токенизированным текстам вопроса и ответа. Далее по значению вероятности и полученной метке ответам присваивается класс -уклончивый/не уклончивый.

Смирнов И.З., Медведев А. А., Самигулин Т.Р., Комарова А.А., Тимощук-Бондарь А.И., Синько М.В., Лаушкина А.А., Гофман О.О., Басов О.О. Разработка методов машинного обучения и библиотеки интерпретируемого предсказательного моделирования поведения человека в процессе его онлайн-профайлинга // Научный результат. Информационные технологии. - Т.8, №4, 2023

Для выделения вопроса из контекста и определения меток ответов использовались языковые модели BERT, дообученные для решения поставленных задач [25]. В качестве модели предсказания классов уклончивости/не уклончивости была выбрана модель Random Forest [33].

В работе использовалось несколько датасетов, состоящих из примеров пар вопросов и ответов с соответствующими метками. Первый датасет был собран вручную, второй получен из работы [34].

Модуль получает на вход транскрибацию диалога, для каждого спикера выделяется список адресованных ему вопросов и соответствующих ответов. Затем данные передаются в модели, где определяются уклончивые ответы. Для каждого спикера возвращается количество прямых, нейтральных и уклончивых ответов, где метка нейтрального класса присваивается ответам, для которых невозможно определить класс.

Предлагаемый метод, основанный на использовании сетей-трансформеров, показывает хорошие результаты в определении уклончивости ответов благодаря способности моделей учитывать контекст.

2.7 МОДУЛЬ ВЫДЕЛЕНИЯ СПЕЦИФИЧЕСКИХ ТЕРМИНОВ

Модуль предназначен для выделения специфических профессиональных терминов из текста и реализован с помощью словарного подхода. Для составления словарей из открытых источников были собраны и приведены к нормальной словоформе профессиональные термины в различных областях. Также с помощью частотных словарей были отфильтрованы общеупотребимые слова, которые не являются специфическими терминами. В итоге были собраны словари для английского языка, состоящие из 660 тысяч терминов, и для русского языка из 420 тысяч терминов.

Модуль приводит исходный текст к нормальной словоформе и генерирует n-граммы. Далее с помощью пересечения множества токенов и n-грамм со словарями выделяются специфические термины в тексте.

2.8 МОДУЛЬ ОПРЕДЕЛЕНИЯ ОСКОРБЛЕНИЙ И САРКАЗМА

Модуль определения оскорблений и сарказма предназначен для детектирования предложений, содержащих оскорбления или сарказм.

На вход модуль принимает текст или транскрибированную речь выступающего. Производится предобработка текста, после чего текст токенезируется на n-граммах длины от 1 до 13 включительно, что позволяет сохранять контекст. В качестве предсказательной модели была выбрана логистическая регрессия.

Для данной задачи был собран датасет из 30 тысяч предложений, включающих в себя 15 тысяч предложений класса "отсутствие сарказма и оскорблений", 8 тысяч предложений, содержащих оскорбления, и 7 тысяч предложений, содержащих сарказм.

Предлагаемый подход сочетает в себе гибкость, интерпретируемость и способность учитывать контекст, что делает его эффективным инструментом для решения данной задачи.

ВЫВОДЫ

В рамках данной работы были разработаны методы машинного обучения и библиотека интерпретируемого предсказательного моделирования поведения человека в процессе его онлайн-профайлинга.

В качестве дальнейшей работы предполагается:

1) провести ряд экспериментов для выявления агрессии на основании невербальных признаков, а также внедрить определение агрессии по невербальным признакам в библиотеку;

2) расширить число анализируемых эмоций в задаче определения конгруэнтности, а также увеличить точность детектирования расхождения эмоций по различным каналам.

Смирнов И.З., Медведев А. А., Самигулин Т.Р., Комарова А.А., Тимощук-Бондаръ А.И., Синъко М.В., Лаушкина А.А., Гофман О.О., Басов О.О. Разработка методов машинного обучения и библиотеки интерпретируемого предсказательного моделирования поведения человека в процессе его онлайн-профайлинга // Научный результат. Информационные технологии. - Т.8, №4, 2023

БЛАГОДАРНОСТИ

Исследование выполнено при финансовой поддержке Российского научного фонда, соглашение № 22-21-00604.

ЗАКЛЮЧЕНИЕ

Разработанный инструментарий позволяет получать восемь высокоуровневых независимых характеристик и проводить предобработку видеозаписи выступлений, что предоставляет возможность получать данные для исследований, связанных с изучением вербальных и невербальных характеристик, анализом контента в рамках одной библиотеки.

Учитывая данные особенности, после выпуска с открытым исходным кодом, нашим основным направлением будет поддержка сообщества, включая стороннюю разработку в области динамического анализа видеоконтента и увеличение количества поддерживаемых языков, а также реализация в виде пользовательского интерфейса, который обеспечит низкий порог входа. Кроме того, мы продолжим совершенствовать инструментарий, чтобы упростить пользователям оценку производительности и качества.

Список литературы

1. Goupil L., Ponsot E., Richardson D. et al. Listeners' perceptions of the certainty and honesty of a speaker are associated with a common prosodic signature // Nat Commun. 2021. - №12.

2. Teixeira J. P., Oliveira C., Lopes C. Vocal Acoustic Analysis - Jitter, Shimmer and HNR Parameters // Procedia Technology. - 2013. - V. 9. - P. 1112-1122.

3. Kirillov S., Lukyanov D. Evaluation of psycho-emotional status of robotic system operator in the Arctic // IOP Conference Series: Earth and Environmental Science. - 2019. - № 302.

4. Rammstedt B., Danner D., Lechner C. Personality, competencies, and life outcomes: results from the German PIAAC longitudinal study // Large-scale Assess Educ 5. - 2017. - №2.

5. Anbesaw T., Zenebe Y., Asmamaw A., et. al. Post-traumatic stress disorder and associated factors among people who experienced traumatic events in Dessie town, Ethiopia, 2022: A community based study // Frontiers in Psychiatry. 2022. - №13.

6. Reeve D. Psycho-Emotional Disablism: The Missing Link? // Routledge Handbook of Disability StudiesEdition: 1stChapter: 7. 2012.

7. Le Duc T., Huynh S., Vu T., et. al. Personality Traits and Aggressive Behavior in Vietnamese Adolescents // Psychology Research and Behavior Management. - 2023. - №16. - Р. 1987-2003.

8. Cheng S., Dawson J., Thamby J., et al. How do aggression source, employee characteristics and organisational response impact the relationship between workplace aggression and work and health outcomes in healthcare employees? A cross-sectional analysis of the National Health Service staff survey in England // BMJ Open. 2020. - №10(8).

9. Соколова М.С. Адаптация к собеседнику как составляющая позитивной коммуникации: конститутивные признаки // Актуальные проблемы филологии и педагогической лингвистики. 2017. -№2(26).

10. Данилин М. В. Методика обучения аудированию в условиях мультимодальной коммуникации с использованием аутентичных аудиовидеоматериалов (английский язык, среднее общее образование): дис. канд. пед. наук: 5.8.2. - М., 2021. - 173 с.

11. Зобков В.А. Уверенность человека в себе в ситуациях принятия решения // Вестник Костромского государственного университета. Серия: Педагогика. Психология. Социокинетика. 2018. - №2.

12. Ромек В.Г. Уверенность в себе как социально-психологическая характеристика личности: автореф. дис. канд. соц. псих. наук: 19.00.05. - Ростов-на-Дону, 1997. - 12 с.

13. Кашапова Э.Р., Рыжкова М. В. Когнитивные искажения и их влияние на поведение индивида // Вестн. Том. гос. ун-та. Экономика. 2015. -№2(30).

14. Aneri R., Sonali J. Emotion Based Hate Speech Detection using Multimodal Learning // arXiv Computation and Language. 2022.

15. Jianyuan G., Kai H., Han W., et al. CMT: Convolutional Neural Networks Meet Vision Transformers // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2022. - Р. 1217512185.

16. EmoPy: a machine learning toolkit for emotional expression // thoughtworks URL: https://www.thoughtworks.com/ (дата обращения: 13.07.2023).

Смирнов И.З., Медведев А. А., Самигулин Т.Р., Комарова А.А., Тимощук-Бондарь А.И., Синько М.В., Лаушкина А.А., Гофман О.О., Басов О.О. Разработка методов машинного обучения и библиотеки интерпретируемого предсказательного моделирования поведения человека в процессе его онлайн-профайлинга // Научный результат. Информационные технологии. - Т.8, №4, 2023

17. Camillo L., Jiuqiang T., Hadon N., et al. EmoPy: a machine learning toolkit for emotional expression // arXiv Distributed, Parallel, and Cluster Computing. 2019.

18. TextBlob: Simplified Text Processing // TextBlob URL: https://textblob.readthedocs.io/en/dev/ (дата обращения: 13.07.2023).

19. Razzaq M.A., Hussain J., Bang J., et. al. A Hybrid Multimodal Emotion Recognition Framework for UX Evaluation Using Generalized Mixture Functions. Sensors 23. - 2023. - №23(9).

20. Detoxify // github URL: https://github.com/unitaryai/detoxify (дата обращения: 13.07.2023).

21. Boersma P., Van Heuven V. Speak and unSpeak with PRAAT // Glot International. - V. 5. - №9/10. -Р. 341-347.

22. Gedas B., Heng W., Lorenzo T. Is Space-Time Attention All You Need for Video Understanding? // arXiv Computer Vision and Pattern Recognition. 2021.

23. Grishchenko I., Ablavatski A., Kartynnik Y., et. al. Attention Mesh: High-fidelity Face Mesh Prediction in Real-time // arXiv Computer Vision and Pattern Recognition. 2022.

24. Samigulin T.R., Smirnov I.Z., Laushkina A.A. Determination of markers of aggressive human behavior based on analysis of audio and text channels // Scientific result. Information Technology. - 2022. - T.7. - No. 2. -pp. 56-61.

25. Jacob D., Ming-Wei C., Kenton L., Kristina T. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // arXiv preprint arXiv:1810.04805. 2019.

26. Wen Z., Lin W., Wang T., Xu G. Distract Your Attention: Multi-Head Cross Attention Network for Facial Expression Recognition // Biomimetics 8. 2023. - №2. - P. 199.

27. Peng Z., Lu Y., Pan S., Liu Y. Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention // ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - 2021. - P. 3020-3024.

28. Amit G., Noura Al M., Steven B. ExBERT: An External Knowledge Enhanced BERT for Natural Language Inference // arXiv Computation and Language. 2021.

29. Shickel B., Scott S., Martin H., at. al. Automatic Detection and Classification of Cognitive Distortions in Mental Health Text // IEEE 20th International Conference on Bioinformatics and Bioengineering (BIBE). 2019.

30. Xuejiao Z., Chunyan M., Zhenchang X. Identifying Cognitive Distortion by Convolutional Neural Network based Text Classification // International Journal of Information Technology. 2017. - №23.

31. Simms T., Ramstedt C., Rich M., et.al. Detecting Cognitive Distortions Through Machine Learning Text Analytics // 2017 IEEE International Conference on Healthcare Informatics (ICHI). - 2017. - P. 508-512.

32. Beck A. Cognitive therapy and the emotional disorders // New York: New American Library. 1979. -P. 374.

33. Breiman L. Random Forests // Machine Learning. 2001. - №45. - P. 5-32.

34. Ferracane E., Durrett G., Li J., et. al. Did they answer? Subjective acts and intents in conversational discourse // Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2021. - P. 1626-1644.

References

1. Goupil L., Ponsot E., Richardson D. et al. Listeners' perceptions of the certainty and honesty of a speaker are associated with a common prosodic signature // Nat Commun. 2021. - №12.

2. Teixeira J. P., Oliveira C., Lopes C. Vocal Acoustic Analysis - Jitter, Shimmer and HNR Parameters // Procedia Technology. - 2013. - V. 9. - P. 1112-1122.

3. Kirillov S., Lukyanov D. Evaluation of psycho-emotional status of robotic system operator in the Arctic // IOP Conference Series: Earth and Environmental Science. - 2019. - № 302.

4. Rammstedt B., Danner D., Lechner C. Personality, competencies, and life outcomes: results from the German PIAAC longitudinal study // Large-scale Assess Educ 5. - 2017. - №2.

5. Anbesaw T., Zenebe Y., Asmamaw A., et. al. Post-traumatic stress disorder and associated factors among people who experienced traumatic events in Dessie town, Ethiopia, 2022: A community based study // Frontiers in Psychiatry. 2022. №13.

6. Reeve D. Psycho-Emotional Disablism: The Missing Link? // Routledge Handbook of Disability StudiesEdition: 1stChapter: 7. 2012.

7. Le Duc T., Huynh S., Vu T., et. al. Personality Traits and Aggressive Behavior in Vietnamese Adolescents // Psychology Research and Behavior Management. - 2023. - №16. - Р. 1987-2003.

8. Cheng S., Dawson J., Thamby J., et al. How do aggression source, employee characteristics and organisational response impact the relationship between workplace aggression and work and health outcomes in

Смирнов И.З., Медведев А. А., Самигулин Т.Р., Комарова А.А., Тимощук-Бондаръ А.И., Синько М.В., Лаушкина А.А., Гофман О.О., Басов О.О. Разработка методов машинного обучения и библиотеки интерпретируемого предсказательного моделирования поведения человека в процессе его онлайн-профайлинга // Научный результат. Информационные технологии. - Т.8, №4, 2023

healthcare employees? A cross-sectional analysis of the National Health Service staff survey in England // BMJ Open. 2020. - №10(8).

9. Sokolova M.S. Adaptation to the interlocutor as a component of positive communication: constitutive features // Current problems of philology and pedagogical linguistics. 2017. No. 2 (26).

10. Danilin M.V. Methods of teaching listening in conditions of multimodal communication using authentic audio-video materials (English, secondary general education): dis. Ph.D. ped. Sciences: 5.8.2. - M., 2021. - 173 p.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

11. Zobkov V. A. A person's self-confidence in decision-making situations // Bulletin of Kostroma State University. Series: Pedagogy. Psychology. Sociokinetics. - 2018. - No. 2.

12. Romek V. G. Self-confidence as a socio-psychological characteristic of personality: abstract. dis. Ph.D. social psycho. Sciences: 19.00.05. - Rostov-on-Don, 1997. - 12 p.

13. Kashapova E. R., Ryzhkova M. V. Cognitive distortions and their influence on individual behavior // Vestn. Volume. state un-ta. Economy. - 2015. - No. 2 (30).

14. Aneri R., Sonali J. Emotion Based Hate Speech Detection using Multimodal Learning // arXiv Computation and Language. 2022.

15. Jianyuan G., Kai H., Han W., et al. CMT: Convolutional Neural Networks Meet Vision Transformers // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2022. - P. 1217512185.

16. EmoPy: a machine learning toolkit for emotional expression // thoughtworks URL: https://www.thoughtworks.com/ (data access: 13.07.2023).

17. Camillo L., Jiuqiang T., Hadon N., et al. EmoPy: a machine learning toolkit for emotional expression // arXiv Distributed, Parallel, and Cluster Computing. 2019.

18. TextBlob: Simplified Text Processing // TextBlob URL: https://textblob.readthedocs.io/en/dev/ (data access: 13.07.2023).

19. Razzaq M.A., Hussain J., Bang J., et. al. A Hybrid Multimodal Emotion Recognition Framework for UX Evaluation Using Generalized Mixture Functions. Sensors 23. 2023. №23(9).

20. Detoxify // github URL: https://github.com/unitaryai/detoxify (data access: 13.07.2023).

21. Boersma P., Van Heuven V. Speak and unSpeak with PRAAT // Glot International. - V. 5. - №9/10. -P. 341-347.

22. Gedas B., Heng W., Lorenzo T. Is Space-Time Attention All You Need for Video Understanding? // arXiv Computer Vision and Pattern Recognition. 2021.

23. Grishchenko I., Ablavatski A., Kartynnik Y., et. al. Attention Mesh: High-fidelity Face Mesh Prediction in Real-time // arXiv Computer Vision and Pattern Recognition. 2022.

24. Samigulin T.R., Smirnov I.Z., Laushkina A.A. Determination of markers of aggressive human behavior based on analysis of audio and text channels // Scientific result. Information Technology. - 2022. - T.7. - No. 2. -pp. 56-61.

25. Jacob D., Ming-Wei C., Kenton L., Kristina T. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // arXiv preprint arXiv:1810.04805. 2019.

26. Wen Z., Lin W., Wang T., Xu G. Distract Your Attention: Multi-Head Cross Attention Network for Facial Expression Recognition // Biomimetics 8. 2023. - №2. - P. 199.

27. Peng Z., Lu Y., Pan S., Liu Y. Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention // ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - 2021. - P. 3020-3024.

28. Amit G., Noura Al M., Steven B. ExBERT: An External Knowledge Enhanced BERT for Natural Language Inference // arXiv Computation and Language. 2021.

29. Shickel B., Scott S., Martin H., at. al. Automatic Detection and Classification of Cognitive Distortions in Mental Health Text // IEEE 20th International Conference on Bioinformatics and Bioengineering (BIBE). 2019.

30. Xuejiao Z., Chunyan M., Zhenchang X. Identifying Cognitive Distortion by Convolutional Neural Network based Text Classification // International Journal of Information Technology. 2017. - №23.

31. Simms T., Ramstedt C., Rich M., et.al. Detecting Cognitive Distortions Through Machine Learning Text Analytics // 2017 IEEE International Conference on Healthcare Informatics (ICHI). - 2017. - P. 508-512.

32. Beck A. Cognitive therapy and the emotional disorders // New York: New American Library. 1979. -P. 374.

33. Breiman L. Random Forests // Machine Learning. 2001. - №45. - P. 5-32.

34. Ferracane E., Durrett G., Li J., et. al. Did they answer? Subjective acts and intents in conversational discourse // Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2021. - P. 1626-1644.

Смирнов И.З., Медведев А. А., Самигулин Т.Р., Комарова А.А., Тимощук-Бондарь А.И., Синько М.В., Лаушкина А.А., Гофман О.О., Басов О.О. Разработка методов машинного обучения и библиотеки интерпретируемого предсказательного моделирования поведения человека в процессе его онлайн-профайлинга // Научный результат. Информационные технологии. - Т.8, №4, 2023

Смирнов Иван Захарович, аспирант, инженер Национального центра когнитивных разработок Медведев Анатолий Андреевич, аспирант, инженер Национального центра когнитивных разработок Самигулин Тимур Русланович, аспирант, инженер Национального центра когнитивных разработок Комарова Алёна Алексеевна, студент 2-го курса магистратуры Тимощук-Бондарь Артём Игоревич, студент 4-го курса бакалавриата

Синько Михаил Витальевич, аспирант, инженер Национального центра когнитивных разработок Лаушкина Анастасия Александровна, аспирант, инженер Национального центра когнитивных разработок Гофман Ольга Олеговна, кандидат психологических наук, доцент, старший научный сотрудник Национального центра когнитивных разработок

Басов Олег Олегович, доктор технических наук, доцент, профессор факультета цифровой трансформации

Smirnov Ivan Zakharovich, graduate student, engineer of the National Center for Cognitive Development Medvedev Anatoly Andreevich, graduate student, engineer at the National Center for Cognitive Development Samigulin Timur Ruslanovich, graduate student, engineer at the National Center for Cognitive Development Komarova Alena Alekseevna, 2nd year master's student Timoshchuk-Bondar Artyom Igorevich, 4th year undergraduate student

Sinko Mikhail Vitalievich, graduate student, engineer at the National Center for Cognitive Development Laushkina Anastasia Alexandrovna, graduate student, engineer of the National Center for Cognitive Development Goffman Olga Olegovna, Candidate of Psychological Sciences, Associate Professor, Senior Researcher at the National Center for Cognitive Research

Basov Oleg Olegovich, Doctor of Technical Sciences, Associate Professor, Professor of the Faculty of Digital Transformation

i Надоели баннеры? Вы всегда можете отключить рекламу.