Автоматическое определение основных маркеров неискренности в письменных текстах

Лыкова О.В.

УДК 81'322.2

О. В. лыкова

аспирант кафедры прикладной и экспериментальной лингвистики Московского государственного лингвистического университета; ст. преподаватель кафедры иностранных языков НИЯУ МИФИ; е-таН: ovlykova@mephi.ru

АВТОМАТИЧЕСКОЕ ОПРЕДЕлЕНИЕ ОСНОВНЫх МАРКЕРОВ НЕИСКРЕННОСТИ В ПИСЬМЕННЫх ТЕКСТАх

В данной статье рассматривается проблема автоматического определения основных маркеров неискренности в письменных и устных транскрибированных текстах. Для решения данной задачи были использованы различные методы машинного обучения (обучающие деревья, наивный байес, сверточные нейронные сети). Исследование позволило выделить ряд категорий, характерных для высказываний, которые содержат фактор неискренности.

Ключевые слова: ложь; неискренность; обман; машинное обучение; нейронные сети.

O. Lykova

Postgraduate student at the Department of Applied and Experimental Linguistics of the Institute of Applied and Mathematical Linguistics; Moscow State Linguistic University; Senior Lecturer at National Research Nuclear University MEPhI (Moscow Engineering Physics Institute); e-mail: ovlykova@mephi.ru

AUTOMATIC DETECTION OF THE MAIN MARKERS OF INSINCERITY IN TEXTS

The article considers automatic detection of the main markers of insincerity in written and transcribed texts. To solve this problem, various machine learning methods were used (learning trees, naive bayes, convolutional neural networks). The study revealed a number of categories that contain the factor of insincerity.

Key words: lie; deception; insincerity; lie detection; deception detection; neural networks; machine learning.

Введение

Задачей автоматического распознавания лжи исследователи начали заниматься с начала XX в. Изначально исследователи концентрировали свое внимание на полиграфах, которые учитывали различные физиологические характеристики [Krapohl, Shaw 2015]. Однако с развитием технологий, исследователи смогли перейти к статистическому анализу текстового содержания текстов. В контексте машинного

обучения распознавание неискренности может рассматриваться как еще одна задача классификации текстов или анализа тональности - на вход модели подается определенный текстовый фрагмент (бинарно закодированные буквы, слова или их последовательности (н-граммы, биграммы) [Pang, Lee 2008]) или выделенные из него характеристики (частоты слов, наличие тех или иных знаков препинания т. д.), на выход - метка, соответствующая классу (правда / ложь). Модель на основе аннотированных экспертами данных в процессе обучения должна найти скрытые коэффициенты, которые будут наилучшим образом описывать данные и метки классов [Krizhevsky, Sutskever, Hinton 2012].

Исследователи уже применяли нейронные сети для решения задачи определения лжи в высказываниях. Так, международная группа исследователей из Мексики, США и Сингапура провела исследование на основе видеозаписей судебных заседаний, которые были заранее транскрибированы и проаннотированы на момент лживости высказываний [A Deep Learning Approach for Multimodal Deception Detection 2018]. Авторы натренировали четыре нейронных сети. Каждая нейронная модель получала на входе свою группу признаков. Затем эти нейронные сети объединялись и обучались улучшать предсказания.

Использовалось четыре группы признаков (для каждой обучалась своя нейронная сеть):

1. На видеоданных была обучена SD-сверточная сеть (использовалось несколько кадров одновременно).

2. На текстовых данных из субтитров слова были предобработаны в векторный вид с помощью предварительно обученной Word2Vec-модели, которые подавались на вход сверточному слою.

3. Звуковые данные были преобразованы с помощью программы OpenSMILE, которая выделяет данные об эмоциональном состоянии говорящего, о его поле, возрасте, психофизиологическом состоянии. На основе данных выделенных признаков обучался многослойный перцептрон.

4. Авторы вручную выделили 39 выражений лица (улыбка, поднятие бровей и т. д.). Данные признаки подавались в векторном виде на вход многослойного перцептрона.

Из отдельных моделей наилучший результат показали нейронные сети на основе видео- и текстовых признаков (95.96 и 94.55 по

метрике AUC). Объединенные результаты показали результат в 97.99 по метрике AUC. Однако аудиосигнал дает результат лишь в 0.5231.

Отечественные исследователи уже демонстрировали пример использования нейронных сетей в полиграфе [Ясницкий, Петров, Сичинава 2010]. В работе этих исследователей использовался многослойный перцептрон и только заранее выделенные признаки. В статье авторы привели обзор существующих работ по распознаванию лжи с помощью методов машинного обучения [Величко, Будков, Карпов 2017]. Одна из рассмотренных работ использовала неглубокие нейронные сети и ранжированную нейронную сеть, обучавшихся на наборе данных, состоящем из набора признаков, предоставленных организаторами. Однако следует отметить, что в данном конкурсе Computational Paralinguistics Challenge (ComParE) также использовались признаки, выделенные с помощью программного пакета OpenSMILE.

Данная работа посвящена проблеме определения маркеров неискренности в письменных текстах. Письменные тексты могут быть как транскрибированными аудиозаписями, так и изначально письменным текстами различных жанров. Анализ лжи в письменных текстах является важной задачей, например, в контексте деловой переписки [Pang, Lee 2008]. Кроме того, анализ транскрибированной речи позволяет сконцентрироваться на семантической информации, содержащейся в сообщении. В данной работе использованы различные методы машинного обучения, в том числе сверточные нейронные сети из-за простоты их работы и визуализации. Кроме того, проводится сравнительный анализ точности данного алгоритма с другими методами машинного обучения.

Материалы и методы

Метод, примененный в данной статье, заключается в классификации текстов по категориям правда / ложь на основе аннотированных данных. После этого проводился анализ весовых коэффициентов моделей машинного обучения для определения слов, наиболее характерных для сообщений с признаками лжи. Для отбора весовых коэффициентов отбирались лишь те модели, которые показали точность > 60 % на тестовой выборке.

В качестве тренировочных и тестовых данных использовалось три набора данных, опубликованных в открытом доступе

исследователями из университета Мичигана [Scikit-leam: Machine learning in Python 2015; Verbal and nonverbal clues for real-life deception detection 2015;]. Первый набор данных представляет собой набор аннотированных и транскрибированных судебных высказываний. Тексты содержат в символьном виде парадигматические индикаторы (вздохи, паузы хезитации). Второй набор содержит короткие правдивые и неискренние мнения на остросоциальные темы (смертная казнь, аборты, лучшие друзья). Третий набор данных включает в себя факты различного характера (как личного - «я не умею плавать», так и фактологического характера - «в Канаде разрешается водить автомобиль с 18 лет»), т. е. многие фактов сложно проверить на достоверность. Все тексты были на английском языке (носители из США, Индии, Канады и Австралии). Соотношение лживых по отношению к правдивым сообщениям равно 0.5 для всех категорий.

В качестве одного из классификаторов использовалась сверточ-ная нейронная сеть [Kim 2014], где на вход подаются слова сообщения {x ... xn}, закодированные в векторном виде (использовалась предобученная на Google-news Word2Vec модель [Efficient Estimation of Word Representations in Vector Space 2013]. Слова обрабатываются фильтрами w e Rhk разных размеров (2-5 слов в нашем случае), получившиеся признаки передаются на следующий полносвязный слой нейронной сети. На выходе модели предсказывается метка класса (правда - ложь). Результаты работы нейронной сети не использовались для извлечения ключевых слов из-за сложности интерпретирования весовых коэффициентов модели.

Также в качестве альтернативного алгоритма классификации использовался наивный байесовский классификатор [Metsis, Androutsopoulos, Paliouras 2006].

P (у ) P (x,, ..., xn | у)

P (у I x„ ..., x ) =-

У1 1 n P (x,.....xn)

где х. = 1, если слово с индексом i входит в данный текст, и 0 в обратном случае, у - метка класса.

у = arg maxy P(y) П=7 P(x. | у)

используются оценки апостериорного максимума для вычисления вероятности лживости высказывания на основании, входящих в текст слов. Использовалась реализация алгоритма из библиотеки scikit-leam [Scikit-learn: Machine learning in Python 2011] (scikit-learn.org/ stable/modules/naivebayes.html).

Кроме того, в данной работе использовался алгоритм random forest - случайный лес, усредняющий результаты ансамбля решающих деревьев на подвыборках из общего набора данных [Liaw, Wiener 2002]. Также использовался вариант алгоритма из библиотеки scikit-learn.

Кроме того использовался метод k-ближайших соседей, однако поскольку этот алгоритм не имеет весовых параметров, то его результаты не использовались для выделения характерных слов для сообщений с признаками лжи.

Результаты

Как видно из таблицы 1 (с. 151), точность алгоритмов сильно зависит от доменной направленности текстов. Так, даже в рамках одного датасета «Мнения по социальным вопросам» модели не смогли найти надежные признаки для оценки мнений по вопросам смертной казни из-за схожести использованного вокабуляра в правдивых и неискренних сообщениях.

На основе данных моделей были отобраны наиболее значительные признаки, характерные для сообщений с признаками неискренности. Признаки отбирались, если хотя бы две модели с точностью выше 60 % содержали данное слово-признак. Наборов данных, удовлетворяющих этому критерию, всего два (судебные слушания и мнения по социальным вопросам: лучшие друзья; достаточная точность на общем наборе данных: Мнения по социальным вопросам обусловлены сравнительно высокой точностью алгоритмов для текстов о друзьях). Низкая точность моделей обусловливается малым количеством примеров в наборах данных (например, всего 122 коротких сообщения из набора судебных слушаний; правдивые и лживые факты очень сложны для классификации даже человеком только на основе текстовых данных и при отсутствии контекста (например, типичное для данного набора сообщение «У меня нет водительских прав» сложно корректно классифицировать)).

Таблица 1

Точность алгоритмов классификации

Набор данных Яапёот йгев! Наивный байес с распределением Бернулли Наивный байес с мультиномиальным распределением К-ближай-ших соседей Сверточная нейронная сеть

Судебные слушания 0.54 0.6 0.64 0.72 0.62

Правдивые и лживые факты 0.55 0.58 0.56 0.51 0.55

Мнения по социальным вопросам 0.62 0.61 0.64 0.57 0.52

Мнения по социальным вопросам: аборты 0.54 0.54 0.49 0.46 0.5

Мнения по социальным вопросам: смертная казнь 0.48 0.58 0.56 0.5 0.5

Мнения по социальным вопросам: лучшие друзья 0.76 0.73 0.74 0.69 0.63

Таблица 2

Списки ключевых слов по наборам данных (n=10)

Судебные слушания Мнения по социальным вопросам: лучшие друзья

get like

would good

time best

um we

well never

like friend

know person

going always

could she

never he

Как видно из приведенных списков, ключевые слова можно разделить на несколько ключевых категорий: паузы хезитации (um, well), модальные глаголы (going, could, know would), временные показатели (time, never, always), переходные глаголы (get, know), личные местоимения (he, she). Для судебных заседаний характерны модальные глаголы, паузы хезитации, временнЫе показатели и переходные глаголы, а для мнений по личным вопросам личные местоимения и качественные прилагательные.

Заключение

Современные методы машинного обучения могут быть использованы даже в случаях крайне низкого количества данных для анализа ряда явлений, на основе лишь категориальных признаков. Несмотря на низкую точность моделей, они успешно выделяют ряд признаков, которые позволяют классифицировать сообщения с точностью выше случайной. Это позволяет выявлять характерные признаки того или иного состояния. Данные признаки могут в ряде случаев являться существенными только из-за низкой адекватности модели действительности, однако использование каскадов слабых моделей и извлечение общих для них существенных признаков позволяет избежать этой проблемы.

Данное исследование позволило определить, что для неискренних высказываний во время судебных заседаний характерны модальные глаголы, паузы хезитации, временные показатели и переходные глаголы, а для мнений по личным вопросам личные местоимения и качественные прилагательные. Полученные данные позволяют судить о самых распространенных вербальных и паравербальных индикаторах неискренности в различных социальных контекстах.

СПИСОК ЛИТЕРАТУРЫ

Величко А. Н., Будков В. Ю., Карпов А. А. Аналитический обзор компьютерных паралингвистических систем для автоматического распознавания лжи в речи человека // Информационно-управляющие системы. 2017. Т. 5. № 90. С. 30-41. Ясницкий Л. Н., Петров А.М., Сичинава З. И. Сравнительный анализ алгоритмов нейросетевого детектирования лжи // Известия высших учебных заведений. Поволжский регион. Технические науки. 2010. C. 64-72. Kim Y. Convolutional neural networks for sentence classification. arXiv preprint

arXiv : 1408.5882. 2014 Aug 25. Krapohl D., Shaw P. Fundamentals of polygraph practice. Academic Press. 2015. 364 p.

A Deep Learning Approach for Multimodal Deception Detection / G. Krishna-murthy, Majumder N., Poria S., Cambria E. arXiv:1803.00344. 2018. P. 8490. 2018. P. 84-90.

Krizhevsky A., Sutskever I., Hinton G. E. ImageNet Classification with Deep Convolutional Neural Networks // Adv. Neural Inf. Process. Syst. 2012. P. 1-9.

Liaw A., Wiener M. Classification and regression by randomForest // R news.

2002. Dec 3; # 2(3). P. 18-22. Metsis V, Androutsopoulos I, Paliouras G. Spam filtering with naive bayes-which

naive bayes? // CEAS. 2006 Jul 27. Vol. 17. P. 28-69. Efficient Estimation of Word Representations in Vector Space / T. Mikolov, K. Chen, G. Corrado, J. Dean // Proceedings of Workshop at ICLR. 2013. P. 1-12.

PangB., Lee L. Opinion mining and sentiment analysis // Foundations and Trends®

in Information Retrieval. 2008. Т. 2. №. 1-2. P. 1-135. Scikit-learn: Machine learning in Python / F. Pedregosa, G. Varoquaux, A. Gramfort

[et al.] // Journal of machine learning research. 2011. # 12(Oct). P. 2825-30. Verbal and nonverbal clues for real-life deception detection / V. Pérez-Rosas, M. Abouelenien, R. Mihalcea [et al.] // Proceedings of the Conference on Empirical Methods in Natural Language Processing. 2015. P. 2336-2346.

Deception detection using real-life trial data / V. Pérez-Rosas, M. Abouelenien, R. Mihalcea, M. Burzo // Proceedings of the 2015 ACM on International Conference on Multimodal Interaction. 2015. Nov 9. P. 59-66. ACM.

REFERENCES

Velichko A. N., Budkov V. Ju., Karpov A. A. Analiticheskij obzor komp'juternyh paralingvisticheskih sistem dlja avtomaticheskogo raspoznavanija lzhi v rechi cheloveka // Informacionno-upravljajushhie sistemy. 2017. T. 5. № 90. S. 30-41.

Jasnickij L.N., Petrov A.M., Sichinava Z.I. Sravnitel'nyj analiz algoritmov nejrosetevogo detektirovanija lzhi // Izvestija vysshih uchebnyh zavedenij. Povolzhskij region. Tehnicheskie nauki. 2010. S. 64-72.

Kim Y. Convolutional neural networks for sentence classification. arXiv preprint arXiv : 1408.5882. 2014 Aug 25.

Krapohl D., Shaw P. Fundamentals of polygraph practice. Academic Press. 2015. 364 p.

A Deep Learning Approach for Multimodal Deception Detection / G. Krishnamurthy, N. Majumder, S. Poria, E. Cambria. arXiv:1803.00344. 2018. P. 84-90.

Krizhevsky A., Sutskever I., Hinton G. E. ImageNet Classification with Deep Convolutional Neural Networks // Adv. Neural Inf. Process. Syst. 2012. P. 1-9.

Liaw A., Wiener M. Classification and regression by randomForest // R news. 2002. Dec 3; # 2(3). P. 18-22.

Metsis V, AndroutsopoulosI., Paliouras G. Spam filtering with naive bayes-which naive bayes? // CEAS. 2006 Jul 27. Vol. 17. P. 28-69.

Efficient Estimation of Word Representations in Vector Space / T. Mikolov, K. Chen, G. Corrado, J. Dean // Proceedings of Workshop at ICLR. 2013. P. 1-12.

Pang B., Lee L. Opinion mining and sentiment analysis // Foundations and Trends® in Information Retrieval. 2008. T. 2. №. 1-2. P. 1-135.

Scikit-learn: Machine learning in Python / F. Pedregosa, G. Varoquaux, A. Gramfort [et al.] // Journal of machine learning research. 2011. # 12(Oct). P. 2825-30.

Verbal and nonverbal clues for real-life deception detection / V. Pérez-Rosas, M. Abouelenien, R. Mihalcea [et al.] // Proceedings of the Conference on Empirical Methods in Natural Language Processing. 2015. P. 2336-2346.

Deception detection using real-life trial data / V. Pérez-Rosas, M. Abouelenien, R. Mihalcea, M. Burzo // Proceedings of the 2015 ACM on International Conference on Multimodal Interaction. 2015. Nov 9. P. 59-66. ACM.

Автоматическое определение основных маркеров неискренности в письменных текстах Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Лыкова О.В.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Лыкова О.В.

AUTOMATIC DETECTION OF THE MAIN MARKERSOF INSINCERITY IN TEXTS

Текст научной работы на тему «Автоматическое определение основных маркеров неискренности в письменных текстах»