УДК 004.94; 004.912
И. В. Машечкин1, М. И. Петровский, Д. В. Царёв3
МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АНАЛИЗА ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ ПРИ РАБОТЕ С ТЕКСТОВЫМИ ДАННЫМИ В ЗАДАЧАХ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ*
В статье предлагается новый метод обнаружения фактов работы пользователей с несвойственными документами на основе оценки принадлежности текста документа к характерным тематикам анализируемого пользователя. Формирование характерных тематик осуществляется с помощью тематического моделирования, реализованного с применением ортонормированной неотрицательной матричной факторизации. Экспериментальное исследование на примере реальной корпоративной переписки пользователей, сформированной из набора данных Enron, показало высокую точность классификации предложенного метода по сравнению с традиционными подходами.
Ключевые слова: информационная безопасность, поведение пользователя, тематическое моделирование, ортонормированная неотрицательная матричная факторизация.
1. Введение. За последние несколько лет наблюдается устойчивый рост интереса к задачам безопасности данных в корпоративных информационных системах, связанным с внутренними угрозами [1, 2]. Непреднамеренные ошибки пользователей и злонамеренные действия легальных пользователей (инсайдеров) могут привести к нарушению конфиденциальности, целостности и доступности корпоративной информации. Требуются исследование и разработка новых способов решения следующих задач: идентификация пользователей, обнаружение нецелевого использования корпоративных ресурсов, раннее обнаружение попыток хищения информации.
В контексте обозначенных задач компьютерной безопасности актуальным является анализ особенностей работы пользователей с текстовыми данными (документы, web-страницы, электронная почта) с целью выявления аномального поведения пользователей, которое может свидетельствовать о том, что:
— пользователь не является тем, от имени кого он авторизовался (задача идентификации пользователей);
— пользователь тратит рабочее время на материалы, не относящиеся к его рабочей деятельности (задача обнаружения нецелевого использования корпоративных ресурсов);
— пользователь интересуется корпоративными документами, которые не относятся к его текущей рабочей деятельности, что является признаком потенциальной утечки информации (задача раннего обнаружения попыток хищения информации).
1 Факультет ВМК МГУ, проф., д.ф.-м.н., e-mail: mashQcs.msu.su
2 Факультет ВМК МГУ, доц., к.ф.-м.н., e-mail: michaelQcs.msu.su
3 Факультет ВМК МГУ, математик, e-mail: tsarevQcs.msu.su
* Работа выполнена при финансовой поддержке Минобрнауки России (соглашение № 14.604.21.0056 о предоставлении субсидии, уникальный идентификатор прикладных научных исследований RFMEFI60414X0056).
Первоначально необходимо определить понятие поведенческой информации, на основе анализа которой и будет определяться аномальное поведение того или иного пользователя. Под поведенческой информацией пользователя будем понимать данные об операциях, выполняемых пользователем с электронными документами, и содержимое соответствующих электронных документов. Таким образом, факт обращения пользователя к документу определяется набором соответствующих операций. В данной работе исследуется возможность выявления аномального поведения пользователя на основе содержимого электронных документов и времени его обращения к ним. Для этого разрабатываются методы машинного обучения, с помощью которых выполняется построение и применение поведенческих моделей [3].
Идея предлагаемого подхода состоит в представлении поведенческой информации пользователя в тематическом пространстве признаков, формируемом методом латентно-семантического анализа на основе неотрицательной матричной факторизации. После чего обнаружение аномального поведения пользователя осуществляется с помощью расчета оценки принадлежности документа к характерным тематикам анализируемого пользователя. Соответственно, чем ниже оценка принадлежности документа, тем более несвойствен анализируемый документ пользователю и, следовательно, тем выше аномальность обращения пользователя к нему.
Статья имеет следующую структуру. В п. 2 приведено описание процедуры представления поведенческой информации пользователя в тематическом пространстве, которое формируется с помощью неотрицательной матричной факторизации. В п. 3 подробно рассматривается предложенный метод обнаружения аномального поведения пользователей при работе с текстовыми данными. В п. 4 экспериментально исследуется предложенный метод на примере реальной корпоративной переписки пользователей, сформированной из набора электронных писем Enron. В п. 5 делаются основные выводы и приводится заключение.
2. Тематическая модель представления поведенческой информации пользователя при работе с текстовыми данными. В статье рассматриваются методы машинного обучения для выявления аномального поведения пользователей при работе с текстовыми данными. Поэтому для анализируемого пользователя должен быть задан интервал времени, на основе поведенческой информации которого будет сформирована модель поведения. Данный временной интервал далее будем называть модельным.
Так как исследуется возможность обнаружения аномального поведения пользователя на основе содержимого электронных документов, к которым он обращался, то для формирования модели поведения пользователя необходимо описывать его текстовую информацию набором признаков, изменения которых и определяют поведение пользователя с течением времени.
В качестве признаков для описания документов пользователя предлагается рассмотреть характерные для него последовательности семантически связанных слов — тематики. В области анализа текстовой информации для описания коллекции текстовых документов с точки зрения их тематик применяются методы тематического моделирования, с помощью которых выделяются основные тематики коллекции и соответствующие им веса в каждом документе. Исходя из предыдущих работ авторов [4-6] для реализации тематического моделирования были выбраны методы, основанные на неотрицательной матричной факторизации.
Методы неотрицательной матричной факторизации работают с векторным представлением текста типа "мешок слов" ("bag-of-words") [7]. Признаками текста в модели "мешок слов" являются лексемы, входящие в текст, а размерность признакового пространства равна размерности словаря лексем. Под лексемами в общем случае понимаются все различные слова текста. Однако обычно применяются некоторые меры по предварительной обработке текста с целью получения более "информативного" признакового пространства [7]: удаление стоп-слов, приведение слов к нормализованной форме (стемминг) и т.д. Цель предварительной обработки текста — оставить только наиболее информативные признаки. К тому же уменьшение анализируемых признаков приводит к уменьшению использования вычислительных ресурсов. В интеллектуальном анализе текстовых данных для обозначения признака текста в модели "мешок слов" принято использовать термин "терм".
Формально опишем исходное представление п модельных документов пользователя для дальнейшего применения неотрицательной матричной факторизации. Каждый документ j, 1 ^ j ^ п,
отображается в числовой вектор .4 у = [0-1,/. 0-2,1, ■ ■ ■, от,])Т фиксированной размерности т. где т число термов, а г-я компонента вектора определяет вес ¿-го терма в ^'-м документе.
Вес ¿-го терма в векторном представлении у-го документа определяется как а^у = Х^уС?*, где локальный вес терма в документе О г глобальный вес терма г во всех документах коллекции. Так как уровень аномальности будет вычисляться для новых документов, не вошедших в модельное время, то заранее определить использование того или иного терма в будущих документах невозможно, поэтому использование глобального веса исключается. В ходе экспериментов, проводимых в п. 4, наилучшие результаты были получены при использовании логарифмического веса в качестве локального: Ь^^ = 1 + Ы^у), где ¿^у число появлений терма в документе 3 [7].
Таким образом, текстовый контент пользователя за модельное время представляется в виде
числовой матрицы .4 €
где т число различных термов, п число документов. Элементы
матрицы .4 принимают неотрицательные значения, так как являются весами соответствующих термов в документах.
Объединение термов в тематики и представление документов в пространстве тематик осуществляется путем применения к матрице .4 неотрицательной матричной факторизации, цель которой состоит в нахождении матриц 1¥к € и Нк € " с неотрицательными элементами, которые
минимизируют целевую функцию /(]¥к,Нк) = (1/2)||А — 1¥кНк\\21,, к -С шп(тд) [8].
Матрица 1¥к = [го^у] задает отображение пространства к тематик в пространство т термов, матрица Нк = [/¿г,;] соответствует представлению документов в пространстве тематик, т.е. элемент /г^у соответствует представлению г-й тематики в ^-м документе. В связи с тем, что элементы матрицы Нк неотрицательны, то их можно рассматривать как вклад (вес) тематики в документ. Чем больше значение элемента /г^у по сравнению с другими элементами у-го вектора документа, тем более характерна ¿-я тематика для текста данного документа. На этом свойстве основаны алгоритмы кластеризации, использующие неотрицательную матричную факторизацию [9]. Аналогично и для матрицы Шк, чем больше значение элемента го^у по сравнению с другими элементами ]-то столбца (тематики), тем более характерен г-ж терм для данной тематики.
Веса тематик в документе характеризуют тематическую направленность пользователя во время работы с данным документом. Упорядочив документы по времени операции пользователя с ними, можно визуально отобразить изменение тематической направленности (поведения) пользователя со временем в виде многомерного временного ряда весов сформированных тематик в документах (см. рис. 1).
Рис. 1. Формирование: тематического многомерного временного ряда
Существуют различные методы реализации неотрицательной матричной факторизации [8 11]. Однако в предлагаемом подходе необходимо иметь возможность отображать новые документы в уже сформированное пространство тематик, для этого достаточно наложить дополнительное условие ортонормированности матрицы ]¥к: IV¿[11% = I. Тогда для отображения матрицы новых документов 4пе№ в пространство тематик модельного времени достаточно 4пе№ слева умножить на Т^г: \\т1 ■ Аиещ = Нк_иещ.
На основе экспериментальных исследований, оставшихся за рамками данной статьи, был выбран мультипликативный алгоритм минимизации целевой функции
/(Шк,Нк) = (1/2)\\А-ШкНк\\% + (а/2)\\]¥^¥к - 1\\%,
описанный в [11] и позволяющий задавать баланс между точностью приближения исходной матрицы и ортонормированностью получаемых тематик с помощью параметра а.
Матрица Wk, построенная по модельным документам пользователя, описывает основные тематики пользовательского контента и служит для отображения любых текстовых данных в пространство тематик данного пользователя, т. е. матрица Wk "характеризует" пользователя с точки зрения его тематических предпочтений в контенте. Поэтому для обозначения матрицы Wk нами также будет использоваться термин "тематический портрет" пользователя.
3. Обнаружение аномального поведения пользователя. Данный раздел посвящен исследованию предложенного метода обнаружения аномального поведения пользователя на основе оценки принадлежности документов к характерным тематикам анализируемого пользователя. Построение тематического пространства пользователя осуществляется на основе контента документов, с которыми он работал за заданное модельное время, с использованием ортонормированной неотрицательной матричной факторизации. Далее любой документ можно представить в сформированном тематическом пространстве пользователя в виде вектора оценок степени принадлежности (веса) каждой тематики пользователя к тексту документа.
На рис. 2 приводятся тематические временные ряды для пользователя из набора Enron [12] (описание набора см. в п. 4), в которых каждая точка ряда соответствует отдельному документу, отправленному или полученному по электронной почте. Представленные графики демонстрируют, что очередность обращения пользователя к документам определенных тематик зачастую трудно предугадать. Для решения указанной проблемы было предложено оценивать аномальность поведения пользователя исходя из того, насколько соответствуют документы, с которыми он работает в данный момент, его тематической направленности, сформированной за модельное время.
Рис. 2. Тематические временные ряды для трех тематик за модельное время пользователя из набора Enron
Формально опишем предложенный метод оценки принадлежности документов к характерным тематикам анализируемого пользователя. Любой текстовый документ может быть представлен в пространстве тематик пользователя, используя его "тематический портрет", в виде числового вектора h = [h\,.... hk]T фиксированной размерности к, где к число выделенных тематик пользователя за модельное время, а г-я компонента вектора (1 ^ i ^ к) определяет вес г-й тематики в рассматриваемом документе. Тем самым, чем больше значения элементов вектора h, тем сильнее характеризуется текст соответствующего документа тематиками данного пользователя. Исходя из этого, для вычисления оценки принадлежности документа к тематикам модельного пользователя было предложено использовать норму вектора документа, представленного в пространстве тематик. Были исследованы возможности применения следующих норм вектора h: сумма элементов вектора, евклидова норма, максимум из элементов вектора. Таким образом, поведенческая модель пользователя включает в себя "тематический портрет" и используемую норму вектора.
4. Экспериментальные исследования. Первоочередной задачей при проведении экспериментальных исследований предлагаемого подхода обнаружения аномального поведения пользователя являлся выбор тестового набора данных. Были предъявлены следующие критерии к формируемому набору экспериментальных данных: текстовая информация из корпоративной среды.
возможность сопоставления текстовых данных с пользователями, возможность определения времени операций с текстовыми данными.
По сформулированным выше критериям для формирования набора экспериментальных данных за основу был выбран набор Enron [12]. Набор Enron содержит электронную почту 150 сотрудников за 2000 и 2001 гг. американской энергетической компании (главным образом, из высшего руководства), обанкротившейся в конце 2001 г. Кроме того, данный набор широко распространен в работах, посвященных тематическому анализу текстовых данных [10, 12]. В рамках проводимых экспериментов использовалась версия Enron со всеми вложенными файлами (attachment) [12], которую далее будем обозначать Enron Attachment. В качестве текстовых данных рассматривались документы текстовых форматов (DOC, RTF и PDF), прикрепленные к электронным письмам, а данные о письме, такие, как время отправки/получения и адресаты, служили для описания использования текстовых документов.
Электронные письма пользователей в наборе Enron Attachment хранятся в виде PST-файлов (файлы данных ПО Microsoft Outlook). Для обеспечения полноты и репрезентативности экспериментальных данных были выбраны все пользователи, у которых суммарный размер PST-файлов был не меньше 1 Гб. Таким образом, были выбраны 15 пользователей, суммарное число текстовых документов которых за 2000 и 2001 гг. равно 11941.
Для каждого из 15 пользователей выбранные два года были разбиты на пересекающиеся временные интервалы (экспериментальные диапазоны, ЭД) по шесть недель с шагом две недели, при этом первые четыре недели каждого интервала использовались в качестве модельного времени, а следующие две недели для анализа (оценки аномальности). При формировании экспериментальных диапазонов накладывалось ограничение на минимальное число документов, содержащихся в модельном времени пользователя. Требовалось наличие не менее 20 документов в модельном времени пользователя для полноты формирования "тематического портрета". Таким образом было получено 118 экспериментальных диапазонов (ЭД).
Для оценки качества предлагаемого подхода выявления аномального поведения пользователей рассматривалась следующая задача бинарной классификации: для документов, принадлежащих времени анализа, требуется отделить документы модельного пользователя (для которого строится модель поведения), от документов остальных пользователей. Для каждого ЭД производилась следующая процедура, состоящая из 4 шагов.
1. Формирование матричного представления модельных документов пользователя (модель представления "мешок слов"). Текстовые данные в наборе Enron Attachment являются англоязычными, поэтому для формирования словаря термов использовались такие методы предварительной обработки текста, как удаление стоп-слов и приведение слов к нормализованной форме на основе семантической сети WordNet [13]. Для вычисления весов термов использовался только локальный логарифмический вес, а векторы документов нормализовались по евклидовой норме.
2. Применение ортонормированной неотрицательной матричной факторизации к сформированной матрице модельных документов для получения матрицы "портрета пользователя" Wk и матрицы представления модельных документов в пространстве тематик H¡,. В проводимых экспериментах число тематик выбиралось равным 10% от размера словаря термов, но не более 10.
3. Отображение документов времени анализа для всех пользователей в тематическое пространство модельного пользователя с использованием матрицы 11'/,.. т.е. получение векторных представлений всех классифицируемых документов в пространстве тематик модельного пользователя.
4. Расчет оценок принадлежности классифицируемых документов к тематикам модельного пользователя.
После проведения вышеописанной процедуры получаем, что всем документам времени анализа каждого ЭД присвоены оценки их принадлежности к тематикам модельного пользователя. На основе данных оценок для каждого ЭД было вычислено значение AUC (Area Under Curve), которое является агрегированной характеристикой качества классификации [14-16]. Таким образом, было получено 118 значений AUC. Для оценки полученного множества значений AUC использовались устойчивые (робастные) оценки центральной тенденции (медиана) и разброса (интерквартильный
размах, ИКР) [17]. Интерквартильным размахом (interquartile range) называется разность между третьим и первым квартилями множества значений AUC.
Также решаемую задачу можно рассмотреть как задачу одноклассовой классификации, т. е. требуется определить, принадлежит ли документ к заданному классу модельных документов анализируемого пользователя. Исследование существующей литературы показало, что в области анализа поведения пользователей для решения аналогичных задач наилучшие результаты показывают следующие методы одноклассовой классификации [14, 16, 18, 19]: метод опорных векторов (one-class support vector machine); метод ближайших соседей (one-class k-nearest neighbour).
Указанные методы одноклассовой классификации применяются к векторному представлению документов. Поэтому рассматривались векторные представления документов как в пространстве термов (модель представления "мешок слов"), так и в пространстве тематик, полученном с помощью неотрицательной матричной факторизации.
В таблице приведены значения медиан и интерквартильных размахов для предложенного метода, а также для метода опорных векторов и метода ближайших соседей. Из приведенных данных следует, что предложенный подход на основе оценки принадлежности документов к тематикам анализируемого пользователя показывает высокое качество выявления фактов работы пользователя с несвойственными для него документами. Применение различных стандартных норм векторов для расчета данных оценок привело к схожим высоким результатам. Однако на используемом наборе данных Enron Attachment применение нормы максимума (вычисление максимального элемента вектора) оказалось наилучшим. Кроме того, предложенный подход показал лучшее качество классификации в сравнении с традиционными методами одноклассовой классификации.
Значения медиан и интерквартильных размахов
Метод классификации Медиана Интерквартильный размах
Предложенный метод (сумма элементов) 0.8702 0.1299
Предложенный метод (евклидова норма) 0.8996 0.1181
Предложенный метод (максимум) 0.9065 0.1109
Опорных векторов (модель представления "мешок слов") 0.8685 0.1376
Опорных векторов (представление в пространстве тематик) 0.8390 0.1570
Ближайших соседей (модель представления "мешок слов") 0.8842 0.1634
Ближайших соседей (представление в пространстве тематик) 0.8845 0.1155
5. Заключение. В статье проводились исследование и разработка методов машинного обучения для обнаружения аномального поведения пользователя при работе с текстовыми данными. Для решения указанной задачи был предложен метод выявления фактов работы пользователя с несвойственными документами на основе оценки принадлежности текста документа к характерным тематикам анализируемого пользователя. Выделение характерных тематик пользователя осуществляется с помощью тематического моделирования, реализованного с применением ортонормиро-ванной неотрицательной матричной факторизации.
Разработанный метод обнаружения аномального поведения пользователя в ходе проведенного экспериментального исследования на примере реальной корпоративной переписки пользователей, сформированной из набора данных Enron, показал высокую точность классификации по сравнению с традиционными подходами. Результаты экспериментов по оценке точности предложенного метода показали значения AUC на уровне 0.9, что свидетельствует о высокой точности обнаружения аномального поведения. Анализ литературы [14-16] также показал, что в современных методах
решения задач в области анализа поведения пользователей (в частности, распознавание пользователей по динамике их работы с клавиатурой и "мышью") значения AUC также находятся на уровне 0.9.
СПИСОК ЛИТЕРАТУРЫ
1. Zafar Н., Clark J. G. Current state of information security research in IS // Communications of the Association for Information Systems. 2009. 24. N 1. P. 557-596.
2. Crossler R.E., Johnston A. C., Lowry P.B., et al. Future directions for behavioral information security research // Computers & Security. 2013. 32. P. 90-101.
3. Yampolskiy R. V., Govindaraju V. Behavioural biometrics: a survey and classification // Intern. J. Biometrics. 2008. 1. N 1. P. 81-113.
4. Tsarev D. V., Petrovskiy M.I., Mashechkin I. V., et al. Automatic text summarization using latent semantic analysis // Programming and Computer Software. 2011. 37. N 6. P. 299-305.
5. Tsarev D.V., Petrovskiy M. I., Mashechkin I. V. Using NMF-based text summarization to improve supervised and unsupervised classification // Hybrid Intelligent Systems (HIS). IEEE, 2011. P. 185-189.
6. Машечкин И.В., Петровский М.И., Царёв Д.В. Методы вычисления релевантности фрагментов текста на основе тематических моделей в задаче автоматического аннотирования // Вычислительные методы и программирование. 2013. 14. № 1. С. 91-102.
7. Manning C.D., Raghavan P., Schutze H. Introduction to Information Retrieval. Cambridge: Cambridge University Press, 2008.
8. Lee D.D., Seung H. S. Learning the parts of objects by non-negative matrix factorization // Nature. 1999. 401. N 6755. P. 788-791.
9. Xu W., Liu X., Gong Y. Document clustering based on non-negative matrix factorization//Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2003. P. 267-273.
10. Berry M.W., Browne M., Langvilie A.N., et al. Algorithms and applications for approximate nonnegative matrix factorization // Computational Statistics & Data Analysis. 2007. 52. N 1. P. 155-173.
11. Mirzal A. Converged algorithms for orthogonal nonnegative matrix factorizations // arXiv Computing Research Repository. 2010. 1010. N 5290. P. 1-55.
12. Enron Email Dataset. URL: http://www.es.emu.edu/~./enron/
13. Natural Language Toolkit (NLTK). URL: http://www.nltk.org
14. Schclar A., Rokach L., Abramson A., et al. User authentication based on representative users// IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews. 2012. 42. N 6. P. 1669-1678.
15. Gascon H., Uellenbeck S., Wolf C., et al. Continuous authentication on mobile devices by analysis of typing motion behavior // Proc. of GI Conference "Sieherheit". Bonn: Kollen Druck+Verlag GmbH, 2014. P. 1-12.
16. Song Y., Ben Salem M., Hershkop S., et al. System level user behavior biometrics using Fisher features and Gaussian mixture models // Security and Privacy Workshops (SPW). Washington: IEEE, 2013. P. 52-59.
17. R: Анализ и визуализация данных. URL: http://r-analytics.blogspot.ru/2011/ll/r_08.html
18. Li Y., Zhang В., Cao Y., et al. Study on the BeiHang keystroke dynamics database // Intern. Joint Conf. Biometrics (IJCB). Washington: IEEE, 2011. P. 1-5.
19. Bailey К. O. Computer based behavioral biometric authentication via multi-modal fusion. Ohio: Air Force Institute of Technology, 2013.
Поступила в редакцию 06.04.16
MACHINE LEARNING METHODS IN COMPUTER SECURITY TASKS TO ANALYZE THE BEHAVIOR OF USERS WORKING WITH TEXT INFORMATION
Mashechkin I. V., Petrovskiy M. I., Tsarev D.V.
The paper presents the novel method for the detection of user activity with unusual documents based on the assessment of belonging of the document text to the main usual topics of analyzed user. Orthogonal nonnegative matrix factorization for topic modeling is used to topics extraction. Our experimental research with real corporate email correspondence formed from the Enron dataset shows higher classification accuracy of the proposed method than the baseline methods.
Keywords: computer security, user behavior analytics, topic modeling, orthogonal non-negative matrix factorization.