Научная статья на тему 'МЕТОДЫ АНАЛИЗА ЕСТЕСТВЕННОГО ЯЗЫКА В ЗАДАЧАХ ДЕТЕКТИРОВАНИЯ ПОВЕДЕНЧЕСКИХ АНОМАЛИЙ'

МЕТОДЫ АНАЛИЗА ЕСТЕСТВЕННОГО ЯЗЫКА В ЗАДАЧАХ ДЕТЕКТИРОВАНИЯ ПОВЕДЕНЧЕСКИХ АНОМАЛИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
170
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАШИННОЕ ОБУЧЕНИЕ / ПОВЕДЕНЧЕСКАЯ БИОМЕТРИЯ / АНОМАЛЬНОЕ ПОВЕДЕНИЕ / ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА / КОСИНУСНОЕ СХОДСТВО

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Савенков Павел Анатольевич, Ивутин Алексей Николаевич

Рассматривается задача поиска аномального поведения пользователя по введенному им тексту на мобильном устройстве в выбранных временных периодах. Осуществляется сравнение применяемых методов и алгоритмов анализа данных в задаче поиска аномального поведения пользователя на различных пользовательских наборах данных взятых за различные временные промежутки. Установлено, что минимальная длина текста, предназначенная для анализа, составляет 7 и максимальная 100 символов. Получены сравнительные характеристики представленных методов. Доказано, что применение методов TF-IDF, Word2Vec, BERT, GloVe имеет большую результативность чем использование bag of words и tf-idf в задаче поиска аномального поведения пользователей. Предложен алгоритм, идентификации пользователя и отклонений в его поведении на основе комбинированного применения методов анализа естественного языка и метрик сходства в зависимости от типа и объема входных данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Савенков Павел Анатольевич, Ивутин Алексей Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NATURAL LANGUAGE ANALYSIS METHODS FOR DETECTING BEHAVIORAL ANOMALIES

The problem of searching for anomalous user behavior by the text entered by him on a mobile device in selected time periods is considered. The applied methods and algorithms of data analysis are compared in the task of searching for anomalous user behavior on different user data sets taken for different time intervals. It has been established that the minimum length of the text intended for analysis is 7 and the maximum 100 characters. Comparative characteristics of the presented methods are obtained. It has been proven that the use of the TF-IDF, Word2Vec, BERT, GloVe methods is more effective than the use of bag of words and tfidf in the task of finding anomalous user behavior. An algorithm is proposed for identifying a user and deviations in his behavior based on the combined use of natural language analysis methods and similarity metrics depending on the type and volume of input data.

Текст научной работы на тему «МЕТОДЫ АНАЛИЗА ЕСТЕСТВЕННОГО ЯЗЫКА В ЗАДАЧАХ ДЕТЕКТИРОВАНИЯ ПОВЕДЕНЧЕСКИХ АНОМАЛИЙ»

The state of the training system is characterized by the amount of one or another type of knowledge communicated by the teacher and learned by the students. Improving the quality of training, the dependence of the assimilation of educational content on the speed of information receipt, the influence of technical teaching aids on the speed of assimilation of educational content is the essence of this article.

Key words: educational process, assimilation, technical means of teaching, educational content.

Mitrofanov Mikhail Valerievich, candidate of technical sciences, docent, head of department, vonafortim@yandex.ru, Russia, St.Petersburg, Military Academy of Communications named after Marshal of the Soviet Union S.M. Budyonny,

Atnagullov Timur Nagimovich, postgraduate, atimurn@mail.ru, Russia, St.Petersburg, Military Academy of Communications named after Marshal of the Soviet Union S.M. Budyonny,

Shadymov Alexey Vladimirovich, candidate of military sciences, docent, kolya-krim1920@gmail.com, Russia, Saint Petersburg, ANO VO "University at the Interparliamentary Assembly of EURASEC",

Bibarsova Gulnara Shikhmuratovna, candidate of pedagogical sciences, docent, bgsh2@rambler.ru, Russia, St. Petersburg, Military Academy of Communications named after Marshal of the Soviet Union S.M. Budyonny

УДК 004.891.2

DOI: 10.24412/2071-6168-2022-3-358-366

МЕТОДЫ АНАЛИЗА ЕСТЕСТВЕННОГО ЯЗЫКА В ЗАДАЧАХ ДЕТЕКТИРОВАНИЯ

ПОВЕДЕНЧЕСКИХ АНОМАЛИЙ

П.А. Савенков, А.Н. Ивутин

Рассматривается задача поиска аномального поведения пользователя по введенному им тексту на мобильном устройстве в выбранных временных периодах. Осуществляется сравнение применяемых методов и алгоритмов анализа данных в задаче поиска аномального поведения пользователя на различных пользовательских наборах данных взятых за различные временные промежутки. Установлено, что минимальная длина текста, предназначенная для анализа, составляет 7 и максимальная 100 символов. Получены сравнительные характеристики представленных методов. Доказано, что применение методов TF-IDF, Word2Vec, BERT, GloVe имеет большую результативность чем использование bag of words и tf-idf в задаче поиска аномального поведения пользователей. Предложен алгоритм, идентификации пользователя и отклонений в его поведении на основе комбинированного применения методов анализа естественного языка и метрик сходства в зависимости от типа и объема входных данных.

Ключевые слова: машинное обучение; поведенческая биометрия; аномальное поведение, обработка естественного языка, косинусное сходство.

Актуальным является развитие направления обнаружения ранних признаков аномального поведения пользователей на основе методов машинного обучения. В связи с возрастанием внутренних угроз в корпоративных информационных системах, в последние годы наблюдается устойчивый рост интереса к задачам поиска аномальной активности в деятельности пользователей [1]. В настоящее время сформировался отдельный, самостоятельный класс систем поведенческого анализа в основе которых лежат методы и алгоритмы машинного обучения. Компания Gartner именует данные системы как UBA (англ. User Behavior Analytics — анализ поведения пользователей) [2]. UBA-системы осуществляют анализ различных действий пользователя и информируют администратора системы в случае обнаружения отклонений в поведенческом профиле, используя при этом исторические данные о нормальной работе пользователя. Актуальной проблемой является идентификация пользователей и поиск отклонений в их поведении по наборам коротких текстовых данных.

Целью данного исследования является повышение точности идентификации отклонений в поведении пользователей на основе коротких выборок данных путем создания алгоритма анализа коротких текстов.

Научная новизна основана на следующих основных результатах работы и заключаются в следующем:

Исследована применимость методов естественного анализа языка в задаче поиска аномальной активности в деятельности пользователей;

Впервые предложена оптимальная длина, предназначенных для анализа, наборов пользовательских текстов;

Разработан алгоритм идентификации пользователей и поиска аномального поведения по их коротким текстовым наборам с применением методов естественного анализа языка и метрик сходства.

В работе [3] рассматривается методика обнаружения аномального поведения пользователей и подготовка данных, пригодных для обработки сверточной нейронной сетью в виде многомерного векторного пространства, при помощи модели word2vec. В работе [4] обсуждаются программные средства анализа поведения пользователей, моделирование поведения пользователя, а также методы обнаружения аномального поведения пользователя.

Не смотря на большое количество исследований в данной области, на данный момент не решена проблема идентификации пользователей и поиска аномального поведения по их коротким текстовым наборам, в связи с тем, что анализ коротких текстов, длиной от 7 до 100 символов, затруднителен ввиду большого количества зашумленных повторяющихся у различных пользователей токенов, малого количества данных о использовании тех или иных слов пользователем и их значимости.

Задача поиска аномального поведения пользователя может быть сформулирована следующим образом: даны наборы текстов пользователя, на естественном языке, последовательно выбранные за одинаковые по длительности временные интервалы. Требуется определить сходство между текстами и установить нормальный порог отличий между двумя сформированными результирующими векторами. Если разница между сходством выборок превышает установленный порог, то считается, что в поведенческих характеристиках пользователя, которому принадлежат данные текстовые наборы, содержатся отклонения.

Анализ пользовательских текстов для поиска аномального поведения пользователей требуется как для обнаружения угроз в корпоративных информационных системах, так и контроля изменения поведения различных групп лиц. В связи с этим требуется создание алгоритма, позволяющего находить отклонения в поведении пользователей по наборам коротких текстов, реализующий предобработку данных и дальнейшее сравнение векторных представлений коротких текстов при помощи различных метрик сходства.

Предложенный авторами оригинальный подход заключается в применении методов анализа естественного языка bag of words, TF-IDF, Word2Vec, BERT, GloVe, получающих на вход короткие пользовательские тексты длина которых составляет от 7 до 100 символов в разработке алгоритма обеспечивающего качественную идентификацию отклонений в поведении пользовании пользователей мобильной UBA системы, при помощи метрик сходства.

Для работы с методами естественного анализа языка требуется составление словаря и приведение текстов к числовому векторному представлению. В зависимости от решаемой задачи применяются различные способы предобработки данных для их нормализации.

Общие принципы предобработки текстовых данных. Методы естественного анализа языка, требуют приведения текстов к числовому представлению, для дальнейшей обработки [5]. В зависимости от типа входных данных, используются различные принципы предварительной обработки текста. Для уменьшения размерности словаря и повышения корректности результатов анализа применяется приведение токенов к единому регистру, что позволяет записывать в словарь одинаковые по написанию, но различные по регистру токены как один. Для разбиения исходных текстов на слова или буквы (токены), для дальнейшего построения словаря применяется токенизация. Без построения словаря невозможно составить числовые векторы обрабатываемых текстов, в связи с отсутствием числового представления каждого токена. Для восстановления исходной формы слова, применяется стемминг и лемматизация. При удалении стоп слов удаляются часто используемые слова в языке. Это могут быть как предлоги и другие часто используемые токены. Идея, лежащая в основе удаления стоп слов, заключается в том, что, в исходном тексте удаляются слова с низкой информативностью, что позволяет составить словарь для дальнейшей векторизации с наиболее высокоинформативными словами. Удаление

стоп слов помогает так же формировать векторы меньшей размерности, тем самым создавать менее нагруженную модель. Для удаления шума осуществляется удаление спец символов, цифр, знаков, которые могут мешать дальнейшему анализу текстов.

Нормализация текста является важным этапом для зашумленных текстов, таких как комментарии в социальных сетях, комментарии в блогах, где преобладают сокращения, орфографические ошибки и смайлы. Так же нормализация повышает точность классификации в крайне неструктурированных текстах [6].

Предобработка коротких пользовательских текстовых данных ввода. В связи с тем, что методы анализа естественного языка используют словарь для построения числовых векторов текстовых представлений, требуется его формирование из полученной текстовой выборки пользовательских текстов. Без создания словаря токенов невозможно провести анализ содержимого на предмет наличия отклонений в поведении пользователя.

Создание словаря без предварительной обработки текстов возможно, однако качество результатов дальнейшего анализа будет значительно снижено [7], в связи с присутствием в словаре специальных системных символов, знаков пунктуации. Так же снижение качества дальнейшей обработки происходит из-за присутствия в словаре слов, состоящих из букв в различных регистрах, так как два одинаковых слова в различных регистрах имеют два разных идентификатора в словаре и являются для методов анализа естественного языка различными токенами.

Предварительная обработка включает в себя следующие операции:

приведение токенов к нижнему регистру;

нормализация;

удаление стоп слов;

удаление шума.

Порядок выполнения операций предварительной обработки не имеет значения. Создание словаря проводится только после проведения предварительной обработки исходного текста.

Экспериментально установлено, что оптимальной длиной коротких текстов является 7-100 символов. Предложения длиной менее 7 символов чаще всего состоят из стоп-слов и различного шума в виде ошибочно набранных фраз и распространённых бесконтекстных словосочетаний, имеющихся в выборках 98% пользователей, что не позволяет найти принадлежность текста к пользователю написавшего его. В процентном соотношении количество предложений, имеющих длину в диапазоне от 7 до 100 символов, составляют 70% от общей выборки, 8% предложения длина которых более 100 символов и 22% с длиной менее 7 символов. Так же тексты длиной более 100 символов часто содержат многократно текст, который снижает качество дальнейшего анализа сформированных векторов. По объему символов, предложения длиной от 7 до 100 символов занимают 97% от всей выборки, что позволяет использовать их для дальнейшего анализа без снижения качества результатов методов естественного анализа языка. Установлено, что при применении лемматизации и стемминга значительно понижается качество результата (до 15%) на коротких текстах. Удаление стоп слов очищает исходный текст от предлогов и позволяет повысить качество дальнейшей работы методов дополнительно на 4%. При удалении шума очищаются специальные символы: переносы строки, табуляции. Это необходимо, так как данные символы не несут никакой смысловой нагрузки. При помощи нормализации текста удается повысить точность классификации дополнительно на ~ 4%. При нормализации текстовых данных заменяются сокращения слов, убираются смайлы. Токенизация необходима для дальнейшего формирования числовых векторов текстов. Без токенизации дальнейшая обработка и анализ аномалий невозможен.

Выявление поведенческих отклонений при помощи метрик сходства и расстояния. Для поиска отклонений, в поведении анализируемого пользователя, предлагается использовать косинусную меру как основной фактор наличия или отсутствия аномального поведения. Применение косинусной меры сходства обусловлено тем, что данная мера чаще всего используется для анализа текстов, что подтверждается различными научными исследованиями [8]. Косинусное сходство отображает косинус угла между двумя векторами, спроецированными в многомерном пространстве. Чем меньше величина угла, тем выше оценивается сходство. Так как даны два вектора признаков, А и B, косинусное сходство можно найти используя скалярное произведение и норму:

А ■ В ТАг Х Вг similarity (А, В) =-= , i=1 . (1)

"А»Х»В|1 JbFxgBi

В качестве метрики для анализа текстов чаще всего выбирается евклидовая метрика

[9].

Евклидово расстояние между двумя точками х, у определяется в евклидовом n-мерном пространстве как:

r(X,y) = V(X -У1)2 + (x2 -y2)2 +■■■ + (x„ -yn)2 =Ji(Xi -yi)2 (2)

Манхэттенское расстояние используется в иных задачах [10], определяется как сумма модулей разностей координат: Еще одной метрикой на евклидовом пространстве является метрика Минковского. Она является обобщением евклидового и манхэттенского расстояний. При использовании параметра со значением р = 2 происходит ее обобщение в евклидово расстояние, а при p = да в расстояние Чебышева.

При сравнении двух документов при помощи косинусного сходства, его результирующее значение изменяется в диапазоне от 0 до 1, так как частота использования термина не может быть отрицательной. Угол между двумя векторами частот использования термина не может быть более 90°.

В статье [11] показано, что косинусное сходство часто используется при решении задач сравнения векторов и поиска отклонений так как оно результативно в качестве оценочной меры для разреженных векторов, так как учитывает только ненулевые измерения. Для оценки абсолютное количество вхождений слов так же применяется Евклидово расстояние.

Использование методов BagOfWords и TF-IDF. Для работы с текстовыми данными и их дальнейшего анализа требуется составить словарь и векторизовать документы. Рассматривать слова, которые присутствуют в конкретном документе невозможно, так как длина векторов будет различной для обоих документов, что делает невозможным вычисление косинусного сходства и поиска Евклидова расстояния [12].

Построение словаря происходит по обучающей выборке, по полному набору данных. В таком варианте построения, векторы получаются длиннее, чем при формировании словаря только лишь по анализируемой в определенном диапазоне обучающей выборки. Однако используя более объемный словарь, его дальнейшее переобучение может не требоваться, в связи с наличием в нем большего объема слов.

Метод bag of words формирует векторы частоты используемых слов по документам без корректировки веса термина в случае его повторяемости их в различных документах [13]. В отличии от метода bag of words, TF-IDF изменяет вес слов, наиболее часто встречающихся в текстах. Общая формула метода извлечения признаков TF-IDF представлена далее:

TF - IDF = TF ■ IDF (3)

где TF (Term Frequency) - отношение числа вхождений некоторого слова к общему числу слов в документе; IDF (Inverse Document Frequency - Обратная частота документа) - это мера того, сколько информации предоставляет слово, является ли оно общим или редким во всех документах; TF рассчитывается по следующей формуле:

tf (t, d) = -П- (4) ЬкПк

где nt - число вхождений слова t в документ,

Знаменатель - общее число слов в данном документе.

IDF используется для расчета веса редких слов во всех документах в корпусе. Слова, которые редко встречаются в корпусе, имеют высокий балл IDF. Формула нахождения обратной частоты документа представлена далее:

IDF (t, D) = log-D-

|{d е D: t е d}| (5)

где |D| - общее число документов в корпусе; |{d е D: tе d}| - количество документов где слово t используется (tf (t,d) Ф 0).

Если слово не находится в корпусе, то это приведет к делению на ноль. По данной причине принято преобразовывать знаменатель к виду 1 + |{d е D: tе d}|.

361

В общем виде формула расчета TF-IDF выглядит следующим образом:

tfidf(t, d, D) = tf (t, d) • idf (t, D) (6)

Высокий вес в tf - idf формируется при высокой частоте термина в данном документе и низкой частоты использования термина в совокупности всех документов. Таким образом фильтруются общие термины[14]. TF-IDF дает большие значения для менее частых слов в корпусе документа. Значение TF-IDF высокое, когда оба значения IDF и TF высокие, т.е. слово встречается редко во всем документе, но часто встречается в текущем документе. TF-IDF как и bag of words не учитывает семантическое значение слов.

Использование метода Word2Vec. Для повышения качества сравнения векторов и дальнейшего поиска аномального поведения требуется учитывать семантику слов в анализируемых предложениях. Для сохранения семантических связей применяются модели Word2Vec [15]. Каждое слово в словаре кодируется не частотным признаком, а вектором Embedding, с сохраненной семантической связью.

Архитектура Word2Vec состоит из трех слоев. Входной слой принимает одно слово в формате one hot encoding (каждое слово кодируется бинарным вектором, содержащим одну единицу, которая представляет позицию слова в словаре). Длина вектора one hot encoding равна длине словаря. Второй слой - слой Embedding, представляет собой матрицу размерностью NxP, где N размер словаря, P-гиперпараметр подбираемый эмпирически. Выходной слой размером Nx1, где N размер словаря. Каждый из нейронов данного слоя выдает вероятность принадлежности входящего слова к другим словам. На рис. 1 представлена визуализация применяемой модели skip-gram Word2Vec.

Входной слон

"1" соответствует номеру в словаре

Слой Emdedding

/ jT

\

Вероятность того, что слово принадлежит контекст/

Размерность NxP

И

N - размер словаря

Рис. 1. Визуальное представление применяемой модели skip-gram Word2Vec

N - размер словаря

Для дальнейшего поиска косинусного сходства и Евклидова расстояния осуществлялось получение числовых значений для пользовательских текстов.

Использование метода GloVe. Кроме word2vec имеются так же и другие модели word embedding. Glove - модель предложенная лабораторией Стендфордского университета, сочетающая в себе черты SVD разложения и word2vec. Метод GloVe предоставляет возможность получения семантических связей между словами из матрицы совместной встречаемости [16].

Имея корпус, содержащий V слов, матрица совместного использования X будет иметь вид VxX, где i-я строка и j- й столбец обозначает, сколько раз слово i встречалось вместе со словом j. Пример матрицы совместной встречаемости может выглядеть следующим образом. На рис. 2 представлен пример матрицы совместного использования.

Для анализа поведенческих аномалий используется 100-мерные Embedding вектора

Glove.

Использование нейросетевой технологии BERT. BERT технология, основанная на нейронных сетях, используется для поиска различий слов в контексте, при обработке естественного языка [17]. Технология BERT основана на архитектуре механизма внимания. Благодаря данному механизму модели, построенные на данной архитектуре лучше находят закономерности необходимые для решения задач. Энкодер получает на вход и обрабатывает набор векторов, проводя их через слой внутреннего внимания и далее - через нейронную сеть прямо-

го распространения, пока не передает свой выход следующему энкодеру. Механизм внимания значительно улучшает качество работы метода, позволяя концентрироваться на релевантных частях входных последовательностей.

Для дальнейшего анализа использовалась модель, имеющую 12 слоев (блоков преобразований), 12 ячеек внимания, 110 миллионов параметров и скрытый слой размером 768, для создания контекстуализованных Embedding векторов.

the cat sat on mat

the 0 1 0 1 1

cat 1 0 1 0 0

sat 0 1 0 1 0

on 1 0 1 0 0

mat 1 0 0 0 0

Рис. 2. Пример матрицы совместного использования

Эксперимент. В существующих иВА системах, в связи с их основным использованием в организациях на персональных компьютерах, обрабатываемые наборы текстовых данных и их структура отличаются, так же отличаются и способы анализа данных. Имеющиеся, в данный момент мобильные системы контроля сотрудников лишь осуществляют сбор данных, а дальнейший анализ является не автоматизированным и перекладывается на администратора системы.

В рамках проводимого эксперимента впервые, был собран набор текстовых данных вводимых на мобильных устройствах пользователей с установленной иВА системой. Сбор данных проводился с согласия пользователей, с целью получения результатов применимости методов естественного анализа языка для поиска отклонений в поведении и идентификации пользователей, и определения интервала оптимального анализируемого временного диапазона. Данные собирались с мобильных устройств в реальных условиях в режиме реального времени с учетом специфики сбора (отсутствие связи с сетью, системные оптимизаторы, оптимизаторы оболочки). Была составлена таблица, содержащая информацию о идентификаторе пользователя, интервалы дат выборки текстовых наборов, методы используемых для формирования словаря и векторного представления, результирующие значения используемых метрик.

Полученные результаты эксперимента позволят использовать методы анализа естественного языка и метрики сходства при различных входных текстовых данных для качественной идентификации пользователя и поиска отклонений в его поведенческих характеристиках в мобильных иВА системах. Результаты проведенного эксперимента представлены в таблице.

Из результатов экспериментов 1-4 получено, что разница в длинах анализируемых выборок не превышает 30%, а значение Евклидова расстояния на примере метода Word2Vec не превышает 1. По экспериментам 5-8 видно, что значение Евклидова расстояния не превышает значение 1 только в эксперименте 7, в связи с малым значением разности между длиной анализируемых входных текстовых данных. В остальных случаях, в экспериментах № 5,6,8 значение евклидова расстояния превышает значение 1, что говорит о изменении в частоте использования мобильного устройства с целью переписки и возможности получения некорректного результата сравнения косинусным сходством.

Экспериментально установлено, что близкое к единичному значение косинусного подобия указывает на высокую схожесть соотношения между вхождениями слов двух анализируемых выборок пользовательских текстов, сформированных по двум временным промежуткам, что позволяет осуществить идентификацию пользователя и распознать величину изменений в его поведении при уменьшении значения данного соотношения до определенного в мобильной иВА системе порога чувствительности.

Евклидово расстояние становится не нулевым в случае если абсолютное количество вхождений слов в анализируемых текстах отличается. Это может указывать на изменения в частоте использования мобильного устройства с целью переписки, а также на возможность получения ложного результата анализа в связи с недостаточным объемом текстовых данных, для

формирования одного из векторов, при значениях евклидова расстояния отличающегося от среднего, полученного по серии экспериментов и превышающего значение 1. По данным причинам в качестве основной меры сходства пользовательских текстов была использована косинусная мера, а значение евклидова расстояния дополнительно позволит исключить возможность некорректного сравнения и оценить изменения частоты использования мобильного устройства с целью переписки.

Результаты использования методов

№ ID Интервалы дат Длина текста в выборке (кол-во символов) Метрика Результаты по методам

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

BOW TF-IDF Word2V ec Glove BERT

Выбо рка двух интервалов в двухнедельном диапазоне

1 144 1.01.2021-7.01.2021; 8.01.2021-14.01.2021. 28353; 29871. Cos 0.6732 0.8935 0.9938 0.9921 0.9527

Euc 0.6311 0.4614 0.6351 0.7431 4.7024

2 155 15.03.2021-23.03.2021; 22.03.2021-28.03.2021. 5311; 5929. Cos 0.1063 0.2020 0.9626 0.9158 0.9776

Euc 2.6631 1.2633 0.8750 1.2912 3.2890

3 175 15.03.2021-23.03.2021; 22.03.2021-28.03.2021. 2411; 2875. Cos 0.2231 0.4828 0.9839 0.9749 0.9786

Euc 2.2311 1.0170 0.6836 0.8365 3.2128

4 186 15.03.2021-23.03.2021; 22.03.2021-28.03.2021. 8990; 12254. Cos 0.2854 0.5584 0.9880 0.9793 0.9613

Euc 1.6937 0.9397 0.6211 0.8454 4.2996

Выборка двух интервалов в двухмесячном диапазоне

5 144 1.01.2021-28.01.2021; 1.02.2021-28.02.2021. 67800; 112216. Cos 0.2763 0.4896 0.9386 0.9311 0.9557

Euc 2.1241 1.0102 1.8198 2.0602 4.4869

6 155 1.01.2021-28.01.2021; 1.02.2021-28.02.2021. 11579; 75400. Cos 0.1454 0.3222 0.9591 0.9105 0.9717

Euc 2.4543 1.1642 1.5392 2.0443 3.7048

7 175 1.02.2021-28.02.2021; 1.03.2021-28.03.2021. 14724; 17301. Cos 0.4294 0.7208 0.9932 0.9892 0.9606

Euc 1.5439 0.7472 0.7601 0.9274 4.2848

8 186 1.04.2021-28.04.2021; 1.05.2021-28.05.2021 95339; 50532. Cos 0.2543 0.5330 0.9445 0.9431 0.9611

Euc 1.7623 0.9663 1.6129 1.7531 4.1864

В результате проведенного эксперимента, метод bag of words показал наименее корректные результаты распознавания. Метод TF-IDF, за счет нормализации весов повторяющихся слов, показал более высокие результаты чем bag of words. Наиболее корректные результаты показали методы Word2Vec, BERT и GloVe. На более объемных выборках метод BERT показал себя лучше, чем Word2Vec и GloVe так как на более объемных выборках проще составить семантическую связь. На меньших по объему выборках лучшие результаты показал метод Word2Vec.

Заключение. В разрабатываемой мобильной UBA системе методы анализа естественного языка будут использоваться комбинированно в зависимости от объема выборки для повышения качества сравнения и дальнейшего поиска изменений в поведении пользователя. Для поиска сходства двух сравниваемых выборок требуется использовать одинаковые временные интервалы. Оптимальными временными интервалами для выборок являются интервалы в диапазоне от двух недель до двух месяцев. При интервале менее двух недель проявляется сложность в анализе данных в связи с их недостаточностью, при интервалах более двух месяцев целесообразность данного анализа сводится к нулю, в связи с несвоевременным выявлением поведенческих отклонений.

Применение представленных методов анализа естественного языка и метрик сходства позволяет анализировать отклонения в поведении и может применяться в организациях для поиска инсайдерской деятельности, сохранения целостности данных организации и быстрого принятия управленческих решений администратором системы.

Список литературы

1. Rodrigues E. O. Combining Minkowski and Cheyshev: New distance proposal and survey of distance metrics using k-nearest neighbours classifier // Pattern Recognition Letters. 2018. Т. 110. С. 66-71.

2. Sadowski G., Care J., MacDonald N., Teixeira H. Market Guide for User and Entity Behavior Analytics [Электронный ресурс] URL: https://www.gartner.com/en/documents/3917096/market-guide-for-user-and-entity-behavior-analytics (дата обращения: 03.08.21).

3. Поляничко М.А. Методика обнаружения аномального взаимодействия пользователей с информационными активами для выявления инсайдерской деятельности // Труды учебных заведений связи. 2020. Т. 6. №. 1. С. 94 - 98.

4. Царёв Д.В. Методы и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности: дис. Моск. гос. ун-т им. МВ Ломоносова, 2017. 143 с.

5. Машечкин И.В., Петровский М.И., Царёв Д.В. Методы машинного обучения для анализа поведения пользователей при работе с текстовыми данными в задачах информационной безопасности // Вестник Московского университета. Серия 15. Вычислительная математика и кибернетика. 2016. №. 4. C. 33-48.

6. Ganesan K., Subotin M. A general supervised approach to segmentation of clinical texts //2014 IEEE International Conference on Big Data (Big Data). IEEE, 2014. С. 33-40.

7. Напрасникова М.А. Анализ процесса предобработки данных из twitter для использования методов Data Mining // Председатель оргкомитета-Емельянов Сергей Геннадьевич, д. т. н. 2016. С. 257.

8. Popat S.K., Deshmukh P.B., Metre V.A. Hierarchical document clustering based on cosine similarity measure // 2017 1st International Conference on Intelligent Systems and Information Management (ICISIM). IEEE, 2017. С. 153-159.

9. Maghilnan S., Kumar M.R. Sentiment analysis on speaker specific speech data //2017 International Conference on Intelligent Computing and Control (I2C2). IEEE, 2017. С. 1-5.

10. Лагутина К.В., Манахова А.М. Автоматизированный поиск и анализ стилометри-ческих характеристик, описывающих стиль прозы 19-21 веков // Моделирование и анализ информационных систем. 2020. Т. 27. №. 3. С. 330-343.

11. Рапаков Г.Г., Горбунов В.А. Экспериментальное сравнение методов анализа социальных сетей в задаче обнаружения сообществ // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. 2017. №. 3. С. 94-102.

12. Отраднов К.К., Раев В.К. Экспериментальное исследование эффективности методик векторизации текстовых документов и алгоритмов их кластеризации //Вестник Рязанского государственного радиотехнического университета. 2018. №. 64. С. 73-84.

13. Zhang Y., Jin R., Zhou Z. H. Understanding bag-of-words model: a statistical framework //International Journal of Machine Learning and Cybernetics. 2010. Т. 1. №. 1-4. С. 43-52.

14. Hakim A.A. et al. Automated document classification for news article in Bahasa Indonesia based on term frequency inverse document frequency (TF-IDF) approach // 2014 6th international conference on information technology and electrical engineering (ICITEE). IEEE, 2014. С. 1-4.

15. Li J. et al. Key word extraction for short text via word2vec, doc2vec, and textrank // Turkish Journal of Electrical Engineering & Computer Sciences. 2019. Т. 27. №. 3. С. 1794-1805.

16. Pennington J., Socher R., Manning C. D. Glove: Global vectors for word representation // Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014.С. 1532-1543.

17. Devlin J. et al. Bert: Pre-training of deep bidirectional transformers for language understanding // arXiv preprint arXiv:1810.04805. 2018. 13 p.

Савенков Павел Анатольевич, аспирант, pavel@savenkov.net, Россия, Тула, Тульский государственный университет,

Ивутин Алексей Николаевич, д-р техн. наук, профессор, alexey. ivutin@gmail. com, Россия, Тула, Тульский государственный университет

NATURAL LANGUAGE ANALYSIS METHODS FOR DETECTING BEHAVIORAL

ANOMALIES

P.A. Savenkov, A.N. Ivutin

The problem of searching for anomalous user behavior by the text entered by him on a mobile device in selected time periods is considered. The applied methods and algorithms of data analysis are compared in the task of searching for anomalous user behavior on different user data sets taken for different time intervals. It has been established that the minimum length of the text intended for analysis is 7 and the maximum 100 characters. Comparative characteristics of the presented methods

365

are obtained. It has been proven that the use of the TF-IDF, Word2Vec, BERT, GloVe methods is more effective than the use of bag of words and tf-idf in the task of finding anomalous user behavior. An algorithm is proposed for identifying a user and deviations in his behavior based on the combined use of natural language analysis methods and similarity metrics depending on the type and volume of input data.

Key words: machine learning; behavioral biometrics; anomalous behavior, natural language processing, cosine similarity.

Savenkov Pavel Anatolevich, postgraduate, pavel@savenkov.net, Russia, Tula, Tula State University,

Ivutin Aleksey Nikolaevich, doctor of technical sciences, professor, alex-ey.ivutin@gmail.com, Russia, Tula, Tula State University

УДК 535.31:514.185:655.395:628.952.1:628.952.1 DOI: 10.24412/2071-6168-2022-3-366-372

МОДЕЛИРОВАНИЕ ФОРМЫ ВЫПУКЛОГО ПАРАБОЛИЧЕСКОГО ОТРАЖАТЕЛЯ ДЛЯ ПЕРЕРАСПРЕДЕЛЕНИЯ СВЕТОВОГО ПОТОКА

С. Н. Литунов, В. Ю. Юрков

Приведено доказательство существования и построена область изменения параметров светонаправляющих конструкций, включающих источник излучения, отражатель и облучаемую поверхность. Рассматривается меридиональное сечение отражателя, которое представляет собой параболу высшего порядка. Варьируются параметры формы отражателя. Основными условиями для расчета являются выпуклость меридионального сечения и отсутствие пересечений отраженных лучей между отражателем и облучаемой поверхностью. В качестве примеров меридиональных сечений рассмотрены параболы третьего и четвертого порядка. Существование области варьирования параметров позволяет решать задачи оптимизации параметров светонаправляющей конструкции.

Ключевые слова: светонаправляющая конструкция, параболический отражатель, параметры формы, пространство параметров, освещаемая поверхность.

Любая светонаправляющая конструкция, включающая в себя даже минимальное число элементов, таких как источник излучения, отражатель и приемник, относится к многопараметрическим системам, исследование которых невозможно без построения их математических (геометрических) моделей. Несмотря на то, что такие системы являются статическими и детерминированными, проблема формообразования отражателя, дающего требуемое распределение светового потока на облучаемой поверхности - приемнике, остается в настоящее время актуальной задачей [1].

Отражатели, перераспределяющие световой поток от значительно удаленного источника, изучены гораздо лучше, чем отражатели, перераспределяющие световой поток на малых расстояниях [2, 3]. Также достаточно хорошо изучены светонаправляющие конструкции, создающие равномерную освещенность на плоской поверхности [4, 5]. Однако в случаях, когда приемник не является плоским или освещенность приемника не должна быть равномерной, а должна подчиняться какому-либо закону, задача формообразования отражателя становится значительно сложнее.

Решение задачи конструирования или синтеза светонаправляющей конструкции и, в частности, задачи формообразования отражателя путем геометрического моделирования предполагает два основных этапа. На первом этапе выполняется структурный синтез отражателя. Ввиду существования многочисленных и разнообразных форм отражателей, в данной статье мы ограничились рассмотрением плоской задачи для отражателей, выполненных в виде поверхности вращения с меридиональным сечением в виде параболы высшего порядка. На втором этапе формообразования выполняется параметрический синтез отражателя. Этот этап предполагает целенаправленный выбор параметров формы, к которым относятся любые

i Надоели баннеры? Вы всегда можете отключить рекламу.