Научная статья на тему 'ИДЕНТИФИКАЦИЯ УТЕЧКИ ДАННЫХ В СОЦИАЛЬНЫХ СЕТЯХ С ИСПОЛЬЗОВАНИЕМ K MEANS КЛАСТЕРИЗАЦИИ И TABU K MEANS КЛАСТЕРИЗАЦИИ'

ИДЕНТИФИКАЦИЯ УТЕЧКИ ДАННЫХ В СОЦИАЛЬНЫХ СЕТЯХ С ИСПОЛЬЗОВАНИЕМ K MEANS КЛАСТЕРИЗАЦИИ И TABU K MEANS КЛАСТЕРИЗАЦИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
155
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
предотвращение утечки данных / утечка электронной почты / метод кластеризации K-Means и метод кластеризации Tabu K-Means / data leakage prevention / email leakage / K-Means clustering method and Tabu K-Means clustering method

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Горелов Алексей Алексеевич, Рытов Михаил Юрьевич, Калашников Руслан Юрьевич

Предотвращение утечки данных было определено как процесс или решение, которое идентифицирует данные, которые являются конфиденциальными. Предотвращение утечки данных (DLP) — это метод или продукт, который пытается смягчить угрозы утечки данных. В этой работе метод кластеризации будет объединен с частотой термина или обратной частотой документа, чтобы определить правильные центроиды для анализа различных электронных писем, которые передаются между членами организации. Каждый член будет вписываться в различные тематические кластеры, и один такой тематический кластер также может состоять из нескольких членов организации, которые ранее не общались друг с другом. В работе была исследована методика кластеризации K-средних, а также предложена методика кластеризации Tabu Kдля выявления точек оптимальной кластеризации. Предложенный Tabu-КМ оптимизирует кластеризацию K-средних. Экспериментальные результаты показали, что предложенный метод обеспечивает более высокую скорость (TPR) для известного и неизвестного реципиента и более низкую ложноположительную скорость (FPR) для известного и неизвестного реципиента.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Горелов Алексей Алексеевич, Рытов Михаил Юрьевич, Калашников Руслан Юрьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IDENTIFYING INFO DRIP IN COLLECTIVE NETS EXPLOITATION K MEANS BUNCH AND TABU K MEANS CLUSTERING

Data leak prevention has been defined as a process or solution that identifies data that is sensitive. Data Leakage Prevention (DLP) is a method or product that attempts to mitigate data leakage threats. In this work, the clustering method will be combined with the term frequency or the inverse document frequency to determine the correct centroids for analyzing the various emails that are transmitted between members of the organization. Each member will fit into different thematic clusters, and one such thematic cluster may also consist of several members of the organization who have not previously communicated with each other. In this paper, the K-means clustering technique was investigated, and the Tabu K clustering technique was proposed to identify optimal clustering points. The proposed Tabu-KM optimizes the clustering of K-means. The experimental results showed that the proposed method provides a higher rate (TPR) for a known and unknown recipient and a lower false-positive rate (FPR) for a known and unknown recipient.

Текст научной работы на тему «ИДЕНТИФИКАЦИЯ УТЕЧКИ ДАННЫХ В СОЦИАЛЬНЫХ СЕТЯХ С ИСПОЛЬЗОВАНИЕМ K MEANS КЛАСТЕРИЗАЦИИ И TABU K MEANS КЛАСТЕРИЗАЦИИ»

gs4 инновации ^d

DOI 10.24412/2076-1503-2021-3-282-291 ГОРЕЛОВ Алексей Алексеевич,

аспирант кафедры системы информационной безопасности факультета информационных технологий Брянского государственного технического университета,

e-mail: GoralGod@yandex.ru

РЫТОВ Михаил Юрьевич,

кандидат технических наук, доцент кафедры системы информационной безопасности факультета информационных технологий Брянского государственного технического университета,

e-mail: rmy@tu-bryansk.ru

КАЛАШНИКОВ Руслан Юрьевич,

аспирант, кафедры системы информационной безопасности факультета информационных технологий Брянского государственного технического университета,

e-mail: kalashnikov.r@protonmail.com

ИДЕНТИФИКАЦИЯ УТЕЧКИ ДАННЫХ В СОЦИАЛЬНЫХ СЕТЯХ С ИСПОЛЬЗОВАНИЕМ K MEANS КЛАСТЕРИЗАЦИИ И TABU K MEANS КЛАСТЕРИЗАЦИИ

Аннотация. Предотвращение утечки данных было определено как процесс или решение, которое идентифицирует данные, которые являются конфиденциальными. Предотвращение утечки данных (DLP) — это метод или продукт, который пытается смягчить угрозы утечки данных. В этой работе метод кластеризации будет объединен с частотой термина или обратной частотой документа, чтобы определить правильные центроиды для анализа различных электронных писем, которые передаются между членами организации. Каждый член будет вписываться в различные тематические кластеры, и один такой тематический кластер также может состоять из нескольких членов организации, которые ранее не общались друг с другом. В работе была исследована методика кластеризации K-средних, а также предложена методика кластеризации Tabu - K- для выявления точек оптимальной кластеризации. Предложенный Tabu-КМ оптимизирует кластеризацию K-средних. Экспериментальные результаты показали, что предложенный метод обеспечивает более высокую скорость (TPR) для известного и неизвестного реципиента и более низкую ложноположительную скорость (FPR) для известного и неизвестного реципиента.

Ключевые слова: предотвращение утечки данных, утечка электронной почты, метод кластеризации K-Means и метод кластеризации Tabu K-Means.

GORELOV Alexey Alexeevich,

Post-graduate Student, Department of Information Security Systems, Faculty of Information Technologies Bryansk State Technical University

RYTOV Mikhail Yurevich,

Cand. Sc. (Technical), Associate Professor Department of Information Security Systems, Faculty of Information Technologies Bryansk State Technical University

ОБРАЗОВАНИЕ И ПРАВО № 3 • 2021

KALASHNIKOV Ruslan Yuryevich,

Post-graduate Student, Department of Information Security Systems, Faculty of Information Technologies Bryansk State Technical University

IDENTIFYING INFO DRIP IN COLLECTIVE NETS EXPLOITATION K MEANS BUNCH AND TABU K MEANS CLUSTERING

Annotation. Data leak prevention has been defined as a process or solution that identifies data that is sensitive. Data Leakage Prevention (DLP) is a method or product that attempts to mitigate data leakage threats. In this work, the clustering method will be combined with the term frequency or the inverse document frequency to determine the correct centroids for analyzing the various emails that are transmitted between members of the organization. Each member will fit into different thematic clusters, and one such thematic cluster may also consist of several members of the organization who have not previously communicated with each other. In this paper, the K-means clustering technique was investigated, and the Tabu - K clustering technique was proposed to identify optimal clustering points. The proposed Tabu-KM optimizes the clustering of K-means. The experimental results showed that the proposed method provides a higher rate (TPR) for a known and unknown recipient and a lower false-positive rate (FPR) for a known and unknown recipient.

Key words: data leakage prevention, email leakage, K-Means clustering method and Tabu K-Means clustering method.

Введение. Сегодня организации и частные лица страдают от данных, которые подвергаются несанкционированному доступу сторон. Эти утечки данных могут привести к различным последствиям [5; 6; 7; 8]. Когда конфиденциальные данные обрабатываются ненадлежащим образом, государственные правила могут быть нарушены, и это может привести к юридической ответственности. Например, компании несут ответственность за разглашение информации о сотрудниках или клиентах, такой как их номера социального страхования или кредитные карты. Кроме того, это может привести к потере бизнеса и может представлять угрозу для организации, если потеря частной информации является для конкурентов. Утечка данных также включает в себя передачу различной конфиденциальной информации любой третьей стороне, которой не доверяют, которая может быть преднамеренной или непреднамеренной. Существуют различные поставщики, предлагающие продукты для предотвращения утечки данных, но академические исследования по этой проблеме на удивление редки. Согласно исследованию, проведенному компанией survey reports [9], большинство угроз в адрес информационной безопасности была вызвана утечкой данных. Такая внутренняя угроза содержит, по оценкам, 29% утечек частных или конфиденциальных данных, которые являются случайными, еще 16% приблизительно относятся к краже интеллектуальной собственности, еще 15% - к другим кражам, которые включают информацию о клиентах или денежные данные, или и то, и другое. Кроме того, существует консенсус,

ОБРАЗОВАНИЕ И ПРАВО № 3 • 2021

согласно которому около 67% организаций считают ущерб от внутренних угроз более серьезным по сравнению с внешними угрозами. Поскольку деятельность современного бизнеса зависит от широкого использования электронной почты, утечка электронной почты с "неправильными получателями" в настоящее время стала очень распространенной, вызывая серьезный ущерб, что приводит к проблеме, которая очень беспокоит отдельных людей и организации. Было несколько решений, которые были предприняты для анализа обмена электронными письмами, чтобы предотвратить их отправку неправильным адресатам, но не привели к удовлетворительному решению. Существует несколько ошибок адресации электронной почты, которые остаются незамеченными, и в некоторых случаях правильные получатели ошибочно помечаются как ошибка адресации. Предотвращение утечки данных (DLP) - это метод или продукт, который пытается смягчить угрозы утечки данных. Продукты DLP теперь доступны у нескольких поставщиков, таких как McAfee, Trend Micro, CA Technologies и Symantec. В отличие от этого, предотвращению утечки данных в исследованиях уделялось лишь незначительное внимание. Это не означает, что проблема была решена, но что продукты были ограничены рассмотренными угрозами. Некоторые из наиболее распространенных методов, используемых для утечки электронной почты: методы текстового содержания и классификации. В методике текстуального наполнения для задачи прогнозирования утечек информации были использованы сообщения и их текстурное наполнение. Основная цель

состояла в том, чтобы смоделировать пары "адресат-сообщение", а также спрогнозировать пару, которая является наименее вероятной. Содержание текста электронной почты сравнивалось с косинусным сходством или методами кластеризации [13; 14]. Для метода, основанного на классификации, существует информация о социальной сети, которая используется. Существуют определенные особенности социальных сетей, которые используются как количество полученных сообщений, количество отправленных сообщений и количество раз, когда оба адресата были скопированы в одно сообщение. С целью объединения признаков социальной и текстовой сети была использована схема, основанная на классификации. Основная идея состояла в том, чтобы выполнить предсказание утечки в два разных этапа. Первый-вычислить текстовое сходство, которое оценивается с помощью процедуры перекрестной проверки. На следующем этапе сетевые функции добываются и изучают новую функцию с текстовыми оценками. В данной работе были использованы методы кластеризации для выявления утечек электронной почты [1; 2; 3; 4]. Алгоритмы кластеризации обычно ищут построение кластеров с использованием взаимосвязанных критериев для выбора объектов, которые находятся в одном кластере и довольно похожи, в то же время обеспечивая уверенность в том, что объекты в разных кластерах непохожи. Алгоритмы K-средних обеспечат эффективные средства для решения этой задачи, поскольку они находят оптимальное размещение K центров, которые действуют как центроид образованных кластеров. Алгоритм поиска Tabu (TS) принимает исходные решения в качестве входных данных и далее выполняет локальный поиск со структурами памяти и структурами окрестностей. Он также смягчает локальные минимумы, разрешая решения, которые не улучшают их целевую функцию. TS используется для решения нескольких других задач. Что касается задач кластеризации, то сложность высоких вычислений является сложной задачей, а выбор параметра, необходимого ТС, делает его нежизнеспособным по сравнению с алгоритмом K-средних. Далее TS сохраняет память о лучшем решении в точке поиска и возвращает решение, где алгоритм завершается. Основанный на структуре ТС гибридный алгоритм Tabu - КМ [10] использует свойства оптимизации ТС с локальной способностью поиска алгоритма K-средних и тем самым усиливает кластеризацию. В этом алгоритме сферическое пространство Tabu в решениях, полученных до сих пор для каждой итерации. Объект также имеет наимень-

ший радиус, и другие объекты, не найденные в пространстве Tabu, могут выбрать другой кластер. Он также имеет наименьший радиус лучшего на данный момент центра. Это приведет к уклонению от локальных оптимумов для выявления улучшенных решений. В данной работе предлагается TABU-КМ, используемый для социальной сети в DLP. Остальная часть расследования была организована таким образом.

Алсаят и Эль-Сайед [11] предложили контекст, используемый для задачи обнаружения сообществ с помощью кластеризации сообщений, взятых из больших потоков социальных данных. Предложенная структура использует алгоритм кластеризации K-средних с Генетическим алгоритмом и Оптимизированным кластерным расстоянием (OCD) для кластеризации данных. Предложенная структура имеет двоякую цель-преодоление проблем в общих K-средних и выбор первичных центроидов, которые являются наилучшими с помощью генетического алгоритма, и максимизация расстояния, наблюдаемого между кластерами, путем попарного использования методов ОКР для получения точных кластеров. Для оценки предложенного алгоритма и его производительности было использовано несколько других метрик кластерной валидации. Этот анализ доказал, что предложенный метод обеспечивает лучшие результаты кластеризации с новым вариантом использования группировки сообществ пользователей. Подход был оптимизирован и масштабируем для данных социальных сетей и их кластеризации в реальном времени. Другой подход к предотвращению "промахов" электронной почты был предложен Zilberman et al., [12]. Этот подход был построен на анализе обмена почтой внутри организации и ее партнеров, а также на выявлении партнеров, которые обмениваются электронными письмами, имеющими общие темы. Во время фазы принудительного исполнения для обнаружения любой потенциальной утечки использовались испытуемые каждого сотрудника. В момент создания и отправки нового письма анализируется адресат каждого письма. Одобрение получателя в случае, если содержание письма относится как минимум к одной теме, которая является общей как для получателя, так и для отправителя. Существует, однако, критическая проблема предотвращения утечки информации из электронных писем, которая заключается в том, что сообщение случайно адресовано получателям, которые не являются желательными. В работе использовалась структура КИ для абстрактного реального обмена информацией с формально определенным пото-

ОБРАЗОВАНИЕ И ПРАВО № 3 • 2021

ком информации, в котором политика конфиденциальности описывала последовательности всех допустимых потоков. Текущие методы обнаружили все неправильно направленные электронные письма от шлюза или агента пользователя, но это не подходило для различных сред приложения. Pu et al., [16] сделали новое предложение о методе обнаружения неправильно направленной электронной почты, который был основан на муль-ти-атрибутах, развернутых на стороне сервера. Существует три различных атрибута, которые включают в себя дактилоскопию содержимого электронной почты, метаинформацию и социальные отношения. На основе алгоритма классификации Машины опорных векторов (ВМ) эксперименты доказали, что они могут обнаруживать все неправильно направленные электронные письма с точностью около 91,6%.

Методология. Для целей этого раздела были обсуждены алгоритм кластеризации TABU-KM, кластеризация K-Means и Иерархическая агломеративная кластеризация (HAC). A. Dataset Существовал набор данных электронной почты Enron, который был обнародован во время этого исследования, любезно предоставленный Федеральной комиссией по регулированию энергетики. Для этого было несколько проблем с достоверностью. Они были собраны и затем организованы для проекта, известного как Когнитивный помощник, который учится и организует (CALO). Многие вопросы целостности этого набора данных были идеально решены. Он также содержал различные типы электронных писем, как официальных, так и личных [17]. Некоторые электронные письма были удалены из-за обращений пострадавших сотрудников. Эта конкретная версия набора данных содержала около 517 431 писем, полученных от ста пятидесяти одного пользователя, которые были распределены по трем тысячам пятистам папкам. Сообщения не содержали никаких вложений. Этот набор данных содержал информацию о папках для всех 151 сотрудника. Каждое сообщение в папке содержало адрес электронной почты как получателя, так и отправителя, время, дату, тело, текст, тему и некоторые другие технические детали. B. Иерархическая агломеративная кластеризация (HAC) Анализ иерархической кластеризации-это широко используемый метод, который разделяется на два различных типа: агломеративные методы, которые объединяют множество экземпляров x в некоторые универсальные наборы, и разрушительные методы, которые разделяют экземпляры x на более тонкие наборы.НАС является итеративным,

который строит дерево T, созданное над набором данных на основе функции связи. Функция связи l: 2X х 2X ^ R будет оценивать фактическое слияние двух различных узлов, соответствующих кластерам с точками данных, хранящимися на листьях-потомках. Это инициализируется созданием узла для каждой точки данных. Она продолжается в новой серии раундов. Для каждого раунда HAC два узла, минимизирующие функцию связи, будут объединены, что сделает их братьями и сестрами друг друга и в дальнейшем создаст новые узлы в качестве родителей. Этот алгоритм завершится после его окончательного слияния, и это создаст фактический корень для дерева [18]. Преимущества этого подхода HAC показаны ниже:

• • Простота и простота вычислений и реализации.

• • Меньшее количество ограничений и больше уровней гибкости: ВАК использует простую информацию о связности количественных данных с использованием уровня принимаемого сигнала (RSS) или GPS. Кроме того, есть и другие факторы, которые включены в этот алгоритм. Например, существуют различные веса, назначенные соединениям или узлам для различных сценариев.

• • Меньшие потребности в ресурсах для создания кластеров: При подходе HAC узлы будут завершать выборы, объявление, создание и планирование кластеров одновременно. Это в значительной степени уменьшило рассеивание ресурсов.

• • Работает без необходимости периодически перекластерировать или обновлять сеть: Этот подход HAC может генерировать резервную копию CH, которая была логичной в процессе генерации кластеров, что делает их легко адаптивными к изменениям. C.

Частота термина - Обратная частота документа (TFIDF) TF-IDF- это статистическая мера, отражающая важность слова для документов в корпусе или коллекции. TF - обозначает фактическое количество раз, когда слово появляется в документе, измеренное с необработанной частотой, деленной на максимальную необработанную частоту для слова в документе [15]. Центроиды кластеров вычисляются с помощью кластеризации K-Mean по векторам TF-IDF(c), найденным в обучающем наборе данных. D. Алгоритм кластеризации K-Means K-Means-это очень простой алгоритм обучения, который используется без

ОБРАЗОВАНИЕ И ПРАВО № 3 • 2021

контроля для решения задач кластеризации. Он помечает данный набор данных, определяя количество К кластеров, которые фиксированы априори. Для каждого кластера существует связанный центроид, и это центр тяжести, помещенный в проблемное пространство. Основная идея здесь состоит в том, чтобы разбить выборки набора данных на К групп (или кластеров), где каждый объект имеет некоторые общие черты с другими объектами в аналогичном кластере. Этот алгоритм начинает использовать случайный набор из К начальных центральных точек кластера, который является С 0 = 1 ...К), и они обозначают текущие центроиды. Во - первых, вычисляется расстояние (также называемое мерой несходства) для каждого объекта до каждого кластера, и это связано с его ближайшим центроидом. Как только это сделано, К-новые центроиды пересчитыва-ются. В результате предыдущего шага. Оба шага будут повторяться итеративно до тех пор, пока не произойдет сходимость, и это может быть назначение центроидов, которые не изменяются до тех пор, пока не будет достигнут конечный набор итераций. Что касается вычисления расстояния между экземплярами и их кластерами, то он направлен на оптимизацию целевой функции (0 в (4):

Где К обозначает количество кластеров, ^количество экземпляров, j х-координата экземпляра, Снкоордината кластера ^ Gi-группа всех экземпляров кластера к

Этот алгоритм далее перемещает центры кластеров в пространстве, чтобы уменьшить квадрат расстояний внутри кластера. Для каждого кластера существует новый центроид, который пересчитывается путем усреднения объекта и местоположения. Вычисление центроида производится так, как показано в уравнении (5):

Где | Gi | обозначает фактическое количество объектов, находящихся в кластере i.K-Сред-нее приведет к новому разделению объектов на некоторые группы, которые имеют минимизированные метрики, которые вычисляются. K-Means является очень популярным.

Алгоритм так же гибок, прост в реализации, прямолинеен и прост. Несмотря на то, что он поле-

зен в широком смысле, он страдает от определенных ограничений. Число кластеров K должно быть известно заранее. Целевая функция Kmeans не будет выпуклой и может также содержать некоторые локальные оптимумы. Таким образом, он имеет тенденцию попадать в локальные минимумы (или локальные максимумы, а иногда и сед-ловую точку). Его эффективность зависит от начальных центроидов, а также он довольно чувствителен к выбросам и шумам. Кластеризация данных не очень подходит для кластеров по плотности. Он не может быть применен к вычислению среднего и сбору данных и ограничен только числовыми данными.

Существуют различные методы остановки процесса поиска, и как только набор заранее определенных итераций будет завершен, объективное значение может быть идентифицировано как значение, которое ниже любого малого порога. F. Предложенный алгоритм Tabu-КМ Предложенная схема классификации основана на обмене почтовым трафиком. Предполагалось, что любой пользователь может быть частью различных групп, которые работают над несколькими различными темами. На следующем этапе каждое новое письмо, которое будет отправлено, будет проанализировано следующим образом: для каждого получателя письмо будет проверено, являются ли получатель и отправитель частью общей тематической группы. Если такой группы нет, они приходят к выводу, что нет общей темы для обоих пользователей. Тогда получатель, упомянутый выше, не прав. Если нет, то электронное письмо и его содержимое будут сравниваться с содержимым электронной почты, которым был обменен обмен. Новая модель классификации состоит из двух фаз-фазы обучения и фазы классификации. Обучение будет использоваться на новом наборе писем, называемых «без утечек», и классифицируется, что будет использоваться на новых письмах, составленных так, чтобы они характеризовались как запросы. Каждое электронное письмо будет иметь контент, представленный с помощью вектора TF-IDF. С учетом структуры ТС был задуман гибрид TABU-КМ и в дальнейшем применено оптимизационное качество ТС с локальной способностью поиска К-средних. В предлагаемом алгоритме существует сферическое пространство Tabu, которое находится вокруг решения, которое является текущим лучшим для каждого повторения. Кроме того, другим экземплярам, недоступным в пространстве Tabu, было разрешено выбрать новый кластер в качестве его центра. Объект также имеет наименьший радиус центра, который является лучшим на данный момент. Это

ОБРАЗОВАНИЕ И ПРАВО № 3 • 2021

может привести к тому, что он выйдет из локальных оптимумов и определит некоторые решения, которые лучше [10]. Конфигурация будет представлять собой решение числовых переменных. На начальном этапе этого алгоритма K-Средние будут генерировать ответ, который является выполнимым. После этого будут вычислены центроиды для кластеров. Эти кластеры будут выбраны последовательно для генерации нового решения с помощью логики этого алгоритма. Отправной точкой для алгоритма будет центр выбранного кластера. Идентифицированы два вида Tabu, найденных в системе Tabu-КМ, которые являются пространством Tabu и списком Tabu. Причиной этого было использование пространства Tabu для размещения всех запрещенных центров кластерного центра. Есть две стратегии, используемые для реализации пространства Tabu, которые были исследованы, и они являются Статическими и Динамическими. Как только пространство Tabu будет создано или расширено, его объект будет расположен вне пространства, чтобы стать новым центром кластера. После выполнения алгоритма производится исследование центра кластера. Если новый центр кластера находится внутри пространства TABU, это будет означать только то, что они находятся внутри локального оптимального состояния и должны будут изменить свое направление путем ограничения повторного выбора объекта. Если в пространстве TABU не найден новый центр кластера, то направление последующего движения определяется в соответствии со значением целевой функции и определением либо улучшения решения, либо его отсутствия. Перемещение означает новый процесс, который генерирует жизнеспособный ответ на проблему кластеризации, связанный с настоящим ответом. Во время итерации новый центр кластера, найденный в окрестности, выби-

рается из его текущего центра кластера, недоступного в пространстве Tabu. Сферическое пространство поиска и его радиус будут увеличены, чтобы другие экземпляры, недоступные в пространстве TABU, могли стать центром его нового кластера. Как только будет найдено лучшее решение, это сферическое пространство будет принято во внимание, и оно будет находиться вокруг центра наилучшего на данный момент решения, а также может быть в другом направлении. После выполнения K-средних в алгоритме TABU-КМ, если новый центр находится в пространстве TABU, решение и его значение будут вычислены в соответствии с его новой целевой функцией. В случае, если решение имеет гораздо более улучшенную ценность своего лучшего решения до сих пор, это решение будет принято как решение, которое является лучшим до сих пор. Даже если он вернется в пространство TABU, ему придется ограничить повторный выбор этого объекта, так как кластерный центр благодаря удовлетворению критерия устремления будет иметь решение, которое лучше всего будет обновлено его текущим решением. Этот процесс завершится в то время, когда все кластеры будут последовательно исследованы без какого-либо существенного улучшения в его лучшем на данный момент решении. Для изучения каждого такого кластера центр других кластеров может быть изменен, и поэтому важно иметь возможность повторно изучить все кластеры, чтобы прийти к лучшему ответу.

Результаты и обсуждение. В этом разделе используются методы HAC, K-Means и Tabu K-Means. В таблице 1 приведены сводные результаты. Истинно положительная скорость (TPR) для известного и неизвестного получателя и Ложнопо-ложительная скорость (FPR) для известного и неизвестного получателя и TP получены, как показано на рисунках 1-3.

Таблица 1

Сводные результаты

HAC K-Means Tabu K-Means

TPR для известного получателя 0.8231 0.8377 0.8468

TPR для неизвестного получателя 0.8407 0.8466 0.8642

FPR для известного получателя 0.1593 0.1534 0.1358

FPR для неизвестного получателя 0.1769 0.1623 0.1532

ОБРАЗОВАНИЕ И ПРАВО № 3 • 2021

Истинная положительная скорость (TPR)

0,57

0,52 0,51 0,5

НАС K-Means Tabu K-Means -TPR для известного пол -¿чате ля -TPR для неизвестного получателя

Рис 1. Истинная положительная скорость (TPR)

Из рисунка 1 видно, что Tabu K-Means имеет более высокий TPR для известного реципиента на 2,83% для HAC и на 1,08% для K-Means. Tabu

K-Means имеет более высокий ТРР для неизвестного реципиента на 2,75% для НАС и на 2,05% для K-Means.

Рисунок 2. Ложноположительная частота (FPR)

ОБРАЗОВАНИЕ И ПРАВО № 3 • 2021

Из рисунка 2 видно, что Tabu K-Means имеет более высокий FPR для известного реципиента на 15,92% для HAC и на 12,17% для K-Means. Tabu

Из рисунка 3 видно, что Tabu K-Means имеет более высокий средний TP на 6,2% для HAC и на 2,86% для K-Means соответственно.

Заключение. Увеличение числа инцидентов утечки и связанных с ними издержек, угроза утечки данных стали критической проблемой безопасности для организаций. Для предотвращения утечки используются методы DLP.Один из популярных методов DLP основан на кластеризации, которая группирует экземпляры в несколько классов, чтобы гарантировать, что объекты каждого класса (или кластера) очень похожи на правила критериев. Алгоритм K-средних будет основным методом или кластеризацией разделов, который популярен благодаря простоте его вычисления. Но это может быть очень чувствительным аспектом для выбора различных начальных центроидов кластера, которые находятся в ловушке внутри локальных минимумов. В этой работе был разработан эффективный алгоритм, основанный на подходе поиска Tabu, известном как Tabu-KM, путем интеграции пространства Tabu и изменения генератора, чтобы ограничить все экземпляры, чтобы выбрать его в качестве центра кластера. Алгоритм Tabu-KM был использован для смягче-

K-Means имеет более высокий FPR для неизвестного получателя на 14,35% для НАС и на 5,77% для K-Means

ния локальных оптимумов для поиска решений для лучшей кластеризации. Результаты показали, что Tabu K-Means будет иметь более высокий TPR, который для получателя составляет около 2,83% для HAC и около 1,08% для K-Means. Tabu K-Means будет иметь более высокий TPR для неизвестного получателя примерно на 2,75% для HAC и далее примерно на 2,05% для K-Means. Это Tabu K-Means будет иметь более высокий FPR для известного получателя примерно на 15,92% для HAC и далее примерно на 12,17% для K-Means. Tabu K-Means также имеет более высокий FPR для неизвестного получателя примерно на 14,35% для HAC и далее примерно на 5,77% для K-Means

Список литературы:

[1] Агапов, К.О., Ламанов, В.В., Гвоздецкий, Е.А. Сегментация изображения с использованием алгоритма k-Means // Прикладная математика и информатика: современные исследования в области естественных и технических наук. Материалы V Международной научно-практической конференции (школы-семинара) молодых ученых. Тольятти, 22-24.04.2019. - Тольятти: Качалин А.В., 2019. - С. 16-19.

Истинный Позитив (TP)

1.2

0.6 0.4 0,2 О

1 4 7 ill 15 19 22 25 23 31 34 37 40 43 45 49 52 55 58 51 64 57 70 73 76 79 -НАС -KMeans -Tabu К-me ans

Рисунок 3. Истинный Позитив (TP)

ОБРАЗОВАНИЕ И ПРАВО № 3 • 2021

[2] Ерохин, С.Д., Ванюшина, А.В. Использование алгоритма кластеризации k-Means для идентификации сетевого трафика // Электросвязь. 2018. № 12. - С. 48-49.

[3] Меркурьева, Д.П., Дамирова, С.И., Черно-руцкий, И.Г. Использование алгоризмов мягких вычислений для оптимизации работы алгоритма кластеризации k-Means // Современные технологии в теории и практике программирования: Сборник материалов конференции. Санкт-Петербургский политехнический университет Петра Великого, 23.04.2020. - СПб.: Политех-Пресс, 2020. С. 99-101.

[4] Полин, Я.А., Степанов, С.И., Ананченко, И.В. Алгоритм кластеризации k-Means // Передовые инновационные разработки. Перспективы и опыт использования, проблемы внедрения в производство: Сборник научных статей по итогам второй международной научной конференции. Казань, 30.03.2019. - Казань: ООО «Конверт», 2019. - С.203-205.

[5] Прончев, Г.Б., Прончева, Н.Г., Гончарова, И.В., Прончев, К.Г. Медиаглобализация: информационные угрозы // Образование и право. 2019. № 7. - С. 11-18.

[6] Рыжов, В.Б. Информационная безопасность в государствах европейского союза: к постановке проблемы // Представительная власть - XXI век: законодательство, комментарии, проблемы. 2018. № 4 (163). - С. 8-12.

[7] Шинкарецкая, Г.Г. Атаки на компьютерные системы в мирное время и обеспечение безопасности государства // Труды Института государства и права Российской академии наук. 2016. № 3. - С. 116-128.

[8] Boonstra, Albert. Interpreting an ERPimplementation project from a stakeholder perspective // Int. J. Proj. Manag. 2006. № 24 (1). - P. 38-52.

[9] Bosse, Douglas A., Phillips, Robert A. Agency theory and bounded self-interest // Acad. Manag. Rev. 2016. № 41 (2). - Р. 276-297.

[10] Cardinal, Laura. B., Kreutzer, Markus, Miller, Chet C. An Aspirational View of Organizational Control Research: Re-Invigorating Empirical Work to Better Meet the Challenges of 21st Century Organizations // Acad. Manag. Ann. 2017. № 11 (2). - Р. 559-592.

[11] Charmaz, Kathy. Constructing grounded theory: a practical guide through qualitative analysis. Sage,London, 2006.

[12] Chua, Cecil Eng Huang., Myers, Michael D. Social control in information systems development: a negotiated order perspective // J. Inf. Technol. 2018. № 33 (3). - Р. 173-187.

[13] Connelly, Brian L., Certo, Trevis S, Ireland, Douane R., Reutzel, Chirstopher R. Signaling theory:

A review and assessment // J. Manage. 2011. № 37 (1). - Р. 39-67.

[14] Corley, Kevin G., Gioia, Dennis A. Building Theory About Theory Building: What Constitutes A Theoretical Contribution? // Acad. Manag. Rev. 2011. № 36 (1). - P. 12-32.

[15] Cram, Alec W. Information Systems Control: A Review and Synthesis of the Literature. In: AMCIS 2011 Proceedings - All Submissions, 2011.

[16] Cram, Alec W, Brohman, Kathryn, Gallupe, Brent R. Hitting a moving target: A process model of information systems control change // Inf. Syst. J. 2016. № 26 (3). - Р 195-226.

[17] Cram, Alec W., Brohman, Kathryn, Gallupe, Brent R. Information Systems Control: A Review and Framework for Emerging Information Systems Processes. J. Assoc. Inf. Syst. 2016. № 17 (4). - Р. 216-266.

[18] Cram, Alec W., Wiener, Martin. Perceptions of control legitimacy in information systems development. Inf. Technol. People. 2018. № 31 (3). - Р. 712-740.

Spisok literatury:

[1] Agapov, K.O., Lamanov, V.V., Gvozdeckij, E.A. Segmentaciya izobrazheniya s ispol'zovaniem algoritma k-Means // Prikladnaya matematika i infor-matika: sovremennye issledovaniya v oblasti estest-vennyh i tekhnicheskih nauk. Materialy V Mezhdunar-odnoj nauchno-prakticheskoj konferencii (shko-ly-seminara) molodyh uchenyh. Tol'yatti, 22-24.04.2019. - Tol'yatti: Kachalin A.V., 2019. - S. 16-19.

[2] Erohin, S.D., Vanyushina, A.V. Ispol'zovanie algoritma klasterizacii k-Means dlya identifikacii sete-vogo trafika // Elektrosvyaz'. 2018. № 12. - S. 48-49.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[3] Merkur'eva, D.P., Damirova, S.I., CHer-noruckij, I.G. Ispol'zovanie algorizmov myagkih vychislenij dlya optimizacii raboty algoritma klasterizacii k-Means // Sovremennye tekhnologii v teorii i praktike programmirovaniya: Sbornik materialov konferencii. Sankt-Peterburgskij politekhnicheskij universitet Petra Velikogo, 23.04.2020. - SPb.: Politekh-Press, 2020. S. 99-101.

[4] Polin, Ya.A., Stepanov, S.I., Ananchenko, I.V. Algoritm klasterizacii k-Means // Peredovye inno-vacionnye razrabotki. Perspektivy i opyt ispol'zovaniya, problemy vnedreniya v proizvodstvo: Sbornik nauchnyh statej po itogam vtoroj mezhdunar-odnoj nauchnoj konferencii. Kazan', 30.03.2019. -Kazan': OOO «Konvert», 2019. - S. 203-205.

[5] Pronchev, G.B., Proncheva, N.G., Gon-charova, I.V., Pronchev, K.G. Mediaglobalizaciya: informacionnye ugrozy // Obrazovanie i pravo. 2019. № 7. - S. 11-18.

ОБРАЗОВАНИЕ И ПРАВО № 3 • 2021

[6] Ryzhov, V.B. Informacionnaya bezopasnost' v gosudarstvah evropejskogo soyuza: k postanovke problemy // Predstavitel'naya vlast' - XXI vek: zakono-datel'stvo, kommentarii, problemy. 2018. № 4 (163). - S. 8-12.

[7] Shinkareckaya, G.G. Ataki na komp'yuternye sistemy v mirnoe vremya i obespechenie bezopas-nosti gosudarstva // Trudy Instituta gosudarstva i prava Rossijskoj akademii nauk. 2016. № 3. - S. 116-128.

[8] Boonstra, Albert. Interpreting an ERP-implementation project from a stakeholder perspective // Int. J. Proj. Manag. 2006. № 24 (1). - P. 38-52.

[9] Bosse, Douglas A., Phillips, Robert A. Agency theory and bounded self-interest // Acad. Manag. Rev. 2016. № 41 (2). - R. 276-297.

[10] Cardinal, Laura. B., Kreutzer, Markus, Miller, Chet C. An Aspirational View of Organizational Control Research: Re-Invigorating Empirical Work to Better Meet the Challenges of 21st Century Organizations // Acad. Manag. Ann. 2017. № 11 (2). - R. 559-592.

[11] Charmaz, Kathy. Constructing grounded theory: a practical guide through qualitative analysis. Sage,London, 2006.

[12] Chua, Cecil Eng Huang., Myers, Michael D. Social control in information systems develop-

ment: a negotiated order perspective // J. Inf. Technol. 2018. № 33 (3). - R. 173-187.

[13] Connelly, Brian L., Certo, Trevis S, Ireland, Douane R., Reutzel, Chirstopher R. Signaling theory: A review and assessment // J. Manage. 2011. № 37 (1). - R. 39-67.

[14] Corley, Kevin G., Gioia, Dennis A. Building Theory About Theory Building: What Constitutes A Theoretical Contribution? // Acad. Manag. Rev. 2011. № 36 (1). - P. 12-32.

[15] Cram, Alec W. Information Systems Control: A Review and Synthesis of the Literature. In: AMCIS 2011 Proceedings - All Submissions, 2011.

[16] Cram, Alec W, Brohman, Kathryn, Gallupe, Brent R. Hitting a moving target: A process model of information systems control change // Inf. Syst. J. 2016. № 26 (3). - R. 195-226.

[17] Cram, Alec W., Brohman, Kathryn, Gallupe, Brent R. Information Systems Control: A Review and Framework for Emerging Information Systems Processes. J. Assoc. Inf. Syst. 2016. № 17 (4). - R. 216266.

[18] Cram, Alec W., Wiener, Martin. Perceptions of control legitimacy in information systems development. Inf. Technol. People. 2018. № 31 (3). - R. 712740.

ОБРАЗОВАНИЕ И ПРАВО № 3 • 2021

i Надоели баннеры? Вы всегда можете отключить рекламу.