Научная статья на тему 'ПРОБЛЕМА ИЗБЫТОЧНОСТИ И ПЛОТНОСТНАЯ НОРМАЛИЗАЦИЯ КООРДИНАТ ГЕОЛОКАЦИИ КАК ЭТАП ПОДГОТОВКИ ДАННЫХ К ДЕТЕКТИРОВАНИЮ АНОМАЛИЙ МЕСТОПОЛОЖЕНИЯ ПЛОТНОСТНЫМ МЕТОДОМ МАШИННОГО ОБУЧЕНИЯ WRAPDBSCAN'

ПРОБЛЕМА ИЗБЫТОЧНОСТИ И ПЛОТНОСТНАЯ НОРМАЛИЗАЦИЯ КООРДИНАТ ГЕОЛОКАЦИИ КАК ЭТАП ПОДГОТОВКИ ДАННЫХ К ДЕТЕКТИРОВАНИЮ АНОМАЛИЙ МЕСТОПОЛОЖЕНИЯ ПЛОТНОСТНЫМ МЕТОДОМ МАШИННОГО ОБУЧЕНИЯ WRAPDBSCAN Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
93
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
DBSCAN / WRAPDBSCAN / ДЕТЕКТИРОВАНИЕ АНОМАЛИЙ / ГЕОЛОКАЦИЯ / НОРМАЛИЗАЦИЯ / ПЛОТНОСТНЫЕ МЕТОДЫ / МАШИННОЕ ОБУЧЕНИЕ / ANOMALY DETECTION / GEOLOCATION / NORMALIZATION / DENSITY METHODS / MACHINE LEARNING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Набродова Ирина Николаевна, Савенков Павел Анатольевич, Трегубов Павел Сергеевич

Выявляются особенности геолокации с точки зрения машинного обучения, формально описывается алгоритм DBSCAN и WRAPDBSCAN. Выделяется проблема избыточности данных геолокации. Предлагается алгоритм плотностной нормализации координат, для подготовки данных геолокации к детектированию аномалий плотностным методом WRAPDBSCAN.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE PROBLEM OF REDUNDANCY AND DENSITY NORMALIZATION OF GEOLOCA TION COORDINA TES AS A STA GE OF DA TA PREPARA TION FOR DETECTING LOCATION ANOMALIES BY THE WRAPDBSCAN DENSITY MACHINE LEARNING METHOD

The study identifies the features of geolocation from the point of view of machine learning formally describes the DBSCAN and WRAPDBSCAN algorithm, highlights the problem of redundancy of geolocation data, and proposes an algorithm for density normalization of coordinates to prepare geolocation data for anomaly detection using the WRAPDBSCAN density method.

Текст научной работы на тему «ПРОБЛЕМА ИЗБЫТОЧНОСТИ И ПЛОТНОСТНАЯ НОРМАЛИЗАЦИЯ КООРДИНАТ ГЕОЛОКАЦИИ КАК ЭТАП ПОДГОТОВКИ ДАННЫХ К ДЕТЕКТИРОВАНИЮ АНОМАЛИЙ МЕСТОПОЛОЖЕНИЯ ПЛОТНОСТНЫМ МЕТОДОМ МАШИННОГО ОБУЧЕНИЯ WRAPDBSCAN»

УДК 004.891.2

ПРОБЛЕМА ИЗБЫТОЧНОСТИ И ПЛОТНОСТНАЯ НОРМАЛИЗАЦИЯ КООРДИНАТ ГЕОЛОКАЦИИ КАК ЭТАП ПОДГОТОВКИ ДАННЫХ К ДЕТЕКТИРОВАНИЮ АНОМАЛИЙ МЕСТОПОЛОЖЕНИЯ ПЛОТНОСТНЫМ МЕТОДОМ МАШИННОГО ОБУЧЕНИЯ WRAPDBSCAN

И.Н. Набродова, П.А. Савенков, П.С. Трегубов

Выявляются особенности геолокации с точки зрения машинного обучения, формально описывается алгоритм ВБ8СЛЫ и ШКЛРВБ8СЛЫ. Выделяется проблема избыточности данных геолокации. Предлагается алгоритм плотностной нормализации координат, для подготовки данных геолокации к детектированию аномалий плот-ностным методом ШЯЛРВБ8СЛЫ.

Ключевые слова: ВБ8СЛЫ, ШЯЛРВБ8СЛЫ, детектирование аномалий, геолокация, нормализация, плотностные методы, машинное обучение.

За последние несколько лет наблюдается рост интереса к машинному обучению. Все больше машинное обучение входит в различные сферы жизни: экономика, бизнес, медицина, администрирование и т.п. и охватывает огромный спектр задач, направленных на прогнозирование, классификацию, кластеризацию и т.д. Одной из задач машинного обучения является задача детектирования аномалий, которая заключается в определении данных, не похожих на других. Особый интерес представляет задача детектирования аномалий геолокации пользователей, так как слабо описана в отечественной и зарубежной научной литературе.

Задача детектирования аномалий. Задача поиска аномалий -это вид задач машинного обучения, заключающийся в опознавании во время интеллектуального анализа данных редких данных, не похожих на других.

Данный вид задач в случае наличия обучающей выборки рассматривается как задача классификации, а в случае ее отсутствия как задача кластеризации [1].

Задача классификации - задача, в которой имеется множество объектов, разделенных некоторым образом на классы. При этом задана обучающая выборка.

Задача кластеризации - задача, в которой имеется множество объектов, разделенных некоторым образом на классы. При этом обучающая выборка отсутствует или ее сбор является трудоемким или невозможным.

Пример аномалий представлен на рис. 1. Красным цветом выделены аномалии местоположения, черным - нормальные данные.

Из рисунка видно, что красные точки не вписываются в общую картину.

Данная работа затрагивает задачу детектирования аномалий геолокации как задачу кластеризации [2].

1 ®® ®

• • • •

• • А .

• • •• * •• • • • * • л • * •

: ... . •

Рис. 1. Аномалии и нормальные данные

Плотностной алгоритм машинного обучения DBSCAN и WRAPDBSCAN. ББ8СЛК - алгоритм кластеризации, основанный на плотности - если дан набор точек в некотором пространстве, алгоритм группирует вместе точки, которые тесно расположены, помечая как аномалии точки, которые находятся одиноко в областях с малой плотностью (ближайшие соседи которых лежат далеко). Данный алгоритм сильно зависит от одного из своих параметров - г (радиус поиска) [3,41.

WRAPDBSCAN - модификация алгоритма ББЗСЛЫ, заключающаяся в определении радиуса поиска по среднему расстоянию между точками, попавшими в определенные зоны.

Особенности геолокации с точки зрения машинного обучения. Формы кластеров. В ходе сбора местоположения некоторых пользователей выявлено, что кластеры с координатами могут иметь произвольную форму и плотность координат. На рис. 2 представлены кластеры с малой и большой плотностью.

Рис. 2. Кластеры данных с малой плотностью (слева внизу) и большой плотностью (справа вверху)

На рис. 3 помимо кластеров различной формы представлены промежуточные растянутые кластеры, содержащие кластеры «дорожных» координат.

По своей форме координаты пользователя могут образовывать кластеры абсолютно произвольной формы, зависящей от перемещения.

120

999

Рис. 3. «Дорожный» кластер

Расположение кластеров относительно друг друга. При использовании методов машинного обучения и интеллектуального анализа данных большое значение имеет расположение и количество кластеров. С точки зрения местоположения количество кластеров зависит от методов и алгоритмов решения задачи. В общем случае количество кластеров зависит от перемещения наблюдаемого пользователя. Кластеры могут уплотняться, если пользователь перемещается в пределах уже имеющегося кластера либо пролонгироваться к другому при перемещении пользователя в другое место. На рис. 4 представлены 2 кластера перемещения из одной точки в другую.

54 16 54.1Л 54.12 54 10 54.CS 54.06 54.04 54.02 54.00 53.96

37.6 37,7 37.0 37.9 ЗВ.О 38.1 38.2 Э8.3 38.4 38.5 33.6

Рис. 4. Два кластера с перемещением от одного к другому

I • * •

• • 1

% • • •

• • •

%.

• ■ 1 1-

« * • 1 %

• лт*** • * С, »

Глобально расположение плотных кластеров зависит от перемещений пользователя и может быть хаотичным. На рис. 5 красным цветом выделены наиболее значимые по плотности кластеры перемещения.

Рис. 5. Кластеры перемещения

Понятие аномальности геолокации. С точки зрения машинного обучения понятие аномальности геолокации размазано. С одной стороны, возможность сбора какой-либо обучающей выборки есть, что интерпретирует задачу детектирования аномалий геолокации как задачу классификации, с другой, обучающая выборка координат в большинстве случаев будет неточной и неполной, и не отражающей полной картины всевозможных перемещений пользователя.

Сложность сбора обучающей выборки в случае местоположения обусловлена невозможностью определения эталонной картины перемещения того или иного пользователя, поэтому степень достоверности результатов детектирования аномалий методами и алгоритмами классификации в большинстве случаев мала.

Отсутствие обучающей выборки в задачах детектирования аномалий местоположения перемещает ее в класс задач кластеризации. В этом случае алгоритмы «подстраиваются» под данные, выделяя наиболее плотные кластеры.

Связь задачи детектирования аномалий геолокации и алгоритмов DBSCAN и WRAPDBSCAN. В силу хаотичности и непредсказуемости собираемых данных о геолокации пользователя методы детектирования аномалий, отличные от плотностных, являются неэффективными. Это объясняется тем, что большинство из них имеют входной параметр количества кластеров, что в отношении геолокации неприменимо.

Поэтому за основу взят плотностной алгоритм ББ8СЛК, не требующий в качестве входного параметра количество кластеров. Однако данный алгоритм чувствителен к параметру радиуса.

Радиус не может быть задан один раз на всех пользователей, так как плотность кластеров будет у каждого своя, а настраивать радиус для каждого пользователя является практически невыполнимой задачей.

122

Для решения проблемы радиуса предложена модификация WRAPDBSCAN, позволяющая отыскать как можно более оптимальный радиус для конкретного набора данных.

Проблема избыточной плотности данных геолокации и ее влияние на алгоритм WRAPDBSCAN. В некоторых кластерах, плотность координат геолокации зашкаливает. При сборе данных это является неконтролируемой величиной, зависящей от погрешностей технических устройств сбора координат и интернет связи. В некоторых случаях могут накапливаться координаты, находящиеся в непосредственной близости друг к другу или совсем одинаковые.

Алгоритм WrapDBSCAN является модификацией плотностного метода машинного обучения DBSCAN, которая заключается в поиске оптимального значения параметра радиуса, поиск которого основан на среднем значении расстояний между координатами. Избыточная плотность при таком подходе пагубно влияет на результат, так как «перекрывает» собой нужное значение. Исходя из этого, предложен алгоритм плотностной нормализации координат.

Алгоритм плотностной нормализации координат. Алгоритм направлен на нахождение точек, расстояние между которыми меньше некоторого порога нормализации, и замену таких точек на точку, являющуюся их центром. Таким образом алгоритм нормализует плотность координат. Далее представлено математическое описание алгоритма.

На входе алгоритма дано:

К = {{xl,yl}, {х2,у2} ... {хп,уп}}, где п - количество входных кортежей, xi - долгота, yi - широта, i = 1 ...п, К - список кортежей;

threshold - порог нормализации;

modif- показатель модификации;

Т - список кортежей;

Add(0, S) - операция добавления в список кортежей, где О = {х,у}, S - список кортежей;

Del (О, S) - операция удаления из списка кортежей, где О = {х,у}, S-список кортежей;

Met(Al,A2) - метрика расстояния между точками АI = {.xal,yal}, А2 = {ха2,уа2'};

Strength(S) - длина списка S;

Avgfnum, Т) - функция, вычисляющая среднее значение одного из измерений пит = 0 или 1 (0-х, 1 - у), Т- список кортежей.

Шаги алгоритма:

1) modif = 7, Т = {};

2) Если modif = 0, то перейти к 5, иначе перейти к 3;

3) modif = 0, перейти к 4;

4) IУ Mi еК, где i = 1 ...п, Mi = {.xi,yij;

VMj ЕК, гдеj = l...n, Mj = {xj,yj};

Если Met(Mi, Mj) < threshold & Mi !=Mj,

To Add(Mj, T);

Если Strength(T) > 0,

То V Ы е К, I = ¡..^^еп^(Т), Ы = {х1,у1};

БеЦП, К);

Бе1(М1, К);

лаа(М1, т);

ЛМ(№(0, т), Лvg (1,т)});

шо&/=1, перейти к 2;

Иначе продолжить;

Перейти к 2;

5) Конец работы алгоритма.

Эксперимент. На добровольной основе собраны данные геолокации некоторого пользователя. Проведен эксперимент с различными значениями порога нормализации. На рис. 6 представлена нормализация с порогом 10. Слева исходные координаты геолокации, справа нормализованные координаты.

53.990 53.979

53.973 53.97/ 53.976 53.976

53.974 53.973 | 53.972 53.971 53.971) 53.969 53.968

4

33.53 38.54 38.35 36.56 38.57 38.58 38.59 38,60

Рис. 6. Плотностная нормализация с порогом 10

Из рис. 10 видно, что при пороге нормализации 10 координаты в данном случае сходятся к одной точке, плотность минимальная. На рис. 7 представлена нормализация с порогом 0.1.

*

53 .936 53.934

53.932

53.933

53.973

*

Б3.976 •

53974 , , *

53 972 " т

л *•

53 970 #

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

53.958 %

53.956

53.964 .

38.5аВ.518.528.538.538.538.593.558 5В5.5Йе.6в8.63в.62 39

Рис. 7. Плотностная нормализация с порогом 0,1

124

При пороге нормализации 0,1 результат нормализации равен результату нормализации с порогом 10.

На рис. 8 представлена нормализация с порогом 0,001.

53.9Э& 53.934 53.982 53.9 3D 53.978 53.976

53.971

53.972 53.970 # 53 963 53.966 53.964

Ф

53.986 53.984 53.982 53.980 53.97В 53.976 53.974 53.972 53.970 9

53.963 53.966

53.964

33.598 518.538.538.5*8 53в 588 53S.6S8 598.686.638.62

38.5S8 518.528 538.538.538.533 538.588.593.683 618.62

Рис. 8. Плотностная нормализация с порогом 0,001

Из рис. 8 видно, что плотность координат справа изменилась на некоторое значение, такое, что картина перемещений пользователя уже сохраняет свой «след».

На рис. 9 представлена нормализация с порогом 0,0005.

53.982

А

'¡9 53.978 •

53.986 Л * 53.986

53.984 53 904

53.982 53.982 53.9S0 53.978

53.976 • 53.976

53.974 . 53.974

53.972 " , 53.972

53.9/0 # 53.970 Ш

53.968 » 53.968 %

• _ •

53.966 »* 53.966 **

• *

53.964 * • 53 964 * а

ЗЕ.5ВВ.518.538.538.538 538 538.538.588.593.683.618.62 38.5Э8.518. ЗЗЗ. 538.538.538.533.533.583.598.683.618.62

Рис. 9. Плотностная нормализация с порогом 0,0005

Из рис. 9 видно, что справа координаты стали еще более похожи на исходные.

Таким образом, чем меньше порог нормализации, тем более выходная плотность стремится к входной. Подобрав оптимальное значение порога нормализации для данных геолокации можно добиться нужной плотности входных данных для плотностного метода WRAPDBSCAN.

Заключение. В результате анализа данных с точки зрения машинного обучения выявлены особенности геолокации, обозначены методы, выявляющие аномалии в координатах. Определены проблемы, связанные с

плотностью данных геолокации. Предложен алгоритм плотностной нормализации координат, направленный на подготовку данных к анализу методом WRAPDBSCAN. Проведен эксперимент на данных геолокации некоторого пользователя, в результате которого выявлен принцип подбора порога нормализации.

Список литературы

1. Поиск аномалий [Электронный ресурс]. URL: https://dyakonov. org/2017/04/19/поиск-аномалий-апоша1у-ёе1ес1:юп/ (дата обращения: 05.09.2020).

2. Типы задач машинного обучения [Электронный ресурс]. URL: https://habr.com/ru/post/448892/ (дата обращения: 15.08.2020).

3. Алгоритм DBSCAN [Электронный ресурс]. URL: https://www. machinelearningmastery.ru/dbscan-algorithm-complete-guide-and - application-with-python-scikit-1earn-d690cbae4c5d/ (дата обращения: 25.08.2020).

4. Методы кластеризации [Электронный ресурс]. URL: http://www.machinelearning.rU/wiki/images/archive/2/28/20150427184336%21 Voron-ML-Clustering-slides.pdf (дата обращения: 29.08.2020).

Набродова Ирина Николаевна, канд. техн. наук, доцент, ira19 78@tsu. tula. ru, Россия, Тула, Тульский государственный университет,

Савенков Павел Анатольевич, аспирант, pavelasavenkov.net, Россия, Тула, Тульский государственный университет,

Трегубов Павел Сергеевич, магистрант, www. tregubov. 199 7@yandex. ru, Россия, Тула, Тульский государственный университет

THE PROBLEM OF REDUNDANCY AND DENSITY NORMALIZATION OF GEOLOCATION COORDINATES AS A STAGE OF DATA PREPARATION FOR DETECTING LOCATION ANOMALIES BY THE WRAPDBSCAN DENSITY MACHINE

LEARNING METHOD

I.N. Nabrodova, P.A. Savenkov, P.S. Tregubov

The study identifies the features of geolocation from the point of view of machine learning, formally describes the DBSCAN and WRAPDBSCAN algorithm, highlights the problem of redundancy of geolocation data, and proposes an algorithm for density normalization of coordinates to prepare geolocation data for anomaly detection using the WRAPDBSCAN density method.

Key words: DBSCAN, WRAPDBSCAN, Anomaly detection, geolocation, normalization, density methods, machine learning.

Nabrodova Irina Nikolaevna, candidate of technical sciences, docent, ira19 78@tsu. tula. ru, Russia, Tula, Tula State University,

Savenkov Pavel Anatolevich, postgraduate, pavela savenkov.net, Russia, Tula, Tula State University,

Tregubov Pavel Sergeevich, undergraduate, www. tregubov. 199 7@yandex. ru, Russia, Tula, Tula State University

УДК 623-9

О МОДЕЛИРОВАНИИ ПРОЦЕССА ПОДГОТОВКИ ДОЛЖНОСТНЫХ ЛИЦ ОРГАНОВ УПРАВЛЕНИЯ МАТЕРИАЛЬНО-ТЕХНИЧЕСКИМ ОБЕСПЕЧЕНИЕМ

И.М. Ханарин, Д. А. Карелин, В.С. Шумилин, А. А. Горшков, Р.В. Гладышев

Рассмотрен подход к организации подготовки должностных лиц органов управления материально-техническим обеспечением в условиях изменения оперативной обстановки с использованием автоматизированных систем моделирования.

Ключевые слова: органы управления, материально-техническое обеспечение, подготовка должностных лиц, автоматизированная система, моделирование.

В настоящее время важной задачей для государственной политики в сфере обороны и безопасности является укрепление экономической подсистемы военной организации (вооруженных сил), основу которой составляет система материально-технического обеспечения (МТО).

Функционирующая в современных условиях система материально-технического обеспечения военной организации (вооруженных сил) государства - самая масштабная из обеспечивающих государственные институты систем. Она предназначена для выполнения комплекса мероприятий, направленных на решение различного рода задач в интересах Вооруженных Сил и включает в себя большое количество структурных элементов: органы управления, центры материально-технического обеспечения, соединения, части и подразделения МТО.

С учетом имеющихся особенностей функционирования системы МТО возникает необходимость обеспечения адекватного и эффективного моделирования процессов оперативного управления, позволяющего своевременно отслеживать и отображать в режиме времени, близком к реальному, оперативную обстановку и обстановку по МТО, осуществлять прогнозирование ее развития, прорабатывать различные варианты действий подразделений МТО, в том числе с использованием методов моделирования, позволяющих имитировать различные ситуации, проводить расчеты и осуществлять подготовку данных для принятия решений и планирования различных вариантов применения имеющихся сил и средств МТО для решения поставленных задач [1].

При этом моделирование и имитация различных ситуаций не должны рассматриваться в качестве замены реальной обстановки. Они служат ее органическим дополнением, позволяя создать для обучаемых такую обстановку, которая максимально приближена к реальной, при экономии материальных и финансовых ресурсов.

127

i Надоели баннеры? Вы всегда можете отключить рекламу.