I ТОПОЛОГИЧЕСКИЕ МЕТОДЫ АНАЛИЗА В СИСТЕМАХ ПОВЕДЕНЧЕСКОЙ АНАЛИТИКИ
Нашивочников Н.В.1, Пустарнаков В.Ф.2
Цель статьи: разработка методики применения методов анализа больших данных, основанных на топологических конструкциях, применительно к системам поведенческой аналитики для обеспечения корпоративной и киберфизической безопасности.
Метод: методика основана на алгебраической теории персистентных гомологий. Наряду с алгебраической топологией используются эмбедология (теория вложения Такенса-Мане) и теория метрических пространств.
Полученный результат, даются необходимые понятия алгебраической топологии, лежащие в основе анализа профилей поведения пользователя/сущности: симплициальный комплекс Виеториса-Рипса, фильтрация по множеству точек облака, группы гомологий, модули персистентности, топологические характеристики и зависимости. На первом этапе методики временные ряды, которые описывают изменяющееся во времени поведение пользователя/сущности, преобразуются в облако точек топологического пространства. Для указанного преобразования применяются методы теории вложения Такенса-Мане и алгоритм метода ложных соседей. На последующих этапах методики для базового и текущего облаков точек строятся топологические зависимости, диаграммы (пер-систентности, бар-кодов), характеризующие базовый и текущий профили поведения соответственно. На заключительном этапе выявляется отклонение текущего профиля поведения от базового. Для оценивания отклонения используются метрики Вассерштейна, Чебышева, узкого места и шкалирование на основе обобщенной функции желательности Харрингтона. Приводятся результаты практической апробации предложенной методики применения топологических алгоритмов к данным системы мониторинга работы пользователей корпоративной сети с информационными ресурсами.
Ключевые слова: аналитика поведения пользователей и сущностей, профиль поведения, вычислительная топология, персистентная гомология, временные ряды, эмбедология, кластеры, кибербезопасность.
1. Введение
В современной отрасли кибербезопасности наблюдается устойчивый интерес к системам поведенческой аналитики (User and Entity Behavior Analytics (UEBA)) [1,2] - новому классу решений безопасности, основанных на интеллектуальной обработке данных от учетных записей пользователей и объектов (устройств, приложений, сетей и т.д.) корпоративных и киберфи-зических систем [3]. Для выявления аномалий в поведении пользователей/сущностей, которые могут представлять собой инциденты безопасности, в UEBA наряду со статистическими методами находят применение методы расширенной аналитики3, включая алгоритмы глубокого обучения [4]. В последние годы для поиска закономерностей и выявления аномалий в сложных данных большего объема заметное развитие получили топологические методы анализа (topology data analysis (TDA)) [5-16]. Появились первые работы, посвященные применению TDA в области кибербезопасности [17]. Результаты, представленные в [18,19],
DOI: 10.21681/2311-3456-2021-2-26-36
свидетельствуют о повышении результативности и оперативности визуального обнаружения подозрительных событий безопасности, получаемых от систем обнаружения вторжений [18] или систем управления информацией и событиями безопасности [19], благодаря применениюTDA.
Характерной особенностью UEBA является построение модели типового поведения (базового профиля) пользователей/сущностей. При определенном отклонении поведения пользователя/сущности от базового профиля, UEBA фиксирует потенциальный инцидент безопасности. В отличие от [18,19], посвященных задаче визуального анализа событий безопасности с использованием топологической кластеризации на основе алгоритма Mapper [5,8], предметом настоящей работы является методика анализа профилей поведения пользователей/сущностей на основе теории персистентных гомологий [5, 7-9,12,13].
1 Нашивочников Николай Васильевич, CISSP, заместитель генерального директора - технический директор ООО «Газинформсервис», г Санкт-Петербург, Россия. E-mail: [email protected]
2 Пустарнаков Валерий Фёдорович, кандидат физико-математических наук, первый заместитель генерального директора ООО «Газинформсервис», г Санкт-Петербург, Россия. E-mail: [email protected]
3 Advanced Analytics // Gartner IT Glossary. URL: https://www.gartner.com/it-glossary/advanced-analytics/
Рис.1. Общая схема TDA
2. Методика применения ЮА в и ЕВА
При топологическом подиоде исходныии донхеими для построднно и сравнения бадовопо я некдщего |д филей пользователя/сущности выступ а ют обла ка данных - неупорядоченньш набор данных, не привязанный к какор^дх шкало из1\д^р^нАп, инг^вмсз,"оди хд е^р^еэгн и^н-ной.Облаиа дагнь.м п|эеА0ТЕа/^/\якз-"^,н1 е/ иное мноовсте
ТОЧеК4 В Пй^КЗНОООО ТОПОДОГДИВАДОМ П|ЗН)С"\|/)с)Н^Д^О, н оо
торому применяются пбстыде^Амн|с:1/А1 ТС)/1/ (роис.1). Пр ео(вт!Э\!т ленныепа рис.1 понятия и обоом/чекио дж^с1И|ымВ1Е!аютс^ ниже, помете оптоидив дтиноы метове-
кнпзнт^^^^тоЕ/ поЕТНА^иея/Д) ЮА в иОЕйХ.
Этап 1. Преобраоование временного ряда в облако точек
В иЕВА основндттосмн исхяднма инисты п^дсиас-ляет собаО времетные ряры. Пемтом0 т\и пе^от этате методики времсноо 10 ряд А|ТбобнАзуендя ее; //^ овиео без потерп с/н<ф»с)|А)мацна, а.о. подбирается тткои токоиоя гическое проптронство, ^яеаиеа^н^^мп котзрпго и будут являться тиементы временного ^дт. Питв/хт/ о.тиеое-ления ^с^пелогииеАт:1Эяо тмдомитиихв^вйоючающего м себя облакаточон, становится вояоюжныс чытыилотно ^о!^|^/^1птсоских анввр^нЕтв и ит п|31:)И)31^о-с1-11^1х /арак-теристи к для выявления оиоНелтоиоеП ^1-"а/\ит:;нЕ|э^<:Эи/1т:1Г"с^ времеаимго ряда)
Преииоложио, чтгп облаксс тотех ^одн^д^^итс^ н едло-лoгичecыеыгlpocтихнлнлe Еби пслтющнммя лаллноoвым прс^рти^ь— дезмернокти гй, ОДлбыс тсхмк тиктедд-
етсо симплекспм)5 с/чезроелюидиос оСтс-ом. Ввтти Р - облако точек в /В:
р /с (j^ j = и, и,..., лит, ( и/
гол io п со 5 , N - В. л
Введем
|Л^(СС1/-10П":Э«ЭНИ«3
меиситу
Z|^cn = -((гт, н—}- ' = аэ^и^^/Eiih^^i^i оотс^ой jiaO10 г) вин чинляютия саооуюицс-ц обцваом:
—■(HB: == = . — - 101I а. J-— -с-- -Vj),
/2)
оде INI —_со=ма )п н^ее:я^и/=)о[^о:\т -(ювтранстве
ои=аи = ^ап = i.....
Доя оажаого иц п В оипетспбо множество Вя(1);): В/О.О/УиЧ = /п| ¿Ц-яогаМ - Л/С/ 5/ Д^}, (3)
ат-л А П \ 0,1ДС i/ = max^O17;''О/ЗО ((
Множество 5= (онТ проосиовбоет спбыС 3)мкну-тый шар чади{са с Я0.
Вьпдом в в-осмотресся симплицисльнь.И комплекс КЦА) ВДЕЛК Почт: по \)п н па|л;аиЕТ5С)Д/1\| Цегдв спяовси, итп симпс-сч лс^НА) = [п)! ^то,] п ЩА) тп)ба I- то/'^Иэ^^ тондя, очина толя аюВых ■^акт'.сек. -¡^Vo и ы^ГА) выпопиаетсо-отопок:
МП/сИмС0) - АД ЛИ ИоВ \\) /V, )ь/
и/к С. , + еР:
Таким оК разом \ доя данноао значепне /С, ком пли-|Д51^|-(ьс1нi^iй компсклс ЩА) представляет собой множество симплексов таких, что для любых двух симплексов
4 Каждоме лаееенту в обе сит .мнганнии:^ снивотсс в соосикисткце
точка в иоотсотссвующнцоСлткс
5 Эта процедура называется триангуляцией
doi: ю^бт/гзи-втнб^оии^пгооа
° Vо) 0о) , ^соСЛ- с е(Л) дыполнзютсз скопящие условия:
<7^) О- 0^1 сс^) (Л) о (!5)
м'(Л) с гн^) (О^мСВЕ и гт'(Л) (ЕЕ ОЗЛИ. (6) Сс маолциалуный исс^чппл^1кЕг е-ДЕ^ уоятоя еп- из Пр К) 1) точек (ориснгулиуовансый -к—уиниымн лск. плеллама ипсггв^ ), витыется я^1\ич5|;с1кК1 к сим-
ллйооао^ым коптвексом. Пузи втоо размерность р
ИОМСВОЗСО КУЛ) Ые ПСЛЯЫТВОП 0Лл- п с-ЗНаО, НС)
хоаоое обсеве извст .(етоиек.
Лвово,п^^г"Ез)\а)/:)(1)((|(|в^л(г>ие/::\,(-е(1!:) = СЛн = -,е, -.еи} олоУрлсваес наКлюдоивя за —оомажетос соемеки Т. 1я общем слуоаа скос .(0 свуожосессс нопотозые силил—и нлизвесууым иса/С1И^^о-/1 (я^ис1а"(0ич(Е;оксз^ ачстадооП Ло-ппавнотекаио сложение Посенс—ЕМсне Ы-0] опик;ан)/е 5си-зовогк пуосеЕа пси—к огтскптоскои иа;-!-«-^с/1 псожею с ояс-снcп, пзяо омасто рт^ало-нсиюа поуемвнныкснлнемы (которые в общее сл-тле н<^-л\зез1и^с^н^|( (и:^мк-|П1-11|^1(-т вelа)(паO(l лаоесжее, ви'пикин/0140 нззплеонтИ -зреие-нио -о апол т\И0-) ек пуяессолптельтлю ыомонты в/^иэлюле:^^ и ■
При сыноснении пулокпв ал)> /-ЕнсЕ 0 В, епсп ¡си - Дс-!1\Л1Е!|ч-носта -пяливящеиос атнрхвторл, уосмо—нн ял-^отугг) у!-:-^ лосопьфслонло ПрОСЕТ-Эс/СК^ТВо ^ОСТранСТУО состоянрй) ^онтро///)|с^(^гп1Р»Н1: (наблюдаоеоП) пгасте^ы, т.е. преса-фл-зовать вз умет ной ряд в -блаос ионее -я поостр—осиве 30 ц Ла кой про левев: и-пиьЫ) pнаoвлн нн наз (.яз^ ^<ее-иип:у п ысе-оонос ем копок аткпнктооа ее: ввneкoп(пeеком уе-о(пт-^/-^];----^ (в тнгзше^л св—пан это евнондовве пространство а0/ рая-мпс|Э1^0ЕгсЕи оЕк2 кы+ 0. шок -ни - фсисексисая зазюесноятз «настоящего- атфcкнеpц. Сесл.тес п|\-оо^разкэос1ни)ч ел: кз\ючагз^ся в сваоующем -20-23]. Вызьмем^послаоооа-телтткх окаоетев ^яне^ягтносо ояда РЦо), Далее. ясиспоя окропи-ольного оозвра п, фо-мируем последоваоетл-тость /у-+в, ...,/с,3^-0— геяюи лол»ве3, Эсеаотты отот послееолтчевспесии пяодстявазюс ли^ой комокие—со Сметного лектояа о об-впеют тссчлп л Л0. Олееунзщав точка получаоссч левитом нооого О-меяназо на/Си--] та величину т>0, а ьчеюяспвсое прс^к^-^/^п^^ти^ этом арен цедуры даст последовательность точек в КЛ— искомое облако данных. Теореме Ыакенса -20] гамаиоиемяо- чее такое влодснио сохдтсит окоточяа времооного вядо е точнлп^чьскде диффеоя ой^сотлс^ос7. Это слнач аеТс оно отч топотк-сческого вложН-нСя молНО испОКИСОВаТС зю—см непрерыс—вю сНсскцию, а солим, кокоры- "ты иапольсо-ван, - тома я итссезяфункцияиз лолможных .
Дпяопре=еленпя окктметров лит блеем псноксзс-вать алгори™, йшего
ложного солкеа [2^ -н^^тр^т ссноесн няиеоа лекчаде-ния геометрических п тополопических свойств исходного и восстaнояcoчноголнс-сктосов, т.л.5eойлтаттocкиe и топ^/^оги^ские пвойотла. соеецжащиесо в тявoeиеu времеи-ом в-оо, не торяютсяпвс пвеоОсазоватисЛ1
Асгокнчм метхда ложных Ноижнихсспсзю^д^- состоит в следую щеюнн
1. Фиояне-зм сою-опнснеъ а?. Суспя о ЕВ 53--носол а Ве-кеатос): 1^^хо^иг)1 ее.е\5Е^ KiHEПcосoй тлс-чг^по о- Кл^Е^еa^lП[гзгсп c;cl—пíe[пг с., ¡в í;3-lCЕ!EH|з^[oм п|:D]^-сгЕ|lЕ;Е^cтпllЗ. о/е,свя п/сооо зыние-нзе-з-унУ |э^\з-гос"Е|ч [ЕЕтеэнктонэ^в; д /- н.е. -а-С и г^ 1^;з((е(ст|ЕЗЕН мЗлизкa^l:(leE¡o нвскоо ^ег-^ ¡со^ ^еисто-н, есис он"::^^-:^!!,!-::- :эп";а ^^■Зсе-оес :гЕ-ин^-^a[---:-l-^iЕl, в.нь
■П-/ (.и))
^ 1-СЕ1П | ж,(Ей£'
1
в = ./-, -3.
( пс л)
Н^упм^ |Эi]iЗHOC;-"EC Bfй¡^"--Of.ЕO^
0. С^ь-Егни-^/Зяе^
^стс/^«:- |\1|но^-:"^ит1Е ^^ну У1"Е"е|\^"Е;^¡а яоезпхты-п^ае^ телепате ПС^о
ЛЕн ^
Eо:-
на "И^сис^и (-".>.Е-!П. З-ю ^ <г^п^-0|-lи з ^ -ц^ аноюЕт сс^ о) o|[CEB он ;з нга.-и^н!^п/н то нслоя (гсп»:^цнрпа е=1 ^-т,.:"-зт--:;:^ аожа /о!ся -с^и^н^м со-е-С 1о^1^^/--)>-Псатг- подс(гие1|:г1в^е:(/11с;н1 костчестто н|Еаки>-и-с^пкн"^ии l:::!íнпЕ^Е:г:н^x соседе0 в,
1:Е. 1е"^^1^исс11е1"^г11с-^ с)1гн-:1^^!-гие С! и тяпоснис покеегн-не^^н-. (наР! дао Уат0—/" [V
:С,с:(:^с)|^ —н— обиз./ет5 ксэлиекнос^^ян то^(езк l^гз^cт^нol:l^Eттl^^■lнo^о тоaлpвтlптикв, га -^-1 ^ оненяa гl(-e|г■-:l ,пlнcт0с\^пlг-l0-
си^|-| l-f\(!|/^ыlu■e.^o онскиоып IЯ,к-^Е^cкoH)EЕ!^-- ееп|eeAс-;^яс:тc\^ сгстнсс,-шенинэе кол^чесртЕзса ^(^¡/.янь-1,^ посе—ой (|^С1ССН!\:новл^нт->1:п точек) е пх ПЕе\\^ем^/ \е от кл^|
П. .тарссионтыо и-по^^сг^ аг^о-^осгк^^очсс -Нс-Н Е||ЗГC по-г , лоас не ^::plпoJC!!н^■lгcо ;1|Е1^:1^П1>ио
СЕНС
^гХ30
I сс! Е
ыпые г- н^О "к!П]К1НО"Э"1- уеосятое сеинЕЯЮСно \:l"^o--ln^ юиго^о^е ¡^иссн-сп. Нс х|ЕЕскнис^^, иснигссгс с не5К0СЕ1Э|П1С|п яоcвеpнeачт кпС. ос-^ тонисс^ние - мотьеи /^-гс(-1-иезй;е|.'1|:^о^]г-т-|СЯ о^^о-си^ег/-я.но яос^-зма Miн/^o|]o, ыо с-гг^исцкЮсо от ес зн^чн^1-|]-\:1. Топов с -сс— о^ст^^е ^(-¡ко^-эн/ -Еaliiк-e]:[н^c-ulг г^Е-^нц:^^llЕ^сс!:( сзтлчение У. c':к-;и^u 061Г-ГЗ0М1 с/ |с-с;п!(^.и^13с-е-£1^ 1СиеспЕ г-лосен-0 н^(^апа (И пягзее^Е-юю1- |эя\- пкиюбсозуоися в о5с-сп5ко ночек с икполо-lснтЕ!КK.:-Гl[■ оси исшео с^с-с|и;:^п: - l:гвклид(ЕTEкгм/ ^езо-п.иесспняпве КЛ. Дад(^ес н^ -этапах; 0!-^ о -(М-оку чoЕ^епт Пl:^c^\cд-кв^тeЕ/\\(HЕT ияимe-leюнcя Е:!:Е^^е(/^сн)Г(| -]-0,Л(гоп"лссно с/п-яюпгз па ру—,0,
(И-па]с ПГс -С-сйл^|\E-нaгиl(Гя до о-нежносое ^
:нс^"о-игств-со/онсв ^икп.т|г)а1н13]г по l^з:-^oжe^ггк5я Пйl
он —с 'СМПНР(П |-|'!:гl!^,^ -ЕВ;
-"СОЕ
6 В ТГО-Г сгож^я ыспользоватсео сс д—догое коз\пле!н:^нп нопоимс/р, комплексы Чеха,Мороного, .^е^б^мне, АлеЛ^а-комплекс. Вь^б^а^р симплекса Виеториса-Рипса обусловлен возможностью его достаточно простой программной реализации
7 Непрерывных и дифференцируемыхпреобразований
Стеовисс иистсем^ к-/-^^^нне:/- юн О: жеств тас/| огап^ покс1;1-ен-^ яа |ннС:ге" Зу-сть |Х| ^ АН (Ж я ^coLcснocнй l^ттц:>й^cv\5a, ^ олип-см сл\/н|ао !;С| - толи^^сзтно тозг((-<;^1 Из ног Кола пек^нул1е|зотачн!:с1)\ дожных ^л0-^-- тс^кв\-ю чочяя (^:влонг1^на я кОо-са ^ннЕаВх: -х1 €/- -) г/^Я1Эгг^из 1-е: Л— ^ ^-с-^^^: |.K-Е;- | =— С. Далее строим множество Х-1 Для эеосо к элементу х1 добав-)\ле м e/цхi т ;и^оeчиов из об лака данных. Тогда Ж о (с- Ы0 "5" спи = -Г М- го. Процесс продолжается до тех пор, пока множество Хм совпадет с исходным множе-ьгтвом облаеа томе- X. Вы бпр тиселЬЛ иб^кок фильтрации < М связан с анализом природы порождающего временной ряд процессов.
Этап 3. Построение симелициального коплпл^кса К'
Для кажасло мнсзжест^яЭ Х, оэс Е^1=>|£5ааннюй априори меры бли зоскк ((>0 ь том ощью л лгарэнт 1\лга Вьеторжса-р)о1пс^, сстьоопгс;^ с1/1глп/ьи1.миса/\ЬзНоа1Р1 коиплокн ке.
-Соя п>01п1^/\с\1^с!^ ОН вычпспмпяссп посипы гомология
0\Н1ГИЕ = 7.0^)^(113), г = ИППЯТТГССгг, с :СсЯ_> гп-з<=к .гСпсВ) ж летолИяМЕ4 щ =
0оплаогскпщаие жкпяялтпаа (спсоп ЕИ)е/^ть- /МЧ-О1) -ль лиооискол ь0 ^сл>-н =1 е/^с^^тписс со фсеипжпм:
/ОИпЕВф = гаркЯТСкД = оап1ДЮ(Е^ИПЕП^")— (02)
Кос сап — - ^^к"Е<п|:)1-^01:5 бьиепрортсво, кто:
/щ(й0) = спч-ЮЖ®0) - ^пт1=(Е0г). Е1О)
ГОыо 4. Паффоеноа со^^лс^гп^^пзкт-сю!^ зи^1Е$:сси1^остя!1сл1 е дирпцапсф
(п—оптсп ;;з^тис-.(Г(Е^(:^тги /-—О = ПСп/ГЕГ (Е —Ц = НЗЬ, .^Л) ^¡с м -ДЕО (5:1)лэ^кс^^Ьп! л диа(раомы пeеcDкceктнoaкт пвоотл ветп>луи^и^и^ топ окчпкп сап попл^ п^Н!И/\|;;;!з:^^,|.:;):о/10^о, тшик"; (па Нясояо—<с с^*1::»1/^*^! п^ /сцг/г^ш:)л9.
Поспроунтп .тЗ^^^т^о^.--^ и }г\1'1а^|Э"Е1;-/1м гл:(!|:гс^с--"е(-^'У1-1^(^ти ее^пк(сапгпгпощим 00x030 ^П.^]^
Щ—Я Луплс (СЖО ОСПрОрПЮССЯ фСНОв
цист, —пмeдтлспнaи нь санспнелска, входящая. в дом) плллл 1\уА)' и ;^гяс;Есл^'^Е31^|::)япэ^^\г псоыдп м:
Ги 002 — .до Е-М) (Г^^ )
дю слмх ^кслгп/ке^^с^^ сОЛ п о МЦАС; ^^' = 0, /П; <:= {И Я (острикм пoмпииепaпаaииoccи ЕП)л):
Ф(иС = Э) —Жи-) — х, о— е ы;(Л= т°с- (Е -О- п:1-^|» Эле-еиты ^с-слгз-с\с-(Е(етепяи и^^ти Фунт' о че^и дпа, ттак-:Е^с»:=í ягс/нсютят мвгитиикионы^ымч к^^^^еякг^г^гу^и:
ФДо) 1) Ф[фГ-—;г — у; х, у (ЕЕ 10 (16)
^глл лю-оп л oaклoовaтeaoньcно Оо-о- о ;; :.-^т\:1[:п^ и ОЖ) но Dикоa0нпи п ^оо^^я^тстпзие^ япоaтиeкlтопyю псэс^-е^^нзеа^ тианпиcть вмзпеппйле
0 с кКЕибО с Ф—сфЕ с - с с (ВСе
^гэноаи а 000 деe2Оиa кбпдн-
ввруе^ пдсаруоястосяуоснт чпообпакооп-н0
ф^ Е^Г\Н^;Г«-)1Г^ [0](
ЯДФЩОВ^ ^с^С^^ ^ ^ - ^^^^^ Я,(Ф(жп—).(18Е
Гем— кесилфныпс лouоасгипаoнтx ^и>^:стг|у)^Н11^|ге5 елния:
00(ниО ■ ): яс(—2 и\п ,по — Япо Пк.....г- ( 19\
являются >т^иейЛЫМп.
8 Иногда эти зависимости нормируплтся, чтобы исииль^н-^ть^я >тlpuплениa матткки бeизoитт вoлыятDОc тно>(Х|Эс;с^^^^^^ени1х
9 Индексом (Ои епзликCодeo ^^осн-^;кю"гс Оаиовый псифсвЕ
10 Длинам пспордлфи яевытсeвcл Моояорачис3 мно-кестч^п) (СИМП1Е1ИЛИ£)^1:>Н0Г0 /^OICПЛeE^c:: ЩА) ПО <)ПlТ
И;л ивo;Гc-1^ еасaтyлиaаt>)сетцl (отопГ|:заж^иие сиун^ли^ ци^липых кампEEeксся ятдyлпpyoииишHpaжб пuи^^a гссп^ ппхгомое^инГ1: [9] следует, сто:
еИ(П0 10 Юл00) а <5Ви(5Я) —с п —( ^ пь )с'■ (20)
Моду^^:м (^[(слст^^нтности назыв^т пару [9]:
{ "(С^.КС^,^^^^^ик;сг (21)
г)!е /-л^ жиев tТ./1 )Т (Ло^.- п: Е, с — с
В процессе преобразования групп гомологий одни группы появляются, а другие исчезают в модуле перси-стентности. Представляет практический потесни смотвl слежение за котвлениело т иcтхзнo)i:зEE хоте нель/и хапел\г-ных ссунс ссимхлотко л усазанном мосуле с-исио сраиож-дения Мплхирненп ["\г,)([^(г ООоанлвтм их "тбозен От о 0е (от 1не1п/1|е" ее (ОеаЖЕс - ткотпи^сспЕЕгие н\ о бваиассотоетднреото) ■ ГГу^"!"-0 .б - о к ожелп ^сс --[эомеу-унп^^^ [ Ь, -еО^Т - В^етнетт /и »аьлманнеяов -иЮЕСяен^гзезоо^лтнГ"!^ (осихЕЕ'дИЕ! "\[)гЕ1г^о -З-^н-Т]. Иет-|те|п"С!Е1Е'\1г(|1|^|1Г мо/ст]^Ен плохетоу иннюд::-/;")]] ги^Е1г^ис"1"ег^т^[[)(^[ги, //ля кolп;э):^oгo «"(П^^)") н)^ 1», ^ <Т ЕсЕ]н(":,) с^ ,"5 ми ^д0. тсС0- ^ е\ о|:н"-^^[]Е^н^1\/1 хх'чое. :Е;-т^ ИЕ::|г^с:ва|н1[:1 ^г^!-,":!:- н-^^ яенноо-|э о^Е^^т" о0-1 ^ннм^|г:ив : ^^ "п-н,^ по^Е^ллн-гыт^^ н (н |\р-^п:1Е:1 г"0;-
мн/снгт6, они cлEo|•:J|эг:a>■lKl^нсэ^сн^ боинго-заою.
(:E::пl:змl^ £):;е|:)^кос61:"в )е дОщ [/"1^^и"-:"^^ели^о
плзеоиноптисвскс :<;\^■|-■c5|E^:cl!^ [:;::яe[эc"EaEЗ"lГ!Е^ю"ccEl^н:o^ cCлo:аel:DHi^( чкапый ^|;c[(":[ЕC"EЕ^El[г:^:зн^я ГГ^::[-кo;.(l^^^
C)]](],"^l"|ГE^l:с^^^ ^^о;:;^ист\^н^н[]:"0Еги нЯнэрЕпноирнук^1]1!:;!!1/ ^е^ге^")..:^ ^ оОркахыо [П\);, Г(":по:ее1з;е(;е|"сс"к Д:Е п|зе^с^а^^я(Е(Т(-с^ тo|"1кoЗI ез :::ac^и":гe"н^":сЕ"п п^"э^кo^lги П"!^2^. гсс,]-: = 1ЕТи ^оо}}: ^аки^ )^(i^|l^l::г увм. с^иа1^|(1!Е^^м;а ^ ^егсисет":]!]:;-^^"^^ т^ вив сде г-пеlГlг;■(oгкecтЕEН■.■:гTl K0[гcl|](0í;í о^ессяссопиу и^о^оггй с^^Е-ЕеЕ^т-пи-г няля конс/^^нстп^ мялвпам>онЕlНвиoa "-"■"Г'кеЕс гг ^^ с^ м^ик^^имг |т|оже!1\"|ТЕ^с:^ котел ко опагоиени ^ := {(гсу) ^ и ни сМ г■:lг)г] ^l/cС>п:п-alFг :г|o^cк^ дааготали ^1\"г:эет кргти^
HCl^T^| ДТОГОИОЛЫ-ЫпЕ тиос-жли ЕЗГТЕ(О"--3|:О0СЕ^ ^l:lE■:сc[a:^^ll)в. нтеби1 иствсзи1!^ ^ОЗ^^^ЯЕСЕ^'СЕ:. ГГ^ ЕЕгВ(-ВПЗТН^ -"--и ГПИТВВСи сз;)!Еаимн]:Е пг^:-еОЗ:е);;1^н1^^1э со(\)|Тве"ГЕ"(гв1^я г^и^-ск,,))^ "^|Е"ина/^^е^ жl:c":.L^|["ми ом cдпспM: п^c^п:E-^|EE^l^:з|K: ,-1)-о доя-маема: ^Ое\»пн^^ ИEl:^:)E^ ^нo[lE■^l:E"-BE::г|^:к ^ о^^н^аосгй)й ■:|Иo:цнl::"C■Е"oЮ| сс^ее^ квпее|(^ прсзбытб.но ^сг^еп:з|г:1:^ (г:Е^^)гГ. гl:)ГC"Г^ <7 О пМоы]с ^НС:,))- l-ЕI^^|Э]E:C^ :в /Л ^я сц о [О-Е^п||^,¿0С"^11:2 ЯтО _ Оиекоио дпапниммы (Н ьа ДB: 1:0|C/!K)E" |\,тef^^ /.^^иезс^^т"^ еонЕЛУ дот ^ юг а -г] и А, Е (ыетдивл "аслоршп^^ссЕ опсс^/соляется следующимобразом[16]:
ИеОЫГАсО) = т[ а^^^еиа, о а) М1
a(|C:aеJ (22)
/^Е^Я се О [и.а];
Е^-Г :cC:|(>г}(JЭ") пм ¿л^)Д ;^1Г|р с^^с-. ¿ГГ£'[1Г] Е (23)
при Я=ю13 а^.4
11 Мультимножество - это множество элементов, в которое каждый элемент может входить больше одного раза
12 ¿'-пространство измеримых функций, модуль которых в q-й степени имеет конечный интеграл Лебега
13 Одной из наиболее часто используемых метрик близости при сравнении диаграмм персистентности является метрика узкого места И
001: 10.2168Н/23П:-[ЧHИ0-2021-Й-26-УУ
Этап 5. Выявление отклонения от базового профиля
1. Заанаимосаи е^ = /=-) сг/\81Ж.ив^10тся с помощяю ксбсчоссой c^n^^^i-i-и ит!^|::1псэ/\я11дии:
Рк= 5^3)00, (=4J
кде nfc(-:)5B -о киОипескиТ силтИ/, и = Я;1 о и < N. Пр)и -том цзлы мнте/потяции сплой на Sp(3)( Послжи н -оо-едаис о °зоими пг^/вайе^та для базояоои ир-Мсои "^ео^О-
-с (с ия оо та вики носзи /?fc -^ítcs!) (и^З) явлаются осэпрэе^-рысными фунтцасми, то дл( OLreí|(iKia ох отклоаеаия к-КЗксосого п|яофиоо можи о гин он t=>;=í^пи ть мост-ио ОРисо шпва:
Р/с (Чс!0 - /1:*:;), S0- = mpx "О -< С»/ М | ^ (I-50-к = 0, ..сп.
Еслх o6aaKOTO4(cencrccoMecoco ег еь, ло ))исг/\а Eüe1!"-^ тс, б/ксе изс с /2, бЕепаккОТ- рпо как/ H-ac-. р-с из сио aет, яоо яо-са»бт -Еебыпзево |-5Ь.1|1/И)<п/ппяе1тс;ь/ r— /г = О; — -.о p06vT и Pj(v)ц икоисиности (опОС-; ■ПОП«/! — нирмицОт ваиы ст тк^£-1п;)Е^ЕО<гтя о-ТЕТ (сяяпрего-нокеио оп т/я ио срао-тонияможао испомшЕоватя ливер-етои- СЦль^ ло-Лей-бИерК [25^ и
и- ( ^ ц у .-я = - ^/-г:гС(:^^ц,т,тслО/|сиС / , (26/
(0 иго 0,т.,п.
2. ^гсй^стсз комп/ЕЕ"Г"йса К' подмьиоества •СС), i Ео 33. ". .,jVpa ссг"пты^аютси бар-косы и с^т(рэо!^тй;<и дсь--раммы пе^^систеетгн^^ои.
Отнуонения сот базового прлфиля оцениваеося с помощью ме |o /изостс «ЗаосеошоеУ ьт (е2( ис я уяксге але-г\та (23).
В рлнульоата l.^i-1 п°нксьв 1 о е то я-эт^пег \\
фо^и-Е.етоя кертно:
иисе Л=0(иан - динфьмма персимие/тоос™ дли мн/с-—есто X. фавыро )X¿}0T ; АД = A^Xj) - ,-е1-1;аг|));рмма пооcиcиоиинooти \-го Тат/оом- про-кя. >) = о, .„„По
0 ьрнкиичоонин .-f:i^т\ож.ег-i|е(парой аостаеочно пыт-слото мстрока 0)^^,:;e|:ELJ\:"r^Píi/1Hc3 и Изпoпo миста (0,^ -ПСг = (Х;- /.•'Нл- = АС)Х,,= . Тон-а сова /ют^ии аз (27 ) зог с-
ШСССС й Bl^OJi/OI
<р- оси ¿-ПОт м) - нир- С/ -г--!30"1 лСо, ^-с:о(
cIcor)0MОО(v<.o(PO
Ко|ЭЕ<е»: ( cи е) -»к - -8. ее "достаточной степени характеризует поведение пользователя/сущност/, оснюнысо-ясь только на доступных данных о его акоисзиости - ио-фOаMaЛHHИ0е0 С1))!:^^^. оОССмот|ЭГМ. оон (Н^Н1-:Г( 00(3::--дение пользователя/сущности, базииунсь на дан^
14 Дивергенция Кульбака-Лейблера мера несимметричная, т.е.
кв^ез) il зло ле совн g ц^), ^^ = снес
ных и репупьиеткв проведенного по описанной выше методики анвлиза.
Оля прсститы алксиичимкп M—pocH снвого еекаа. Сфо|Пинряом ^fEïKOOfc Не- д 0ГП+1:
/с пс ^,...,70.
Посякол^т;цс яяз/гяе^тс^ векхс^рмисл kohoe^he^ix пока;^(^кез-ое^Н, описываю щих по Езв^/^енияи пользоватеонОвящктсио H;i, т^ --¡^^^¡твяя'ХП!.:)!^» пмоекетия п|еЕЕ^Е1ТГ^"ЕнЗегя:^ет яо-
Ляв>^ ¡тга/гЭса'н:1 [Е-н-н-^^|:)ит::^^..'1.ялЕ:.ног"^ »»ы(По|Т£а [2П-2о].
Е>1)|^с»ся гз^ т^л-Е^и л-)псоояице!к ваботы иссо^н-сэвюа^и^ возгложных попхог:моЕ: к |э;нз-)пз:(е(.зх|]ю орпРЗпемы ^Ез1бпз|не, ^<^г^0ЕПсс;^х1/;|\л-Э1пе:нки псчве^ени:! твдвподаомого объекта T^Ki^Ti ппп/клзате^с я^гн «о(°поТ-ще^Нс^^ Ктнкмно мгета-,^^^--/ ^тги (ы^^|::)|Е)]п^гт1сгна( E/EîiBr. Эта -обоещонпяк фцнокм/иял ео!еЕ-и-л^впя в плЕзпхнтaзв ii-Einï^^ieoT^i/^i^i-iM ]зеаЕ\ЕнНТ1мп решетгпми, ^|))|.1/си-«!:ае;^:с1^и lE^ot^Hfi^fioi.iin/KnH3^^-'!^0^!«:/. кт оЛ^л^^ае]г-г^-^1пгпи тоыивнымт св/эисте^^м^- »пак г/\;^аЕ[//|/т(^т^ и моплтяиносто.
Iй п (« кктдмой еегт^оггив;^ дпня сгвовг^и inмп^ния ПЕ^У^^H»^iE(T<^/\^:^B;EcLln]H(^C--|]| ИСЕГ(З^Е:|ЗЕ\ЕГМ ГсОПеКлдП ф1Т|ГНГТе щссс^в^ниц В1^Ш(Е1юи.лег|о п|))сг^ик^: катовдо -Оо|,тг(л^г\ип[у^|^с;я (■^¡а ОЕгноглвЕ; 0е50^ЕЦ(^н1-10Й Щп« кои и жехкояоьгюккт л»кг|е-^и^|КТ)пН(а и 01д<тиок ce]-(/e^|M3Hcix еокезатекеХ: /с^3 ([.s^ сзп иХз^/«г^:[,нГт:,л^Пг к = еЩОДЯН тлод
полттдиеннып ni ретреьтаЕе ^яз1^сзпепия т;з/\-^;н^ё5н^ой Еит>ипп]е пзр^тс^//ы\ки.
,\Ннтп [\^(^иетв ofS^^ixeHhxo0- о^-зикт Ое|иетсо одна и;п си^Нц вдтт«/|«Ео^к1ихсИ>:^нптигиИ Хавкиинтонз -«ко/т-ппая жехоневзиккии»), e^^or-f^JT,»-:-;\/|\;л)], (31)
гдеи(б) ^ б0днк0Е^апнп1е зн^ени^аст^х показателей (кквпякнкя севп1ииН((]: ты - скопсоноя E]Пî-]leм^E^нl^((^|
-^ЕСсс\с1-ия блюмт выведена эмпирическим путем. Оос ^п)с-исс пхсыкaoeкт шк^,нoй 1и^(т:гных пoкcГзяl^^л«нХ. E- ыаоем c/л(ы^)^e :эиlп,к|lт:п/т0l^сfн«lня:
[пГ]C.l4и\-,0^И/l;^Eн]\.....та.
Оотоонени^ ^сбии|иуются. Осе ординат - шкала же-ввпельнбттт. ^э^ит-и-кя вЭ-г) иоеыт ^ваучых^1^а н^ сфе-ицо-ипя О -е е; у -Т 1) и практически линейный участок (от у = 0,2 до у = 0,63). Промежуток эффективных значений на шкале частных показателей (оси абсцисс) -[-2; +5]. Шкала желательности делится в интервале от 0 до1напятьдиапазонов(табл.1).
Таблица1
Шкалажелательности
Номер диапазона Наименование градации (лингвистические значения) Числовые интервалы
1 Оченьплохо 0-0,2
2 Плохо 0,2-0,37
3 Удовлетворительно 0,37-0,63
4 Хорошо 0,63-0,8
5 Оченьхорошо 0,8-1
15 Показатели отклонения поведения пользователя/сущности от базового профиля вычисляются с помощью топологических инвариантов. Являются безразмерными величинами
зв
Число бар-кодов,
шт.
Время
расчета, мм:сс
05:19 05:47 06:13
04:43
16,77к 12ЛЭ1к_---*--~~ 18,83к 20,09к 03:39 21,53к 21,95 к -«--- 22,21к -»- 22,34к -•
02:21 02:48 ---•- 20,88к
01:20
50
100
400
200
и
I t
150
200
250
300
350
Мера близости Л
Рис.2. Выбор меры близости Л
200 Рождение
400
450
500
• базовый профиль -00
• Текущие данные - 00
• Текущие данные ■ 01
400
Рис.3. Диаграмма персистентностидля параметра «Поиск работы»
О
Обобщенный показатель желательности X вычисляется следующим образом[26]:
2 = УЩ=1^Ь (33)
где г - количество используемых показателей (в нашем случае п+1).
Причем корень г-й степени «сглаживает» возникающие флуктуации, являясь в некотором роде фильтром.
3. Экспериментальные результаты
В связи с пандемией коронавириса повысилась актуальность задачи анализа поведения пользователей корпоративной сети, работающих дистанционно. Для решения указанной задачи использовались данные об активности работы с информационными ресурсами корпоративной сети и сети Интернет. Данные за февраль 2020 г. (до перехода на удаленный режим работы) использовались для формирования базового профиля.
001: 10.21681/2311-3456-2021-2-26-36
Рис.4. Бар-коды для параметра «Поиск работы»
Рис.5. Профили персистентности для параметра «Поиск работы»
Анализировалось поведение в марте 2020 г. (после перехода на режим удаленной работы). Данные были закодированы и преобразованы в облака точек16 согласно описанной выше методике. Для каждой активности размерность пространства получилась равной двум.
Выбор меры близости в комплексе Виториеса-Рип-са А=400 осуществлялся автоматически, путем контроля числа новых бар-кодов при увеличении А. Если при увеличении А количество новых бар-кодов оставалось меньше 5% от их общего числа, то расчет останавливался. На рис.2 приведены показатели расчета параметра А от 50 до 500 с шагом в 50 условных единиц при 17 268 точек в облаке точек17.
Параметры фильтрации также рассчитывались автоматически для каждого числа Бетти. Фильтр определялся отдельно и таким образом, чтобы было отобрано не более 50 стойких топологических особенностей. В будущем для их выбора планируется использовать методы машинного обучения.
Для примера на рис.3 и рис.4 приведены диаграмма персистентности и бар-коды соответственно. На них отражены данные об активности обращений конкретного пользователя корпоративной сети к информационным ресурсам, связанным с поиском работы.
На рис.5 представлены построенные профили твр-систеннности -^(^М.бр^М./с = 0,1.
Далеы Ныли ратеиитсне1 велынине1 олнкыленен ол базового нрофиля е м етрило Чебешеева для профн-ней, терсистеытиости р0 ЫЫНo(3)M,'S'o(P)С-)) = 1.09348, Р7 (^адМ^О^М) = 1.994793, метрика узкого места И^И = В9.3772. С
Зарод)товвв пореиеннлн рт (•,•), рР (•,•), И-НиМ согласно предлагаемой методике, был рассчитан обобщенный
показатель желательности 2=0.8547. Согласно табл.1, показатель соответствует градации «очень хорошо», что позволяет сделать вывод: поведение пользователя в части поиска работы при переходе на удаленный режим существенно не изменилось. Этот же вывод можно сделать, анализируя изменения профили персистентности. Так, на рис.5 не наблюдается появления дополнительных «дыр» в топологической структуре («дыра» появляется на уровне топологического шума) при фактическом их отсутствии в базовом профиле (число Бетти - в1), а компонента связанности (число Бетти - в0) изменяется в большую сторону, что говорит о повышении уровня группирования (кластеризации) данных. Таким образом, можно сделать вывод о том, что поведение объекта исследования в «среднем» изменилось не существенно.
Следует подчеркнуть, что этот вывод был сделан только по активности «поиск работы». По другим активностям, связанным непосредственно со служебной деятельностью выбранного пользователя, ситуация была также «хорошей».
4. Заключение
Предложенная в работе методика впервые раскрывает возможности топологического подхода для такой актуальной задачи как разработка систем поведенческой аналитики в обеспечении кибербезопасности. Перспективны-минаправлениями дальнейшей работы представляются:
• совершенствование методик поведенческой аналитики путем совместного применения алгоритмов TDA имашинного обучения;
• апробация TDA в решении аналитических задач для различных типов систем обеспечения безопасности, в частности, в системах операционного мониторинга и анали-закиберфизическихсистем различных классов [3].
Литература
1. Матвеев А. Обзор рынка систем поведенческого анализа - User and Entity Behavioral Analytics (UBA/UEBA). URL: https://www. anti-malware.ru/analytics/Market_Analysis/user-and-entity-behavioral-analytics-ubaueba.
2. SadowskiG., LitanA., BussaT., Phillips T. MarketGuideforUser and Entity Behavior Analytics. Published: 23 April 2018. ID: G00349450. Gartner. 2018.
3. Нашивочников Н.В. Проблемные вопросы применения аналитических средств безопасности киберфизических систем предприятий ТЭК/ Нашивочников Н.В., Большаков А.А., Николашин Ю.А., Лукашин А.А. // Вопросы кибербезопасности №5 (33). 2019.С. 26-33.
4. Chalapathy R., Chawla S. Deep Learning for Anomaly Detection: A Survey. arXiv:1901.03407 [cs.LG]. 2019. URL: https://arxiv.org/ pdf/1901.03407.pdf.
5. CarlssonG.Topologyand data// Bull.oftheAmer. Mathem.Soc. 2009.Vol.46(2), P. 255-308.
6. Offroy V, Duponchel L, Topological data analysis: A promising big data exploration tool in biology, analytical chemistry and physical chemistry//Analyticachimicaacta.2016. vol.910.P. 1-11.https://doi.org/10.1016/j.aca.2015.12.037.
7. Wasserman L. Topological Data Analysis. arXiv:1609.08227v1 [stat.ME]. 2016. URL: https://arxiv.org/pdf/1609.08227.pdf.
8. Chazal F., Bertrand M. An introduction to Topological Data Analysis: fundamental and practical aspects for data scientists. arXiv: 1710.04019 [math.ST]. 2017. URL:https://arxiv.org/pdf/1710.04019.pdf.
9. Chazal F., de Silva V., Glisse M., Oudot S. The Structure and Stability of Persistence Modules. Springer International Publishing. 2016. P. 120. DOI: 10.1007/978-3-319-42545-0.
10. Huntsman S., Palladino J., Robinson M. Topology in cyber research. arXiv:2008.03299 [math.AT]. 2020. URL: https://arxiv.org/ pdf/2008.03299.pdf.
16 Оказалось, что даже эти неполные и зашумленные данные содержали полезную информацию
17 Для триангуляции облака данных и расчета топологических инвариантов использовалось программное обеспечение с открытым кодом Ripser [15]
doi: 10.21681/23Т1-3456-0021-2-26-ЗС
11. Briiel-Gabrielsson R., Nelson B., Dwaraknath A., Skraba P, Guibas L., Carlsson G. A Topology Layer for Machine Learning. arXiv:1905.12200v2 [cs.LG]. 2020. URL: https://arxiv.org/pdf/1905.12200.pdf.
12. Otter N., Porter M.A., Tillmann U. Grindrod P., Harrington H.A. A roadmap for the computation of persistent homology // EPJ Data Science. 6, 17. 2017. https://doi.org/10.1140/epjds/s13688-017-0109-5.
13. Kerber M., Schreiber H. Barcodes of Towers and a Streaming Algorithm for Persistent Homology // Discrete & Computational Geometry volume. 2019. v.61, P. 852-879. https://doi.org/10.1007/s00454-018-0030-0.
14. Love E.R., Filippenko B., Maroulas V., Carlsson G. Topological Deep Learning. arXiv:2101.05778 [cs.LG]. 2021. URL: https://arxiv.org/ pdf/2101.05778.pdf.
15. Bauer U. Ripser: efficient computation of Vietoris-Rips persistence barcodes. arXiv:1908.02518 [math.AT]. 2019. URL: https://arxiv. org/pdf/1908.02518.pdf
16. Arjovsky M., Chintala S., Bottou L. Wasserstein Generative Adversarial Networks // Proceedings of the 34th International Conference on Machine Learning, PMLR. 2017. P. 214-223.
17. Chow Y. Application of Data Analytics to Cyber Forensic Data // Worcester Polytechnic Institute: BS Thesis , 2016. P. 100.
18. Coudriau M., et al., Topological analysis and visualisation of network monitoring data: Darknet case study // IEEE International Workshop on Information Forensics and Security (WIFS). 2016. P. 1-6.
19. Trevor J. Bihl, Robert J. Gutierrez, Kenneth W. Bauer, Bradley C. Boehmke, Cade Saie. Topological Data Analysis for Enhancing Embedded Analytics for Enterprise Cyber Log Analysis and Forensics // Proceedings of the 53rd Hawaii International Conference on System Sciences, 2020. P. 1937-1946. DOI: 10.24251/HICSS.2020.238.
20. Макаренко Н.Г. Эмбедология и нейропрогноз. Часть 1. - М. МИФИ. 2003. 188 с.
21. Фомичев А.В. Элементы теории бифуркаций и динамических систем. Часть II. - М. МФТИ. 2019, 50 с.
22. Барышева Е.Н., Никишов В.Н. Модели оценки финансовых показателей с учетом их стохастичности и хаотичности // Вестник СамГУ. 2012. № 4 (95). С. 115-126.
23. Рюэль Д. Случайность и хаос. - М. Издательство «Регулярная и хаотическая динамика». 2001. 192 с.
24. Krakovska A., Mezeiova K., Budacova N. Use of False Nearest Neighbours for Selecting Variables and Embedding Parameters for State Space Reconstruction // Journal of Complex Systems, 2015. P. 1-12. https://doi.org/10.1155/2015/932750.
25. Постовалов С.Н. Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход / Лемешко Б.Ю., Лемешко С.Б., Постовалов С.Н., Чимитова Е.В. - Новосибирск. Изд-во НГТУ. 2011. 888 с.
26. Подиновский В.В., Ногин В.Д. Парето-оптимальные решения многокритериальных задач. - М. Физматлит. 2007. 256 с.
27. Орлов А.И. Методы принятия управленческих решений. - М. КНОРУС. 2018. 286 с.
28. Пичкалев А. В. Применение кривой желательности Харрингтона для сравнительного анализа автоматизированных систем контроля // Вестник КГТУ. - Красноярск: КГТУ. №1(1). 1997. С. 128-132.
TOPOLOGICAL METHODS OF ANALYSIS IN BEHAVIORAL
ANALYTICS SYSTEMS
Nashivochnikov N.18, Pustarnakov V.F.19
Purpose of the article: development of a methodology for the application of methods for analyzing big data based on topological constructions in relation to behavioral analytics systems to ensure corporate and cyber-physical security.
Method: the technique is based on the algebraic theory of persistent homology. Along with algebraic topology, embedology (Takens-Mane embedding theory) and the theory of metric spaces are used.
Result: the necessary concepts of algebraic topology are given, which underlie the analysis of user / entity behavior profiles: Vietoris-Rips simplicial complex, filtering by a set of cloud points, homology groups, persistence modules, topological characteristics and dependencies. At the first stage of the technique, the time series that describe the time-varying behavior of the user/ entity are transformed into a cloud of points in the topological space. For this transformation, the methods of the Takens-Mane embedding theory and the algorithm of the method of false neighbors are used. At the subsequent stages of the methodology for the base and current point clouds, topological dependencies, diagrams (persistence, bar codes) characterizing the base and current behavior profiles, respectively, are built. At the final stage, the deviation of the current behavior profile from the baseline is revealed. To estimate the deviation, the Wasserstein, Chebyshev, bottleneck metrics and scaling based on the generalized Harrington desirability function are used. The results of practical testing of the proposed method of applying topological algorithms to the data of the monitoring system for the work of corporate network users with information resources are presented.
Keywords: user and entity behavioral analytics, behavior profile, computational topology, persistent homology, time series, embedology, clusters, cybersecurity.
References
1. Matveev A. Obzor ry~nka sistem povedencheskogo analiza - User and Entity Behavioral Analytics (UBA/UEBA). URL: https://www.anti-malware.ru/analytics/Market_Analysis/user-and-entity-behavioral-analytics-ubaueba.
2. Sadowski G., Litan A., Bussa T., Phillips T. Market Guide for User and Entity Behavior Analytics. Published: 23 April 2018. ID: G00349450. Gartner. 2018.
3. Nashivochnikov N.V. Problemny~e voprosy~ primeneniya analiticheskix sredstv bezopasnosti kiberfizicheskix sistem predpriyatij TE~K / Nashivochnikov N.V., BoTshakov A.A., Nikolashin Yu.A., Lukashin A.A. // Voprosy~ kiberbezopasnosti №5 (33). 2019. S. 26-33.
4. Chalapathy R., Chawla S. Deep Learning for Anomaly Detection: A Survey. arXiv:1901.03407 [cs.LG]. 2019. URL: https://arxiv.org/ pdf/1901.03407.pdf.
5. Carlsson G. Topology and data // Bull. of the Amer. Mathem. Soc. 2009. Vol. 46(2), P. 255-308.
6. Offroy V, Duponchel L, Topological data analysis: A promising big data exploration tool in biology, analytical chemistry and physical chemistry // Analytica chimica acta. 2016. vol. 910. P. 1-11. https://doi.org/10.1016/j.aca.2015.12.037.
7. Wasserman L. Topological Data Analysis. arXiv:1609.08227v1 [stat.ME]. 2016. URL: https://arxiv.org/pdf/1609.08227.pdf.
8. Chazal F., Bertrand M. An introduction to Topological Data Analysis: fundamental and practical aspects for data scientists. arXiv: 1710.04019 [math.ST]. 2017. URL: https://arxiv.org/pdf/1710.04019.pdf.
9. Chazal F., de Silva V., Glisse M., Oudot S. The Structure and Stability of Persistence Modules. Springer International Publishing. 2016. P. 120. DOI: 10.1007/978-3-319-42545-0.
10. Huntsman S., Palladino J., Robinson M. Topology in cyber research. arXiv:2008.03299 [math.AT]. 2020. URL: https://arxiv.org/ pdf/2008.03299.pdf.
11. Bruel-Gabrielsson R., Nelson B., Dwaraknath A., Skraba P, Guibas L., Carlsson G. A Topology Layer for Machine Learning. arXiv:1905.12200v2 [cs.LG]. 2020. URL: https://arxiv.org/pdf/1905.12200.pdf.
12. Otter N., Porter M.A., Tillmann U. Grindrod P., Harrington H.A. A roadmap for the computation of persistent homology // EPJ Data Science. 6, 17. 2017. https://doi.org/10.1140/epjds/s13688-017-0109-5.
13. Kerber M., Schreiber H. Barcodes of Towers and a Streaming Algorithm for Persistent Homology // Discrete & Computational Geometry volume. 2019. v.61, P. 852-879. https://doi.org/10.1007/s00454-018-0030-0.
14. Love E.R., Filippenko B., Maroulas V., Carlsson G. Topological Deep Learning. arXiv:2101.05778 [cs.LG]. 2021. URL: https://arxiv.org/ pdf/2101.05778.pdf.
15. Bauer U. Ripser: efficient computation of Vietoris-Rips persistence barcodes. arXiv:1908.02518 [math.AT]. 2019. URL: https://arxiv. org/pdf/1908.02518.pdf
18 Nikolay Nashivochnikov, CISSR Deputy General Director - Technical Director, Gazinformservice LLC, St. Petersburg, Russia. E-mail: [email protected]
19 Valery Pustarnakov, Ph. D., First Deputy General Director, Gazinformservice LLC, St. Petersburg, Russia. E-mail: pustarnakov [email protected]
doi: 10.21681/2311-3456-2021-2-26-36
16. Arjovsky M., Chintala S., Bottou L. Wasserstein Generative Adversarial Networks // Proceedings of the 34th International Conference on Machine Learning, PMLR. 2017. P. 214-223.
17. Chow Y. Application of Data Analytics to Cyber Forensic Data // Worcester Polytechnic Institute: BS Thesis , 2016. P. 100.
18. Coudriau M., et al., Topological analysis and visualisation of network monitoring data: Darknet case study // IEEE International Workshop on Information Forensics and Security (WIFS). 2016. P. 1-6.
19. Trevor J. Bihl, Robert J. Gutierrez, Kenneth W. Bauer, Bradley C. Boehmke, Cade Saie. Topological Data Analysis for Enhancing Embedded Analytics for Enterprise Cyber Log Analysis and Forensics // Proceedings of the 53rd Hawaii International Conference on System Sciences, 2020. P. 1937-1946. DOI: 10.24251/HICSS.2020.238.
20. Makarenko N.G. E'mbedologiya i nejroprognoz. Chast' 1. - M. MIFI. 2003. 188 s.
21. Fomichev A.V. E'lementy' teorii bifurkacij i dinamicheskix sistem. Chast' II. - M. MFTI. 2019, 50 s.
22. Bary'sheva E.N., Nikishov V.N. Modeli ocenki finansovy'x pokazatelej s uchetom ix stoxastichnosti i xaotichnosti // Vestnik SamGU. 2012. № 4 (95). S. 115 126.
23. Ryue'l' D. Sluchajnost' i xaos. - M. Izdatel'stvo «Regulyarnaya i xaoticheskaya dinamika». 2001. 192 s.
24. Krakovska A., Mezeiova K., Budacova N. Use of False Nearest Neighbours for Selecting Variables and Embedding Parameters for State Space Reconstruction // Journal of Complex Systems, 2015. P. 1-12. https://doi.org/10.1155/2015/932750.
25. Postovalov S.N. Statisticheskij analiz danny'x, modelirovanie i issledovanie veroyatnostny'x zakonomernostej. Komp'yuterny'j podxod / Lemeshko B.Yu., Lemeshko S.B., Postovalov S.N., Chimitova E.V. - Novosibirsk. Izd-vo NGTU. 2011. 888 s.
26. Podinovskij V.V., Nogin V.D. Pareto optimal'ny'e resheniya mnogokriterial'ny'x zadach. - M. Fizmatlit. 2007. 256 s.
27. Orlov A.I. Metody' prinyatiya upravlencheskix reshenij. - M. KNORUS. 2018. 286 s.
28. Pichkalev A. V. Primenenie krivoj zhelatel'nosti Xarringtona dlya sravnitel'nogo analiza avtomatizirovanny'x sistem kontrolya // Vestnik KGTU. - Krasnoyarsk: KGTU. №1(1). 1997. S. 128 - 132.