Научная статья на тему 'Динамическая оценка подобия двух потоков событий'

Динамическая оценка подобия двух потоков событий Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
38
6
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шерстюк В.Г.

Представлена формальная модель событийной системы, предложен метод динамической оценки подобия двух потоков событий, основанный на принципе максимально возможного совмещения потоков. Показана эффективность данного метода, его адаптивность к условиям неполной и неточной исходной информации, позволяющая его использовать в ИС реального времени

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Dynamic similarity evaluation for two event streams

The event system formal model is presented, the method of dynamic similarity evaluation for two event streams is offered. This method is based on principle of maximally possible alignment of event streams. The efficiency of this method and his adaptiveness to incomplete and imprecise initial information allowing to use it in the real time intelligent systems.

Текст научной работы на тему «Динамическая оценка подобия двух потоков событий»

УДК656.612

В.Г. Шерстюк

ДИНАМИЧЕСКАЯ ОЦЕНКА ПОДОБИЯ ДВУХ ПОТОКОВ СОБЫТИЙ

Постановка проблемы. В сложных динамических системах (СДС) зачастую возникает необходимость решения задачи диагностики либо предсказания нежелательных (критических или аварийных) ситуаций. Состояние СДС и поведение объектов в ней, как правило, оценивается в процессе непрерывных наблюдений (мониторинга), при этом исходная информация о состоянии СДС представляет собой упорядоченную во времени последовательность событий. Каждое событие интерпретируется как составной объект, состоящий из множества количественных или качественных оценок параметров, получаемых путем прямых либо косвенных измерений. Присутствие или отсутствие во временной последовательности событий определенного класса может быть основанием для выводов о возможном переходе СДС в то или иное состояние, о вероятных будущих событиях или поведении объектов.

Однако, ограниченная точность средств измерений в системах реального времени, наличие препятствий, нескольких независимых каналов наблюдения, присутствие шумов и искажений приводят к неполноте, неточности и противоречивости информации о событии. Как следствие, в наблюдаемом потоке событий могут присутствовать шумовые события, пропуски событий, искажения их параметров и т.д.

Выявление причинно-следственных зависимостей между событиями и комбинациями событий в СДС является нетривиальной задачей, и зачастую возможно только после наработки определенной статистики наблюдений, при этом требуется непрерывное участие человека - оператора или эксперта. Снизить зависимость от «человеческого фактора» можно путем автоматизации процессов диагностики и предсказания ситуаций в СДС с использованием интеллектуальных систем (ИС).

Применение ИС, основанных на правилах либо на моделях, по причине невозможности априорного построения адекватных систем правил и моделей, а также ввиду необходимости верификации знаний, неосуществимой во многих открытых предметных областях, например при управлении подвижными объектами, для решения поставленной задачи практически невозможно [1]. Наиболее подходящим инструментом могли бы стать ИС, основанные на прецедентах, действующие на основе принципов: а) «ситуациям свойственно повторяться» и б) «в подобных ситуациях могут быть приняты подобные решения» [2]. Однако, напрямую использовать существующие модели прецедентных ИС невозможно, поскольку они требуют четко заданных статичных прецедентов с четко обозначенными границами, реализация же динамических прецедентных ИС требует соответствующего теоретического обоснования.

Анализ публикаций по теме исследования. Основой принятия решений по прецедентам является выявление подобия между текущей ситуацией и прецедентами, хранимыми ИС. Существует значительное число работ, посвященных исследованию методов оценки подобия объектов, систематический их обзор дан в [3]. Все рассмотренные декларативные и процедурные методы оценки подобия основаны на принципе попарного сопоставления объектов. Между тем, нам требуется оценивать подобие не пар, а последовательностей объектов (событий).

В [4] предложен метод сравнения последовательностей, основанный на подсчете расстояния Левенштайна, практическая реализация которого затруднительна ввиду значительной вычислительной сложности. В [5] для сравнения последовательностей

предложен нелинейный метод, представляющий собой генетический алгоритм. В [6] также рассматривался ряд подходов к решению задачи сравнения последовательностей, неадаптивных к условиям неточной и противоречивой информации. Идея динамической оценки подобия последовательностей предложена в [7], однако практического воплощения она не получила.

Единственной реализацией метода оценки подобия последовательностей в условиях неполной и неточной информации является метод динамического подсчета вхождений [8]. В то же время, метод разработан для весьма узкой и специфической задачи обнаружения вторжений в компьютерные сети, где при оценке подобия отдают приоритет слабо схожим редко встречающимся последовательностям впротивовес сильно схожим часто встречающимся последовательностям, что препятствует использованию данного метода в других предметных областях.

Таким образом, динамическая оценка подобия последовательностей событий представляет собой недостаточно исследованную область, актуальной задачей является разработка метода динамической оценки подобия потоков событий, пригодного для использования в ИС автоматизации процессов диагностики и предсказания ситуаций в СДС в условиях неполной и неточной информации.

Цель данной работы состоит в разработке метода динамической оценки подобия двух потоков событий в условиях неполной и неточной информации, пригодного для практической реализации в прецедентной ИС реального времени.

Основная часть. Примем за основу метод динамического подсчета вхождений и формализуем базовые понятия модели аналогично [8].

Событийную модель А представим упорядоченной парой:

А = (и, Е), (1)

где V - множество переменных; Е - сигнатура.

Сигнатура Е есть кортеж:

Е = (С, Р, 1, -<), (2)

где С - множество классов событий;

Р - множество параметров событий;

< - частичный порядок на С;

1 - наименьший элемент последовательности < .

Отношение < является по определению отношением информационной упорядоченности, поэтому с < с2 означает, что с несет меньше информации, чем С2 . Таким образом, с является абстракцией С2, а С2 - конкретизацией с, т.е. отношение < задает на С таксономическую иерархию классов.

Минимальный элемент 1 порядка < имеет семантику «любой» и выражает минимум информации, т.е. Усее.С с. Если значение некоторого параметра неизвестно либо недоступно ИС, будем присваивать ему значение 1 .

Событие может быть представлено как:

у::= X: с\рг = 4>ъ...р„ = ], (3)

где X - переменная, X е V; с - класс события, с е С; рь...рп - параметры события, рь...рп е Р;

¥ - переменные либо связанные события другого уровня абстракции.

Переменную X назовем начальной точкой события у .

При п = 0 событие не имеет параметров. Множество переменных,

изменяющихся при возникновении события ., обозначим и.. Зададим также

функцию гоо^([), возвращающую класс начальной точки события.

В заданной модели А путь р(Х, р/) является последовательностью, ведущей от

начальной точки X к значению параметра р1. Два пути р(Х, Р[) и р(У, р/) являются

эквивалентными, если они приводят к одному и тому же значению Р1.

В заданной модели А поток событий 8 представляет собой упорядоченную совокупность событий вида:

8 = ]^\,¥1,-¥п ] (4) такую, что для всех 81 е А существует по крайней мере один общий параметр ^ е Е.Р, значения которого полностью упорядочены, т.е. [.^ < [.^ <..-<[п-^ ■

Длина потока событий 8 (обозначается 8 ) определяется его мощностью (п).

Любые два потока событий могут быть связаны посредством оператора • .

В заданной модели А поток классов Т представляет собой упорядоченную совокупность классов вида:

Т = [сь съ...сп ] (5)

такую, что Т/ е А.Е.С .

Длина потока классов Т (обозначается Т ) определяется его мощностью (п). Любые два потока классов могут быть связаны посредством оператора ° .

Для любого заданного потока событий 8 может быть определен соответствующий поток классов Т, такой что Т1 = гоо).

Пусть заданы модель А и потоки классов и = Щьи2,.мп] и V = [^,v2,...vm], V/ щ е А.Е.С , V/ V: е А.Е.С, п =

и

т =

V

т < п . Поток классов и включает поток

классов V (обозначается и ^ V), если существует последовательность индексов

1 < ¡1 </2 < ... < 1т < п , такая что щ1 ^ ,щ2 < \ ,...щт < .

Пусть заданы модель А и потоки событий 8 = Щъщ2,...щп ] и Я = [[{,[2,.. щ'т ],

п =

8

т=

Я

т < п. Поток событий 8 включает поток событий Я (обозначается

8 ^ Я), если для потоков классов и = гоо¿(8) и V = гоо^(Я) выполняется условие

и ^ V . Поток событий Я входит в поток событий 8, если 8 ^ Я .

Представленное определение вхождения потоков позволяет далее ввести понятие совмещения потоков событий, необходимое для сопоставления потоков событий и их фрагментов в случае неполного (частичного) совпадения.

Пусть задана модель А, а в ней потоки событий 8 = [.1,.2,. .п] и Я = [[1,[2, . .т ], 8, Я еЕ . Совмещением потоков 8 и Я является пара ^8Я'^,

и

полученная вставкой пустых элементов ( ± ) в оба потока таким образом, что 8' = |Я'

для всех 1 < / < 8' элемент 8'[/] совмещен с элементом Я'[/], при 8'[/] и Я'[/] .

Для потока событий 8 = [[1,[2, . [п] длины п, заданного на модели А, сегментация 8(8, т) степени т представляет собой последовательность из т +1 точек

разрыва в диапазоне \1, п], таких что:

m)=[sl, ^ 2,...ят, ],

1 = < ^2 < ... < 8т < sm+1 = п + 1 •

Очевидно, что т -сегментация приводит к разбиению потока £ на т сегментов

Я1, £ 2,...£т ]:

чЦ^-Из -1 ]* ... т ,...,Уп ]=|( ,...,У5,+1 ]т=1 , (7)

таких что Ет=1 |£г| = п. В общем случае, для любого заданного потока событий может

быть определено множество возможных сегментаций.

Обозначим символом — сходство сегментов, а символом — - их различие.

Пусть £ представляет собой входной (наблюдаемый) поток событий, а Я -поток событий прецедента, содержащегося в хранилище ИС. Произведем к -сегментацию потока £ и I -сегментацию потока Я. Тогда сопоставляемые потоки

событий можно представить как совокупности сегментов £к и Я1 трех типов:

а) совместимых, когда сопоставимые элементы (события) занимают одинаковые позиции в обоих сегментах:

К*к И-я1 Йк™ | §к и я |): £к -с я1

кк^п|£к|,|Я;|): £ —сЯ ; (8)

б) совмещаемых, когда сопоставимые элементы встречаются в обоих сегментах, но в различных позициях:

£ И- Я1 \] ])Ц** |,0<ця ]: £к — а Я1; (9)

в) несовмещаемых, когда элементы, присутствующие в сегменте одного потока, отсутствуют в сегменте другого потока:

£\'])ЦИ : У £кИ* Я1 [/] и : У Я1 [ф £к[/]: £к — Я1. (Ш)

Оценка подобия совместимых сегментов может быть принята за 1, т.е. £ к —с Я1 : 8Гм(£к, Я1 )= 1, соответственно для несовмещаемых сегментов

£к — Я1 : в1м(£к, Я1) = 0 . Оценка подобия совмещаемых сегментов может быть вычислена при выполнении совмещения, для чего используются две предопределенные операции:

- вставки события [ в сегмент £ к в позицию I: ¡п]в& {§к,[, I);

- отбрасывания события [ из позиции I сегмента £ к : 1^поге£к,[, I).

С помощью первой операции поток дополняется «пропущенными» событиями, с помощью второй - фильтруются из потока «шумовые» события.

Введем оценку затрат на выполнение операции вставки и операции

отбрасывания $%поге([):

й1щес\[)=- Ея([),

а1ёпоге[)=-1 яИ), (11)

я([) = 1пё [[, £ )/ 1пё ([, Я),

где я([') - оценочная функция затрат, рассматривающая событие ( и все

абстрактные ( е C: root({) ^ ( таксономической иерархии C;

Ind((, S) - число вхождений события ( во входной поток событий S; IndR) - число вхождений события ( в поток событий R прецедента. Отметим, что чем с более абстрактной позиции в c рассматривается событие, тем большей получается оценка затрат на совмещение сегментов - и, соответственно, тем меньшим становится значение оценки подобия.

При оценке подобия совмещаемых сегментов производится поиск возможных

совмещений суффикса сегмента Sk входного потока с префиксом сегмента rl потока событий прецедента ИС.

Сумма затрат Л на выполнение совмещения сегментов определяется с помощью следующего рекуррентного соотношения:

Л(0,0) = 0, Л(/,0) = Л(/ -1,0),

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

л(о, j ) = Л(0, j-1)+Qj (r l[j ]),

Л(/ -1, j)+QIgnore(s k [i]) (12)

Л(/, j -1)+QInject(rl [j]) ,

Л(/ -1, j -1)+ QSubst(sk [i], Rl [j])

где QSubst(i {j) - оценка затрат на выполнение замены события ( событием ( .

Данная оценка должна учитывать место обоих событий в таксономической иерархии классов и подобие событий, определяемое традиционно подобием значений их параметров [3], поэтому

Л(/, j ) =

max <

QSubs( ()={SM(i () если i * j

(j Hn , (13)

0 во всех остальных случаях где SIM (( ((j ) - статическая функция подобия двух событий.

Динамическая оценка подобия сегментов Sk и rl может быть получена по принципу максимально возможного совмещения (в отличие от [8]) с использованием суммы затрат Л:

SIM(S k, Rl )= max^|Ri| Л^к |, j), (14)

Если известны оценки подобия всех сегментов к -сегментированного входного потока событий S и l -сегментированного потока событий прецедента R , динамическая оценка подобия потоков событий S и R может быть вычислена как:

sim(sR)= пmax1<i<k sim(si,Rj), (15)

j=1

Ввиду мультипликативности (15), присутствие во входном потоке S несовмещаемых сегментов относительно R приводит к SIm(S, R)= 0.

Для дальнейшего использования в ИС полученное значение требуется нормировать к числовому диапазону [0,1], например, ограничив его максимально

возможной величиной подобия (т.е. SIm(S , R)= SIm(S , R)/ SIm(R, R) ).

Выводы и перспективы дальнейших исследований. Предложенный метод оценки подобия двух потоков событий, основанный на принципе максимально возможного совмещения потоков, имеет оценку вычислительной сложности O(m х n),

где m =

S

n =

R

т.е. зависит исключительно от длин сравниваемых потоков. Кроме

того, метод работоспособен в условиях неполной и неточной информации. Предложенный метод достаточно эффективен для реализации в ИС реального времени диагностики и предсказания в СДС.

ЛИТЕРАТУРА:

1. Hellerstein J.L. Discovering Actionable Patterns in Event Data / J. L. Hellerstein, S. Ma, C. S. Perng. // IBM Systems Journal. - 2002. - Vol. 41. - №3. - P. 475-492.

2. Aamodt A. Case-based reasoning: foundational issues, methodological variations, and system approaches / A. Aamodt, E. Plaza // AI Communications. - 1994. - Vol. 7. -№1. - P. 39-59.

3. Pal S. K. Foundation of Soft Case-Based Reasoning / S. K. Pal, S. C. K. Shiu. - New Jersey: J. Viley & Sons, 2004. - 274 p.

4. Levenshtein V. I. Binary codes capable of correcting deletions, insertions, and reversals / V. I. Levenshtein // Cybernetics and Control Theory. - 1966. - Vol. 10. -№8. - P. 707-710.

5. Schrodt P. A. Pattern Recognition of International Crises using Hidden Markov Models / P. A. Schrodt // Political Complexity: Nonlinear Models of Politics. -University of Michigan Press, 2000. - P. 296-328.

6. Gusfield D. Algortithms on Strings, Trees, and Sequences / Dan Gusfield. -Cambridge: Cambridge University Press Syndicate, 1997. - 381 p.

7. Keane M. T. Dynamic Similarity: A Processing Perspective on Similarity / M. T. Keane, B. Smyth // Similarity and Categorisation. - Oxford: Oxford University Press, 2001. - 296 p.

8. Martin F. J. Case-Based Sequence Analysis in Dynamic, Imprecise, and Adversarial Domains / F. J. Martin: Tesi doctoral by Universitat Politecnica De Catalunya, 2004. -285 p.

ШЕРСТЮК Владимир Григорьевич - к.т.н., доцент кафедры информационных технологий Херсонского национального технического университета. Научные интересы:

- интеллектуальные системы принятия решений реального времени, принятие решений на основе прецедентов, логико-когнитивные модели.

i Надоели баннеры? Вы всегда можете отключить рекламу.