Научная статья на тему 'Методы согласования знаний по компьютерной безопасности, извлеченных из различных документов'

Методы согласования знаний по компьютерной безопасности, извлеченных из различных документов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
190
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ / КОМПЬЮТЕРНАЯ АТАКА / ПРЕЦЕДЕНТ КОМПЬЮТЕРНОЙ АТАКИ / ПРЕЦЕДЕНТНАЯ МОДЕЛЬ / ОБОБЩЕННАЯ НЕЧЕТКАЯ МОДЕЛЬ / ОБОБЩЕННЫЙ ПРЕЦЕДЕНТ / INFORMATION SECURITY / CYBER-ATTACK / CYBER-ATTACK PRECEDENT / PRECEDENT MODEL / GENERALIZED FUZZY MODEL / GENERALIZED PRECEDENT

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Яхъяева Гульнара Эркиновна, Ясинская Ольга Владимировна

Рассматривается проблема согласования знаний по компьютерной безопасности, извлеченных из разных текстов на естественном языке. Дается описание поставленной задачи с помощью теоретико-модельного формализма. Знание о конкретной компьютерной атаке формализуется в виде недоопределенной алгебраической системы (названной обобщенным прецедентом). База знаний представляет собой множество обобщенных прецедентов. Согласованное значение истинности предложения вычисляется в виде интервала, определенного на отрезке 0, 1 . Приводятся алгоритмы вычисления со гласованного значения истинности, описывается программная реализация разработанных методов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Яхъяева Гульнара Эркиновна, Ясинская Ольга Владимировна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MATCHING METHODS IN COMPUTER SECURITY KNOWLEDGE LEARNED FROM MULTIPLE DOCUMENTS

This paper considers the problem of matching the knowledge of computer security learned from different texts in natural language. A description of the problem with the model-theoretic formalism is presented. Knowledge of the particular computer attack is formalized as underdetermined algebraic system (named generalized precedent). The knowledge base is a set of generalized precedents. The matched value of the truth of a sentence is calculated as an interval defined on [0, 1]. The paper presents the algorithms for calculating the matched value of the truth, the software implementation of the developed methods is described.

Текст научной работы на тему «Методы согласования знаний по компьютерной безопасности, извлеченных из различных документов»

УДК 004.4

Г. Э. Яхъяева, О. В. Ясинская

Новосибирский государственный университет ул. Пирогова, 2, Новосибирск, 630090, Россия

E-mail: gulnara@math.nsc.ru; yasinskaya.olga@gmail.com

МЕТОДЫ СОГЛАСОВАНИЯ ЗНАНИЙ ПО КОМПЬЮТЕРНОЙ БЕЗОПАСНОСТИ, ИЗВЛЕЧЕННЫХ ИЗ РАЗЛИЧНЫХ ДОКУМЕНТОВ *

Рассматривается проблема согласования знаний по компьютерной безопасности, извлеченных из разных текстов на естественном языке. Дается описание поставленной задачи с помощью теоретико-модельного формализма. Знание о конкретной компьютерной атаке формализуется в виде недоопределенной алгебраической системы (названной обобщенным прецедентом). База знаний представляет собой множество обобщенных прецедентов. Согласованное значение истинности предложения вычисляется в виде интервала, определенного на отрезке [0,1].

Приводятся алгоритмы вычисления согласованного значения истинности, описывается программная реализация разработанных методов.

Ключевые слова: информационная безопасность, компьютерная атака, прецедент компьютерной атаки, прецедентная модель, обобщенная нечеткая модель, обобщенный прецедент.

Введение

Современный этап развития общества характеризуется возрастающей ролью информационной сферы. Безопасность рядовых пользователей, промышленных предприятий и корпораций и всего государства в целом существенным образом зависит от обеспечения информационной безопасности. В дальнейшем, в ходе технического прогресса важность информационной безопасности будет только возрастать [1].

Сейчас основная задача специалистов, обеспечивающих компьютерную безопасность, -это оперативная реакция на изменения текущего статуса защищенности всех компонент систем и своевременное обнаружение изменения этого статуса. Для этой цели удобно иметь программную систему, позволяющую без необходимости приобретения особых навыков оперативно определить тип компьютерной атаки, узнать самую свежую информацию о возможных последствиях компьютерных атак и способах их предотвращения.

При проектировании интеллектуальных систем первоочередной проблемой является задача представления знаний и дальнейшая их обработка [2]. Компьютерная программа, чтобы быть эффективной для заданной предметной области, должна располагать знанием о данной предметной области, представленном в используемом этой программой формализме. Задача представления знаний состоит главным образом в выявлении того, каковы наиболее адекват-

* Исследование выполнено при поддержке Министерства образования и науки Российской Федерации (соглашение № 14.B37.21.0400 «Методы извлечения и порождения знаний для обеспечения информационной безопасности»).

Яхъяева Г. Э., Ясинская О. В. Методы согласования знаний по компьютерной безопасности, извлеченных из различных документов // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2013. Т. 11, вып. 3. С. 63-73.

ISSN 1818-7900. Вестник НГУ. Серия: Информационные технологии. 2013. Том 11, выпуск 3 © Г. Э. Яхъяева, О. В. Ясинская, 2013

ные формализмы для представления знаний и каковы наиболее эффективные методы манипулирования этими знаниями.

Особенно остро эта проблема стоит, когда речь идет о знаниях, относящихся к области информационной безопасности и компьютерных угроз. Это связано с тем, что в этой области ценность информации в гораздо большей степени зависит от ее новизны, чем в большинстве других областей науки и технологии. Для эффективной защиты от компьютерной угрозы необходимо как можно раньше узнать о ее появлении. Один из наиболее актуальных источников такой информации - тексты на естественном языке, представленные в сети Интернет.

Одной из методологий обработки знаний, извлеченных из текстов на естественном языке, является теоретико-модельный подход представления знаний. Он основан на разработанном теоретико-модельном подходе к формализации онтологий предметных областей [3; 4]. В рамках предлагаемого подхода знания, извлекаемые из текстов, написанных на естественном языке, представляются в виде алгебраических систем (прецедентов предметной области). На основе прецедентов строится прецедентная модель предметной области. Значением истинности предложения на прецедентной модели является набор тех прецедентов, для которых это предложение является истинным в точном смысле. В результате фазифи-кации прецедентной модели получается нечеткая модель, в которой значениями истинности предложений являются числа из интервала [0, 1]. Фазифицируя некоторое множество прецедентных моделей как единое целое мы получаем обобщенную нечеткую модель. Формальное (теоретико-модельное) описание всех этих моделей можно найти в работах [5; 6].

Одним из путей порождения новых знаний при помощи текстов естественного языка является сравнение и интеграция знаний, содержащихся в разных текстах [7]. В процессе извлечения знаний из текстов на естественном языке строятся различные обобщенные нечеткие модели, формализующие извлеченное знание. И, таким образом, возникает необходимость в согласовании различных алгебраических систем. Данная работа посвящена решению вопроса о согласовании знаний, полученных из разных источников для предметной области информационной безопасности.

Принцип согласования обобщенных нечетких моделей

Одной из интерпретаций обобщенной нечеткой модели может быть следующая. Пусть есть некоторый эксперт по предметной области, описываемой языком а А. Например, таким экспертом может быть системный администратор предприятия, предметной областью - компьютерная безопасность. Эксперт имеет дело с некоторым множеством ситуаций - прецедентов данной предметной области (например, с некоторым множеством кибератак). Это множество прецедентов можно рассматривать как вероятностное пространство. Элементарными исходами этого вероятностного пространства будут прецеденты. Естественно, эксперт не знает полного описания каждой из указанных прецедентов и тем более не знает истинностного значения всех предложений сигнатуры аА на каждом из этих прецедентов. Тем не менее эксперт, исходя из известной ему информации, может давать вероятностные оценки истинности интересующих нас предложений. Например, эксперт может утверждать «70 % компьютерных атак используют Бо8-атаки» или «не менее 60 % компьютерных атак направлено на кражу информации». В работах [6; 8] показано, как такие вероятностные знания эксперта можно формализовать с помощью обобщенной нечеткой модели.

А теперь предположим, что у нас имеется не один, а несколько экспертов в данной предметной области. Каждый из экспертов обладает своими уникальными знаниями о предметной области. Очевидно, что эти знания, в общем случае, не будут совпадать (так как разные эксперты могли получать свои знания из разных источников, могли принадлежать различным научным школам и т. п.). Однако, принимая решение, мы бы хотели учитывать мнения всех экспертов, т. е. находить компромиссное решение.

На формальном языке эту проблему можно описать следующим образом. Пусть рассматриваемая предметная область описывается сигнатурой аА, где А - множество индивидуу-

мов (основное множество) данной предметной области. Для описания предметной области построено конечное число обобщенных нечетких моделей

{А к = (А, оа , = 1,..., п},

где К{ - множество прецедентных моделей, порождающих модель Ак , и - означивание всех предложений сигнатуры аА на модел Ак . Заметим, что значениями истинности предложений на обобщенной нечеткой модели являются различные подмножества интервала [0, 1].

Тогда проблему согласования конечного числа моделей А к,..., А к можно сформулировать следующим образом: описание процедуры (алгоритма), позволяющего для любого фе £ (а а ), исходя из значений истинности ^(ф),..., (ф) этого предложения на моделях

А к ,..., А к , построить согласованное значение истинности Тг (ф) с [0,1].

Данную проблему можно было бы формализовать как построение п-местной функции /: (р([0,1]))п ^ р([0,1]). Однако при построении этой функции нужно учитывать, что согласованные значения истинности для разных предложений не должны противоречить друг другу. Например, странно бы выглядело, если бы наш принцип согласования выдавал бы Тг (ф) = Тг(-ф) = 1.

Таким образом, более разумно сформулировать принцип согласования п обобщенных нечетких моделей как п-местную функцию /, определенную на множестве всех обобщенных нечетких моделей, т. е.

/:(А к1,..., А К) ^ А К .

Более того, хотелось бы, чтобы данный принцип согласования работал на любом конечном множестве моделей и не зависел от порядка рассмотрения моделей. А эти свойства, как известно, достигаются при помощи свойств ассоциативности и коммутативности.

Пересечение и объединение обобщенных нечетких моделей. Как было отмечено выше, каждая обобщенная нечеткая модель Ак однозначно определяется множеством прецедентных моделей к. Таким образом, определяя функцию согласования мы, по существу, должны задавать операции на множествах прецедентных моделей. Для начала рассмотрим теоретико-множественные операции пересечения и объединения.

Определение 1. Пусть Ак^ и Ак - обобщенные нечеткие модели, порожденные классами прецедентных моделей К1 и К2 соответственно. Модель Апкназывается пересечением моделей А к и А к .

к1 к2

Замечание 1 Ак1 п...пкп = А(к1 п...Пкп-1 )Пк„.

Отметим, что операция пересечения является частичной, т. е. не все модели согласуются при помощи данной операции.

Предложение 1. Пусть Ак ..., Ак - обобщенные нечеткие модели, порожденные классами прецедентных моделей к1,...,кп соответственно. Тогда для любого фе £ (аА)

(^к ^ п...п к (ф) с 0 £ к. (ф) ^0.

¿=1 ¿=1

Доказательство. Пусть п.=1 к. ^0. Тогда для любого q е п пк (ф) найдется такая прецедентная модель АЕ, что АЕ е к1 п... п кп и Еыг(АЕ) |=q ф. Очевидно, что АЕ е Ki (. = 1,..., п). Следовательно, q е (ф) (. = 1,..., п), т. е. qе пп=1 (ф).

Определение 2. Пусть Ак^ и Ак - обобщенные нечеткие модели, порожденные классами прецедентных моделей к1 и к2 соответственно. Модель Ак ик2 называется объединением моделей А к и А к .

к2

Замечание 2. и...икл = А(к1 и...ик„-1)ик„ •

Предложение 2. Пусть Ак ..., Ак - обобщенные нечеткие модели, порожденные классами прецедентных моделей К1,...,Кп соответственно. Тогда для любого фе £ (аА)

п

5 к и... и Кп (ф) = и ^к,(ф).

¿=1

Доказательство. Рассмотрим qе ^и ик (ф). Найдется такая прецедентная модель АЕ, что АЕ е К1 и... и Кп и Ен^(АЕ) |=q ф. Тогда найдется такое ¿ ^ е {1,..., п}), что АЕ е Ki, т. е. q е к (ф). Следовательно, q е ип=1 ^к, (ф).

Возьмем теперь qе ип= (ф). Тогда найдется такое i ^ е{1,..., п}), что q е (ф). Следовательно, существует такая прецедентная модель АЕ, что АЕ е К, и (АЕ) \= ф. Таким образом, получим, что АЕ е К1 и ... и Кп и qе ^и ик (ф).

На практике обычно используются вероятностные оценки событий, являющиеся либо числами, либо интервалами из множества [0,1]ПО1. Таким образом, интересно рассматривать не произвольные обобщенные модели, а интервальные модели.

Определение 3. Обобщенная нечеткая модель Ак называется интервальной моделью, если для любого фе £(сА) значение истинности ^к (ф) является интервалом на множестве

[0,1] ПО.

Заметим, что класс интервальных моделей не замкнут относительно операции объединения. Таким образом, операция объединения не является подходящим формализмом для описания поставленной задачи.

С другой стороны, хотя класс интервальных моделей замкнут относительно операции пересечения, данная операция является частичной. И, следовательно, тоже не подходит для формализации согласования моделей.

Произведение обобщенных нечетких моделей.

Определение 4. Рассмотрим множества прецедентов Е1 и Е2. Будем говорить, что Е1 и Е2 изоморфны (Е1 = Е2), если существует такое взаимно однозначное отображение /: Е1 ^ Е2, что А = /(А) для любого Ае Е1.

Определение 5. Рассмотрим прецедентные модели А^ и АЕ Модель АЕ назовем произведением моделей А^ и АЕ и обозначим АЕ = А^ * АЕ2, если:

1) Е = Е1 иЕ*, где Е2 = Е2 и Е* ПЕ1 =0;

2) Для любого фе £ (а А) имеем тЕ (ф) = тЕ^(ф) и тЕ*(ф).

В работе [6] было доказано, что операция * является ассоциативной, коммутативной и замкнутой на множестве всех прецедентных моделей.

Предложение 3. Рассмотрим прецедентные модели АЕ1 , АЕ2 и АЕ такие, что

АЕ = АЕ[ * АЕ2. Пусть нечеткие модели А^, А^2 и Ац являются фазификациями данных моделей. Тогда для любого предложения фе £ (а А) имеем

= ^1(ф) -|| ЕЛ+МФ) -|| Щ

N1 + 1|Е2|| '

Доказательство данного предложения также можно найти в работе [6].

Следствие 1. Рассмотрим прецедентные модели АЕ1 , АЕ2 и АЕ такие, что

АЕ = АЕ[ * АЕ2. Пусть нечеткие модели А^, А и Ац являются фазификациями данных

моделей. Тогда для любого предложения фе S(aA) имеем

min{^ (ф), ц2(ф)} < ц(ф) < max(^j (ф), ц2(ф)}.

Определение 6. Пусть AK^ и AK^ - обобщенные нечеткие модели, порожденные классами прецедентных моделей K1, K2 соответственно. Модель AKi*K^ называется произведением моделей A К и A К , если К1 К2 '

Ki* К2 = {A Ei * A e2 \AEi е Ki и A^ е K2}.

Так как произведение прецедентных моделей является коммутативной и ассоциативной операцией, то и произведение обобщенных нечетких моделей также будет коммутативно и ассоциативно.

Теорема 1. Пусть AK AK - интервальные модели. Тогда для любого предложения фе S(aA) имеем

K (ф) = [а1, а2]J

1 / \ ГО оЛ^ £ K1*K2 (ф) £ [min(ai, Pi)];max(a 2, р2)].

£K2(ф) = в2] J 1 2

Доказательство. Следует из следствия 1.

База знаний по компьютерной безопасности

На основе методологии обобщенных нечетких моделей в Новосибирском государственном университете была разработана программная система RiskPanel 3, по существу являющаяся рабочим местом специалиста (группы специалистов) по обеспечению корпоративной информационной безопасности [9].

Ядром данной системы является база знаний по информационной безопасности. Для организации базы знаний и работы с ней используется технология OntoBox [10] - система представления и хранения данных в формате онтологий, обладающая мощными и гибкими инструментами обработки. Ее использование позволяет обеспечить большую степень модульности и мобильности баз знаний, что является преимуществом при разработке сложных информационных систем.

Для описания прецедентов в базе знаний OntoBox создано семь категорий признаков (классов) - симптомы, угрозы, уязвимости, последствия, потери, контрмеры и конфигурация. Каждая из этих категорий признаков представлена в виде древовидной структуры. Прецеденты в базе характеризуются обладанием определенных признаков из каждой категории. Каждый прецедент формируется исходя из некоторого текста на естественном языке, найденного в сети Интернет.

В ходе анализа текстов, предоставляемых для формирования прецедентов, было обнаружено, что их подавляющее большинство обладает четкой, но не полной информацией, т. е. для каждого конкретного прецедента мы не имеем полной информации об обладании / необладании всеми описанными в базе знаний признаками. Для разрешения этой проблемы было предложено использовать методологию семантики открытого мира, широко применяемую в системах логики описаний (Description Logic) [11]. Основная идея данного подхода заключается в рассмотрении всех возможных интерпретаций неизвестной информации. Таким образом, для математического описания прецедента компьютерной атаки мы будем рассматривать обобщенную нечеткую модель, обладающую определенными свойствами, которую будем называть неполным прецедентом.

Определение 7. Рассмотрим множество U с S(aA) и означивание v : U ^ {0,1}. Будем

говорить, что прецедент A согласуется с означиванием v (и обозначать A Tv), если для любого предложения феи имеем

A |= ф ^ v^) = 1.

3 Свидетельство о государственной регистрации программ для ЭВМ № 2011617412 от 23.09.2011 г.

Определение 8. Рассмотрим множество и с £ (а А) и означивание V : и ^ {0,1}. Обобщенная нечеткая модель Ак называется обобщенным прецедентом, порожденным означиванием V, если

К = {А | А - прецендент и А

В данном формализме всю базу знаний системы Ш8кРапе1 мы можем рассматривать как конечное множество обобщенных прецедентов. И, делая выводы из данной базы знаний, мы должны согласовывать данные модели.

Для базы знаний, формализованной в виде множества обобщенных прецедентов, наиболее адекватным является принцип согласования, основанный на произведении обобщенных нечетких моделей, так как именно он согласуется с семантикой открытого мира.

Заметим, что каждый обобщенный прецедент Ак не является интервальной моделью. Более того, для любого предложения фе £ (а А) значение истинности ^ к (ф) принадлежит множеству {{0},{1},{0,1}}.

Таким образом, алгоритм подсчета значений истинности в модели согласования, предложенный в теореме 1, нам не подходит. Сформулируем алгоритм подсчета значений истинности в модели согласования обобщенных прецедентов.

Теорема 2. Пусть Ак,..., Ак - обобщенные прецеденты. Тогда для любого предложения

фе £ (а А) имеем

г . . Га а +1 а + В

?кЛ..*к„ (ф)=;—;...;-

1 I п п п

где а=|{Ак_ (ф) = {1}} и Р = |{Ак, (ф) = {0,1}} .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Доказательство. Пусть qеЪ,к* *к (ф). Тогда найдутся такие прецеденты А1 е к1,..., Ап е кп, что, в силу предложения 3,

q = £1(ф) +... + е п (ф)

ч = ,

п

где для любого , = 1,..., п имеем е,, (ф) = 1, если А,. |=ф, и еi(ф) = 0, если А,. |^ф. Очевидно, что

а<е1 (ф) +... + еп (ф) <а + р. а; а +1; ; а + Р"

Таким образом, получим, что q е

? ? • * * ?

п п п

Г а а +1 а + р! ^ у __ ^ ^ а

Возьмем теперь qе <—;-;...;->. Допустим, q = —. Очевидно, что а<у<а + р.

[ п п п ) п

Пусть

{Ак, 1^к,(ф) = {1}} = {Ак,1,..., Ак,а};

{А к.|^(ф) = {0,1}} ={А к^,..., А к^}.

Из каждого обобщенного прецедента первого множества выберем произвольно по одному прецеденту, т. е. А, е Ki (я = 1,..., а). Из у — а обобщенных прецедентов второго множества

выберем по одному прецеденту, на котором предложение ф истинно, а из оставшихся обобщенных прецедентов выберем по одному прецеденту, на котором предложение ф ложно, т. е. выберем такие А. е к. (я = 1,..., Р), что А. |=ф, если я <у — а, и А. |^ф, если я >у — а. Очевидно, что

А, * * А, * А. * * А. |= ф

4 ,а .1 1 Т

Таким образом, получим, что q еЪ,к* *к (ф). ■

Заметим, что, согласовывая конечное множество обобщенных прецедентов, мы не будем получать интервальную модель. Но при п ^^ значения истинности предложений на согласованной модели будут стремиться к интервалам на множестве [0, ...,1] пО Таким образом,

на практике, имея дело с достаточно большим множеством прецедентов, мы можем воспринимать значения истинности на согласованной модели как интервалы.

Атомарно-обобщенные прецеденты

Определение 9. Обобщенный прецедент называется атомарно-обобщенным, если он порожден означиванием подмножества множества всех атомарных предложений.

Рассмотрим бескванторное предложение ф(А1,...,Ап) от п атомарных предложений. Приведем это предложение к виду СДНФ, т. е. ф(А1,..., Ап) = ю1у... уи4 , где ю, (. е{1,..., к}) -элементарные конъюнкции, состоящие из атомарных предложений А1,..., Ап.

Введем следующие обозначения:

Соп(ф) = {ю1,..., Юк}; Соп(ф, {0}) = {юе Соп(ф) | £к (ю) = {0}}; Соп(ф, {1}) = {юе Соп(ф) | ^(ю) = {1}}; Соп(ф, {0,1}) = {юе Соп(ф) | £к (ю) = {0,1}}.

Теорема 3. Пусть Ак - атомарно-обобщенный прецедент и ф - бескванторное предложение сигнатуры аА. Тогда

[{0}, Соп(ф) = Соп(ф,{0});

(Соп(ф, {1}) Ф0) или

£к(ф)=

^ Соп(ф, {0, 1})|| = 2^(А )={0,1})11);

{0,1}, в противном случае.

Доказательство. Очевидно, что

£к(ф) = {0} ^ УАе к (А |Ф ф) ^УАе к (А |Фю,... А|Ф юп) ^ ^£к (ю) =... = £к (юп) = {0} ^ Соп(ф) = Соп(ф, {0}).

С другой стороны,

Соп(ф, {1}) Ф0^ Зю.УАе к (А |= ю.) ^ ^ УАе к (А |=ф) к(ф) = {1}.

Пусть А1,..., Ап - множество атомарных предложений, входящих в формулу ф. Рассмотрим множество элементарных конъюнкций

V = К1 &...&Аеп" |ЗА е к: А |= А &...&А";}.

Пусть а = ||(| £к () = {0,1}||. Очевидно, что аФ0, так как иначе бы мы имели Соп(ф,{0,1}) Ф0. Следовательно, Щ = 2а.

Допустим теперь, что Соп(ф) Ф Соп(ф, {0}) и Соп(ф, {1}) = 0. Следовательно, Соп(ф, {0,1}) Ф 0. Более того, Соп(ф, {0,1}) с V.

Рассмотрим два случая: Соп(ф, {0,1}) = V и Соп(ф, {0,1}) Ф V.

Пусть Соп(ф, {0,1}) = V. Тогда для любого прецедента А е к найдется такой конъюнкт ю, е Соп(ф, {0,1}), что А |=ю,. Следовательно, на любом прецеденте Ае к предложение ф будет истинно, т. е. £ к (ф) = {1}.

Предположим теперь, что Соп(ф, {0,1}) с V. Тогда найдется такой прецедент А'е к, на котором все конъюнкты из Соп(ф, {0,1}) будут ложны. А так как мы предположили, что

Соп(ф, {1}) = 0, то на прецеденте А' будет ложно и все предложение ф. С другой стороны, так как Соп(ф, {0,1}) ^0, то найдется такой прецедент А'', что А'' |=ф. Следовательно, мы получим Ъ к (ф) = {0,1}. ■

Модуль согласования знаний

В рамках программной системы обеспечения корпоративной информационной безопасности Ш8кРапе1 был разработан модуль согласования знаний, извлеченных из различных прецедентов компьютерных атак. На данный момент интерфейс модуля позволяет вычислять значение истинности в виде интервала для формулы, представленной в виде СДНФ [12].

Рассмотрим интерфейс модуля более подробно (рис. 1). Для того чтобы предоставить данные, подаваемые на вход главному алгоритму, пользователю необходимо ввести параметры формулы с помощью предоставляемых средств. Сначала выбираются признаки, входящие во все конъюнкции интересующей СДНФ. В выпадающем списке «Категория признака в СДНФ» можно выбрать категорию признака - симптомы, угрозы, уязвимости, последствия, потери, контрмеры и конфигурация. При выборе категории в окне ниже отображается дерево возможных значений признака данной категории, напоминающее дерево папок в файловой системе. Информация о категориях признаков и возможных значениях хранится в файле базы данных Оп1;оВох. Пользователь выбирает значение признака в дереве и нажимает кнопку «Добавить в конъюнкции», после чего выбранное значение признака и соответствующая ему кнопка «Удалить» добавляются в окно с результирующей СДНФ. Далее задается количество конъюнкций в формуле, после чего в окно с результирующей СДНФ добавляется необходимое количество выпадающих списков с двумя значениями - «+» и «-», где «-» символизирует отрицание аргумента. Данные из этого окна с СДНФ будут переданы на вход основному алгоритму при нажатии на кнопку «Получить значение формулы».

Рис. 1. Общий вид модуля интеграции знаний

Значение формулы вычисляется в виде интервала (см. теорему 2). Значение начала интервала равно отношению количества прецедентов, на которых формула истинна, к количеству всех имеющихся прецедентов. Значение конца интервала равно отношению количества прецедентов, на которых формула истинна, плюс количество прецедентов, на которых истинность формулы не определена, к количеству всех имеющихся прецедентов.

Алгоритм определения истинности формулы на обобщенном прецеденте разработан на основе теоремы 3 и представлен на рис. 2.

нач двоич right цел unknow с^ remov

Рис. 2. Алгоритм определения истинности формулы на обобщенном прецеденте

Сначала из формулы исключаются ложные конъюнкции, которые противоречат имеющейся информации о прецеденте. Если конъюнкций в формуле не осталось, то формула ложна на прецеденте. Далее если конъюнкции остались, то при отсутствии в конъюнкциях значений признаков, для которых неизвестно, обладает ими прецедент или нет, формула считается истинной на прецеденте. Если конъюнкции остались, и при этом они содержат значения признаков, для которых неизвестно, обладает ими прецедент или нет, то алгоритм действует следующим образом. Если оставшихся конъюнкций меньше, чем 2й, где п - количество значений признаков в конъюнкциях, для которых неизвестно, обладает ими прецедент или нет, то истинность формулы на прецеденте не определена, иначе формула истинна на прецеденте.

Для определения принадлежности прецеденту каждого из значений признаков, входящих в конъюнкции, требуется O(n) операций, где n - количество всех значений признаков всех категорий, хранящихся в базе знаний OntoBox. Для исключения ложных на прецеденте конъюнкций на основе полученной информации о принадлежности для каждого из значений признаков требуется O(k) операций, где k - количество конъюнкций в СДНФ. Всего количество значений признаков, участвующих в конъюнкциях, не может превышать п. В результате

итоговая алгоритмическая сложность разработанного подхода к определению истинности СДНФ на прецеденте равна O(n(n+k)).

Далее, если в базе знаний OntoBox хранится m прецедентов компьютерных атак, то на вычисление значения истинности формулы в виде интервала потребуется O(mn(n+k)) операций.

Заключение

Данная работа посвящена описанию математического аппарата и программной реализации одного из модулей системы RiskPanel, направленного на согласование знаний по компьютерной безопасности, полученных из различных интернет-источников.

Алгоритмы, реализованные в этом модуле, разработаны на основе методологии обобщенных нечетких моделей. Знания, полученные из одного источника, формализуются в виде алгебраической системы и хранятся в базе знаний системы RiskPanel. Для реализации согласования знаний строится обобщенная нечеткая модель, являющаяся произведением всех хранящихся в базе алгебраических систем.

Интерфейс системы позволяет вычислять истинностное значение любого бескванторного предложения. На вход системы подается предложение, представленное в виде СДНФ. Значение истинности высчитывается как вероятностный интервал.

Разработанный алгоритм имеет полиномиальную сложность.

Список литературы

1. Васенин В. А. К созданию международной системы мониторинга и анализа информационного пространства для предотвращения и прекращения военно-политических киберкон-фликтов // Информационные технологии. 2012. № 9. С. 2-10.

2. Тейз А., Грибомон П., Юлен Г., Пирот А., Ролан Д., Снайерс Д., ВоклерМ., Гоше П., Вольпер П., Грегуар Э., Дельсарт Ф. Логический подход к искусственному интеллекту: От модальной логики к логике баз данных: Пер. с фр. М.: Мир, 1998. 494 с.

3. Пальчунов Д. Е. Решение задач поиска информации на основе онтологий // Бизнес-информатика. 2008. Т. 1. С. 3-13.

4. Пальчунов Д. Е. Моделирование мышления и формализация рефлексии: Ч. 2. Онтологии и формализации понятий // Философия науки. 2008. № 2. С. 62-99.

5. Palchunov D. E., Yakhyaeva G. E. Interval Fuzzy Algebraic Systems // Proceedings of the Asian Logic Conference 2005. World Scientific Publishers, 2006. P. 23-37.

6. Пальчунов Д. Е., Яхъяева Г. Э. Нечеткие алгебраические системы // Вестн. Новосиб. гос. ун-та. Серия: Математика, механика, информатика. 2010. Т.10, вып. 3. С. 75-92.

7. Пальчунов Д. Е. Поиск и извлечение знаний: порождение новых знаний на основе анализа текстов естественного языка // Философия науки. 2009. № 4 (43). C. 70-90.

8. Яхъяева Г. Э., Ясинская О. В. Применение методологии прецедентных моделей в системе риск-менеджмента, направленного на раннюю диагностику компьютерного нападения // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2012. Т. 10, вып. 2. С. 106115.

9. Пальчунов Д. Е., Яхъяева Г. Э., Хамутская А. А. Программная система управления информационными рисками RiskPanel // Программная инженерия. 2011. № 7. С. 29-36.

10. Малых А. А., Манцивода А. В. Онтобокс: онтологии для объектов // Изв. Иркут. гос. ун-та. 2009. Т. 2, № 2. С. 94-104.

11. The Description Logic Handbook /Ed. by F. Baader. N. Y.: Cambridge Univ. Press, 2003. 555 p.

12. Пальчунов Д. Е., Ульянова Е. А. Методы автоматического порождения поисковых эвристик // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2010. Т. 8, вып. 3. С. 5-12.

Материал поступил в редколлегию 02.08.2013

G. E. Yakhyaeva, O. V. Yasinskaya

MATCHING METHODS IN COMPUTER SECURITY KNOWLEDGE LEARNED FROM MULTIPLE DOCUMENTS

This paper considers the problem of matching the knowledge of computer security learned from different texts in natural language. A description of the problem with the model-theoretic formalism is presented. Knowledge of the particular computer attack is formalized as underdetermined algebraic system (named generalized precedent). The knowledge base is a set of generalized precedents. The matched value of the truth of a sentence is calculated as an interval defined on [0, 1]. The paper presents the algorithms for calculating the matched value of the truth, the software implementation of the developed methods is described.

Keywords: information security, cyber-attack, cyber-attack precedent, precedent model, generalized fuzzy model, generalized precedent.

References

1. Vasenin V. A. K sozdaniu mezhdunarodnoy sistemy monitoringa i analiza informacionnogo prostranstva dlya predot-vrascheniya i prekrascheniya voenno-politicheskih kiberkonfliktov // Informacionnye tehnologii. 2012. № 9. S. 2-10.

2. Teyz A., Gribomon P., Ulen G., Pirot A., Rolan D., Snayers D., Vokler M., Goshe P., Volper P., Greguar E., Del-sart F. Logicheskiy podhod k iskusstvennomu intellektu: Ot modalnoy logiki k logike baz dannyh: Per. s fr. M.: Mir, 1998. 494 s.

3. Palchunov D. E. Reshenie zadach poiska informacii na osnove ontologiy // Biznes-informatika. 2008. T. 1. S. 313.

4. Palchunov D. E. Modelirovanie myshleniya i formalizaciya refleksii: Ch. 2. Ontologii i formalizacii ponyatiy // Filosofiya nauki. 2008. № 2. S. 62-99.

5. Palchunov D. E., Yakhyaeva G. E. Interval Fuzzy Algebraic Systems // Proceedings of the Asian Logic Conference 2005. World Scientific Publishers, 2006. P. 23-37.

6. Palchunov D. E., Yahyaeva G. E. Nechetkie algebraicheskie sistemy // Vestn. Novosib. gos. un-ta. Seriya: Mate-matika, mehanika, informatika. 2010. T.10, vyp. 3. S. 75-92.

7. Palchunov D. E. Poisk i izvlechenie znaniy: porozhdenie novyh znaniy na osnove analiza tekstov estestvennogo yazyka // Filosofiya nauki. 2009. № 4 (43). S. 70-90.

8. Yahyaeva G. E., Yasinskaya O. V. Primenenie metodologii precedentnyh modeley v sisteme risk-menedzhmenta, napravlennogo na rannuu diagnostiku komputernogo napadeniya // Vestn. Novosib. gos. un-ta. Seriya: Informacionnye tehnologii. 2012. T. 10, vyp. 2. S. 106-115.

9. Palchunov D. E., Yahyaeva G. E., Hamutskaya A. A. Programmnaya sistema upravleniya informacionnymi riskami RiskPanel // Programmnaya inzheneriya. 2011. № 7. S. 29-36.

10. Malyh A. A., Mancivoda A. V. Ontoboks: ontologii dlya obektov // Izv. Irkut. gos. un-ta. 2009. T. 2, № 2. S. 94104.

11. The Description Logic Handbook / Ed. by F. Baader. N. Y.: Cambridge Univ. Press, 2003. 555 p.

12. Palchunov D. E., Ulyanova E. A. Metody avtomaticheskogo porozhdeniya poiskovyh evristik // Vestn. Novosib. gos. un-ta. Seriya: Informacionnye tehnologii. 2010. T. 8, vyp. 3. S. 5-12.

i Надоели баннеры? Вы всегда можете отключить рекламу.