Научная статья на тему 'Реализация алгоритма поиска исключений в виде провайдера ole dB for Data Mining'

Реализация алгоритма поиска исключений в виде провайдера ole dB for Data Mining Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
143
47
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Реализация алгоритма поиска исключений в виде провайдера ole dB for Data Mining»

ет целью создание крупных проектно-производ ственных вертикально-интегрированных структур, в рамках которых могут быть созданы коллабора-ции предприятий с четко выраженными ролевыми функциями при одновременном обеспечении качества и конкурентоспособности выпускаемой

продукции. Тем самым складываются условия для создания на предприятиях ВПК полнофункциональных корпоративных интегрированных информационных систем, обеспечивающих поддержку всего жизненного цикла изделий.

Таким образом, в результате анализа современного состояния и перспектив развития информационных технологий предприятий ОПК РФ, важности перспективных КОС военных вузов РФ как потенциального продукта экспорта в данном материале проведена систематизация понятий в области управления жизненным циклом перспективных КОС военного вуза. Такая систематизация, по мнению автора, полезна для формирования системного подхода к промышленному производству перспективных КОС военных вузов РФ и увязки материалов, изложенных в монографии [12], в общий контекст современного производства ВВТ.

Удалено:

Отформатировано: Шрифт: не курсив

Отформатировано: Шрифт: не курсив

Отформатировано: Шрифт: не курсив

Отформатировано: Шрифт: не курсив

Отформатировано: Шрифт: не курсив

Отформатировано

Отформатировано

Отформатировано

Отформатировано

Список литературы

».

Отформатировано

Отформатировано

1. Материалы совещания Минпромнауки по вопросам внедрения интегрированных электронных технологий организации и управления производством военной техни-кш'/www.redstar.ru

2. Рапопорт Б.М. Национальная безопасность неотделима от безопасности технологической^//_Красная звезда. - 2003.

- №_234 (24020).

3. Пройдаков Э.М., Теплицкий Л.А. Англо-русский словарь по вычислительной технике, Интернету и программированию.- 3-е изд., испр. и доп. - М.:_Издательско-торговый дом «Русская Редакция», 2003. - 640 с.

4. Рапопорт Б.М. Средство создания корпоративных систем// Открытые системы. - 2003. - № 6.

5. Шеян И. ERP для вуза - не роскошы'/Computerworld. -2003. - № 46 (399).

6. Материалы ^еждунар. .^гопф.: Информационные технологии в образовании //www.computerworld.ru

7. Черняк Л. PLM - не роскошь, а необходимость// Открытые системы. - 2003. - № 6.

8. Дубова Н. Автоматизация от идеи до утилизации// Там же.

9. Краснухин А. Методологии проектирования сложных изделий// Там же.

10. ISO 9000. Международный стандарт системы управления процессом проверки качества.

11. ГОСТ Р ИСО 9001-96. Национальный стандарт системы управления процессом проверки качества.

12. Манеркин В.П. Методы создания адаптивных компьютерных технологий обучения. - Тверь: ВУ ПВО, 2003. -180 с.

13. Новейший словарь иностранных слов и выражений.

- М.: ООО «Издательство АСТ», Мн.: Харвест, 2002.-976 с.

14. Левин А., Судов Е. CALS-сопровождение жизненного цикла. // Открытые системы, 2001, № 3.

15. NATO CALS Handbook, 2000.

\\Ь\

Отформатировано

Отформатировано

Отформатировано

Отформатировано

Ш '

'"А

> » л

Отформатировано

Отформатировано

Отформатировано

m

Отформатировано

Отформатировано

Отформатировано

Отформатировано

Отформатировано

Отформатировано

1441

1451

1461

Г471

1481

1491

Г501

Г511

Г521

1531

1541

Г551

Г561

Г571

Г581

Г591

1601

Г611

Г621

Отформатировано

Отформатировано

Отформатировано

Отформатировано

Отформатировано

Удалено:

международной

Удалено: конференции

Удалено:

Удалено:

Удалено:

Отформатировано

РЕАЛИЗАЦИЯ АЛГОРИТМА ПОИСКА ИСКЛЮЧЕНИИ В ВИДЕ ПРОВАЙДЕРА OLEDB FOR DATA MINING

(Работа выполнена при поддержке РФФИ, проект № 03-01-00745)

Отформатировано

Отформатировано

Отформатировано

Отформатировано

Отформатировано

Отформатировано

Г631

Г641

Г651

1661

Г671

Г681

Г691

30

Д.Ю. Кичигин, И.В. Машечкин, М.И. Петровский

Развитие современных технологий породило необходимость автоматического анализа больших объемов разнородных данных. Для этих целей используются методы Data Mining. Целью методов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Data Mining является извлечение скрытых законо-

мерностей, знаний из больших объемов дан-^ ных [2]. Как правило, методы Data Mining приме-

няются к сформированным и согласованным данным, находящимся в некотором хранилище данных. Результатом работы методов являются построенные модели данных, которые затем пред-

ставляются пользователю.

В силу многообразия областей [10], где могут применяться методы Data Mining, появилась не-

обходимость стандартизации использования этих

методов,.для тчего была разработана спецификация

OLE DB for Data Mining (OLE DB DM). Специфи-

кация OLE DB ,DM является расширением стандарта OLE DB [4], предложенного фирмой

Microsoft для компонент, реализующих алгоритмы Data Mining. Целью этой спецификации является предоставить индустриальный стандарт для метода Data Mining так, чтобы различные методы Data

Mining от различных производителей могли быть

легко встроены в пользовательские приложе ния [6]. Программные компоненты, реализованные в соответствии со спецификацией OLE DB

DM, называются провайдерами OLE DB DM (OLE

DB for Data Mining Provider) [1].

Настоящая работа посвящена описанию реализации алгоритма поиска исключений, предложенного в [5], в соответствии со спецификацией OLE DB DM. Данный алгоритм предназначен для решения задачи выявления исключений, являющейся одной из основных задач Data Mining. Задача выявления исключений представляет собой поиск объектов в базе данных, которые не подчиняются закономерностям, справедливым для большей части данных [5]. Такие экземпляры данных называются исключениями (outliers). Большинство методов Data Mining относятся к исключениям как к шуму и стараются от них избавиться. Но в тоже время в таких областях как компьютерная безопасность, в частности в задаче обнаружения сетевых вторжений, исключения играют важную роль [5].

Спецификация OLE DB DM

Как упоминалось выше, одной из целей, которая ставилась при создании спецификации OLE DB DM, было унифицировать использование ме-

тодов Data Mining. Другой целью спецификации

было привлечение широкого круга разработчиков

для создания новых Data Mining-решений. В про-

мышленности Data Mining воспринимается как

дополнительный компонент к традиционным средствам поддержки принятия решений (например, SQL Server вместе с OLAP-средством [6]).

Поэтому разработкой таких компонент, скорее

всего, будут заниматься люди, знакомые со сред-

ствами работы с базами данных - SQL, OLE DB и

другими известными стандартами и протоколами.

Из этого следует важность того, чтобы ин( структура поддержки Data Mining-решений соче-

талась с традиционными средствами разработки баз данных и с традиционными интерфейсами

доступа к базам данных [6].

Спецификация OLE DB DM создана на основе стандарта OLE DB, поэтому провайдер OLE DB

DM может использоваться с любыми источниками

данных, поддерживающих стандарт OLE DB [6].

Работа с провайдером OLE DB DM очень по-

хожа на работу с базами данных. Основой провай-

дера OLE DB DM является объект Data Mining

Model (DMM). В этом объекте собственно и находится реализация алгоритмов Data Mining. Спецификация предусматривает средства для управления жизненным циклом моделей - создание,

обучение (тренировка), просмотр содержимого,

применение к новым данным и удаление модели.

По своим характеристикам DMM очень похож на SQL таблицу и включает в себя определение

столбцов данных, на которых происходит обуче-

ние модели. Эти столбцы содержат детальную

информацию о характере данных и взаимосвязях между ними. Здесь хранится вся информация о каждом экземпляре данных. Существует несколько типов столбцов. Например, в столбцах с типом KEY находятся данные, являющиеся ключами, в столбцах с типом ATTRIBUTE находятся значения атрибутов экземпляра, тип TABLE означает вложенную таблицу. В DMM могут входить специальные столбцы содержащие результаты применения модели к новым данным [1].

Данные, которые поставляются на вход Data Mining алгоритму, представляются как коллекция таблиц в реляционной базе данных. Данные, относящиеся к одному объекту, называются экземпляром данных - case. Множество всех экземпляров -это case set. OLE DB DM допускает вложенные таблицы (nested tables) [1]. Вложенные таблицы

Отформатировано [ ... [70]

Отформатировано [ ... [71]

Удалено: . „.Для —эти . .. [72]

Отформатировано _

Удалено: for Data Mining

[73]

Отформатировано f ... [74]

Удалено: (OLE DB DM)

Удалено:

Отформатировано [ ... [75]

OLE

Отформатировано: русский (Россия)

Удалено: for

Отформатировано [ ... [76] Удалено: ata

Tokenizer

Data Mil

Отформатировано: русский (Россия)

Удалено: ining

Отформатировано

Архитектура пр дера OLE DB for Data Mining

позволяют ассоциировать не-

сколько записей данных с одним экземпляром [3].

В одном экземпляре данных может присутст-

вовать несколько вложенных таблиц, каждая из

JZZL

Отформатировано: Отступ: Первая строка: 0 см, Поз.табуляции: 2,12 см, по левому краю + нет в 7,62 см + 15,24 см

31

го

которых может иметь свое количество строк. Главная строка экземпляра называется строкой экземпляра (case row). Строки внутри таблиц назы-

ваются вложенными строками (nested rows).

Работа с DMM ведется в терминах SQL-подобного языка.

Создание модели: DMM создается с помощью CREATE-выражения, которое очень похоже на выражение языка SQL CREATE TABLE. Здесь задается структура столбцов DMM и требуемый алгоритм. CREATE-выражение не определяет содержимого DMM. После создания объект остается пустым до тех пор, пока в него не будут добавлены данные.

Тренировка модели: тренировочные данные добавляются в модель с помощью выражения INSERT INTO. Эта команда указывает OLE DB

DM провайдеру обработать входные данные с по-

мощью алгоритма, указанного при создании DMM

объекта. Результатом обработки является построенная модель данных, которая является содержи-

мым DMM.

Применение и просмотр содержимого модели: для применения модели к новым данным и для просмотра ее содержимого используется выражение SELECT.

Удаление модели осуществляется с помощью выражения DROP.

Архитектура программногодрешения

При реализации алгоритма в качестве основы был взят шаблон провайдера OLE DB DM (далее

провайдер OLE DB DM), разработанный фирмой

Microsoft. Этот провайдер доступен в виде исход-

ных текстов на языке С на сайте фирмы

Microsoft (www.microsoft.com).

Провайдер OLE DB DM выполнен в качестве OLE In-Process Server и является обычной динамической библиотекой (Dynamic link library -DLL). Общение внешнего приложения с провайдером OLE DB DM происходит так же, как и в случае с любым из провайдеров OLE DB [1,3]. Провайдер OLE DB DM, как и провайдеры OLE DB [4], поддерживает объекты data source, session, command и rowset [1].

OLE DB DM провайдер имеет следующую ар-

хитектуру (см. рисунок).

OLE DB Interfaces: реализация внешних ин-

терфейсов OLE DB, таких как OutputRowset,

Schema Rowset и др. [4].

Parser: парсер SQL-подобного языка запросов. Query Analyzer: анализатор запросов, осуще-

ствляет контроль всего потока запросов к проваи-деру.

Токетгег: считывает исходные данные из

внешних источников и преобразует их к экземплярам данных (cases), пригодных к использова-

нию в DMM. Преобразовывает дискретные дан-

ные (например текст) в числовые.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Case Consumer:

предоставляет результаты

работы Data Mining алгоритма пользовательскому приложению.

Data Mining Model: основная часть провайде-

ра, содержащая реализацию алгоритмов Data

Mining. Взаимодействие с DMM осуществляется через основные функции: InsertCases() - обучение модели, Classify() - применение модели к новым данным.

XML Store Engine: управляет сохранением Data Mining-моделей в XML- и двоичном форматах.

Support Layer: вспомогательные структуры данных и классы для поддержки сообщений об ошибках, доступа к базам данных и т.п.

Представление и хранение модели в PMML

Провайдер предоставляет возможность за-

грузки и сохранения построенных моделей во

внешнем файле в двоичном или XML-форматах. В случае XML формат файла определяется стандар-

том PMML (Predictive Model Markup Language) [1].

Изменяя этот фаИл можно манипулировать моделью.

Для создания модели из PMML-файла используется модифицированная версия СЯЕАТЕ-

выражения: CREATE MINING MODEL <model name> FROM PMML <xml string>a

Особенности реализации алгоритма поиска исключений

Типичным методом выявления исключений

является проверка всех экземпляров данных на

соответствие их модели данных.

При этом модель может быть построена наос-

нове уже имеющихся данных, в этом случае процесс построения модели называется обучением модели (model training).

Реализуемый алгоритм следует именно этой модели, то есть состоит из двух этапов: на первом этапе происходит обучение Data Mining модели на уже имеющихся данных, на втором этапе построенная модель применяется к новым данным с целью выявления исключений.

Алгоритм основан на сочетании методов нечеткой кластеризации и потенциальных функ-

ций [5]. Data Mining модель представляет собой нечеткий кластер в пространстве характеристик,

определяющихся выбранной потенциальной функцией. Результатом выявления исключений

(то есть результатом применения модели к новым данным) является числовой вектор, длина которо-

го равняется количеству экземпляров входных данных. Элементы вектора представляют собой вычисленные степени исключительности для каж-

дого экземпляра входных данных. Степень исключительности - число, показывающее с какой

степенью данный экземпляр данных можно счи-

тать исключением, то есть насколько сильно дан-

Отформатировано [ ... [78]

Отформатировано [ ... [79] Отформатировано [ ... [80] Отформатировано [ ... [81]

Отформатировано [ ... [82]

Отформатировано [ ... [83] '

Отформатировано [ ... [84]

Отформатировано [ ... [85]

Отформатировано [ ... [35]'

Удалено: : удаление модели Удалено:

Отформатировано:

интервал Перед: 9 пт, После: 3 пт

Отформатировано [ ... [37]'

Отформатировано

... [88]

Удалено:

Отформатировано [ ... [89] Удалено: .):

Отформатировано [ ... [90] Отформатировано [ ... [91]

Отформатировано [ ... [92]

Отформатировано: Шрифт: 10 пт

Отформатировано: Отступ: Первая строка: 0 см, Поз.табуляции: 2,12 см, по левому краю + нет в 7,62 см + 15,24 см

32

ныи экземпляр не подчиняется закономерностям, справедливым для большей части данных.

При этом алгоритм обладает следующими особенностями.

• Для каждого атрибута экземпляра данных можно задать вес, то есть указать степень важности того или иного атрибута для анализа исключений.

• При обучении модели имеется возможность указывать «степень исключительности» того или иного экземпляра данных, используя априорную информацию.

Для реализации особенностей алгоритма была осуществлена модификация языка запросов провайдера. При создании модели были введены дополнительные параметры атрибутов. Добавлен параметр WEIGHT(d) для указания веса атрибута; d е [0.0, 1.0] - значение веса атрибута - по умолчанию (когда параметр WEIGHT не задан) считается, что d=1.0. Также добавлен параметр MEMBERSHIP(p) для передачи априорной информации о степени исключительности экземпляра данных - p е [0.0, 1.0]. Если параметр MEMBERSHIP не указан, то алгоритм самостоя-

тельно вычисляет степень исключительности. Допускается наличие не более чем одного атрибута с параметром MEMBERSHIP.

Поскольку изначально стандарт OLE DB DM не был рассчитан на применение алгоритмов поиска исключений [1], для передачи результатов выявления исключений было решено использовать функцию, определенную для задачи кластеризации, но со специальной семантикой. Для задачи кластеризации в OLEDB DM определены три функции ClusterQ, возвращающая ClusterlD ближайшего кластера, ClusterDistance(ClusterlD), возвращающая расстояние до кластера ClusterlD и ClusterProbability(ClusterlD), возвращающая степень принадлежности кластеру ClusterlD. В нашей реализации для передачи результата используется функция ClusterProbability(O), которая возвращает степень исключительности экземпляра данных.

Применение алгоритма поиска исключений в системах IDS

Задачей систем обнаружения вторжений (Intrusion Detection Systems) является выявление попыток или факта уже совершенных вторжений -действий, нарушающих целостность, доступность или конфиденциальность данных [8]. Системы обнаружения вторжений периодически анализируют поведение и/или состояние компьютерной системы и на основе этого анализа сигнализируют о вторжениях. Традиционно системы обнаружения вторжений представляли собой экспертные системы [9]. Для выбора нужных признаков и описания правил использовались экспертные знания или интуитивные представления о работе сетей, операционных систем и методах вторжений. В на-

стоящее время появилась необходимость в методах, специально предназначенных для работы с большими объемами данных. Это обусловило активное использование методов Data Mining в этой области. В системах обнаружения вторжений методы Data Mining, как правило, применяются для автоматической подборки признаков и построения моделей, использующихся для выявления вторжений.

Существуют два основных подхода к обнару-*' жению вторжений. Первый, обнаружение анома- j лий (Anomaly Detection), основывается на построе- с нии модели, описывающей корректное состояние и/или допустимое поведение системы, и на последующем выявлении опасных изменений состояния или опасного поведения системы. Это выявление основывается на анализе отклонений состояния или поведения системы от построенной модели.

Другой подход называется обнаружением злоупотреблений (Misuse Detection) и заключается в

выявлении уже известных вторжений. То есть строятся шаблоны уже известных атак, и состояние и/или поведение системы сканируются на

предмет совпадения с шаблонами.

Каждый из этих подходов имеет свои достоинства и недостатки. Обнаружение злоупотреблений хорошо работает с известными вторжениями, но в то же время нечувствительно к новым, неизвестным атакам. Обнаружение аномалий, наоборот, хорошо распознает неизвестные атаки, но проигрывает обнаружению злоупотреблений при работе с известными. Поэтому подходы являются взаимодополняющими и в современных системах обнаружения вторжений используются комплексно.

Реализованный алгоритм выявления исключений был применен в системе обнаружения сетевых вторжений для выявления аномалий среди сетевой активности. В качестве данных выступал сетевой трафик. Экземпляр данных соответствовал одному сетевому соединению. В задачи провайдера OLE DB DM, реализующего алгоритм выявления вторжений, входил анализ сетевого трафика и выявление подозрительных соединений. Соединение считалось подозрительным, если его степень исключительности превышала некоторый, устанавливаемый вручную порог. Алгоритм был протестирован на эталонном наборе данных KDD Cup'99 Data Set, где показал успешные результа ты [5].

Реализованный провайдер был использован и для выявления подозрительных последовательностей сетевых соединений. Из исходного трафика выделялись последовательности сетевых соединений , которые затем группировались в экземпляры

* Выделение последовательностей может происходить двумя способами. В первом случае выделяются последовательности фиксированной длины с помощью техники «скользящего окна»,

33 I

Отформатировано

Отформатировано [ ... [93]

Отформатировано

Отформатировано

Отформатировано

Отформатировано

Отформатировано

Отформатировано

J941

Отформатировано Г ... [951

Отформатировано

Отформатировано

J961

Код поля изменен

Отформатировано

Отформатировано

Отформатировано

Отформатировано

Отформатировано^

Отформатировано

Отформатировано

■ ■ [971

■ ■ [981

J991

ИМ

[1011

Отформатировано

Ц021

Отформатировано

Отформатировано

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

\(

[1031

Код поля изменен

Отформатировано

Отформатировано

Отформатировано

Отформатировано

Отформатировано

Отформатировано

. [1041

. [1051

. [1061

. [1071

Отформатировано

. [1081

Удалено: коиплексно

Отформатировано .

Отформатировано

[1091

Отформатировано

■[1101

■[1111

Отформатировано

Отформатировано

Отформатировано

Отформатировано

Отформатировано

Отформатировано

.[1121

.[1131

. [1141

. [1151

. [1161

Удалено: ,

Отформатировано

Отформатировано .

[1171

Отформатирован^ . [1181

Отформатирован^ ... [1191

данных таким образом, чтобы каждой последовательности соответствовал свой экземпляр данных. Для этого использовался предусмотренный в спецификации OLE ЭБ ЭМ механизм вложенных таблиц. Далее алгоритм аналогично предыдущему случаю для единичных соединений вычислял степень исключительности последовательности соединений, и если степень исключительности превышала некоторый порог, то соответствующая последовательность объявлялась подозрительной.

Использование провайдера ОЬЕ_рВ БМ,

реализующего алгоритм поиска исключении

Пример иллюстрирует процесс создания, обучения и применения ЭММ модели для задачи вы-

явления сетевых вторжений, используя алгоритм выявления исключений, предложенный в [5].

Данная модель предназначена для обнаружения сетевых вторжений на основе анализа сетевого трафика и представляет собой модель нормальной активности внутри компьютерной сети. Обучение модели происходит на исторических данных о сетевой активности за некоторый период времени. После построения модель применяется для анализа текущей сетевой активности: если среди текущего трафика обнаруживаются отклонения от модели, то выдается предупреждение. Входными данными для построения и применения модели является набор сетевых соединений.

Обучению и применению модели предшествует создание модели. Это достигается с помощью выражения CREATE MINING MODEL. После че-

го происходит обучение и применение модели. Для этого используются выражения соответственно INSERT INTO и SELECT. Удаление модели

осуществляется с помощью выражения DROP.

Создание DMM модели происходит с помощью выражения CREATE MINING MODEL:

CREATE MINING MODEL NetAnomalyIDSModel

(

)

ID

LONG KEY,

Service Duration src_bytes dst_bytes

TEXT DOUBLE DOUBLE DOUBLE

DISCRETE, continuous weight(20.0), continuous weight(15.0), continuous weight(35.0)

USING ASE_ALGORITHM (SAMPLE_PERCENTAGE =

10, StoreXML=1)

Это выражение указывает провайдеру на создание ново Data модели с названием

NetAnomalyIDSModel с 5-ю столбцами данных.

Это означает, что каждый экземпляр данных, поступающих на вход алгоритму, будет состоять из 5 атрибутов. Атрибут ГО является ключом, то есть

уникальным идентификатором сетевого соедине-

т.е. сначала берутся первые N соединений, начиная с первого, потом N, начиная со второго, и т.д. Во втором случае в качестве скользящего окна используется временной интервал. Сначала выбираются соединения, выполненные за период времени Т, начиная с первого соединения, потом за время Т, начиная со второго, и т.д.

ния. Атрибут Service представляет собой текстовую строку, показывающую сервис, используемый в соединении. Атрибуты Duration, src_bytes и

й$г_Ьуге$ являются вещественными числами, показывающими соответственно продолжительность соединения, количество переданных и принятых

байт. Флаги атрибутов DISCRETE и CONTINUOUS означают что атрибут является соответственно дискретным или непрерывным [1]. Эта информация используется алгоритмом выявления исключений. Атрибуты Service, Duration, src_bytes

и dst_bytes имеют вес 100%, 20%, 15% и 35%

ответственно.

Ключевое слово USING показывает, что для

построения модели будет использоваться алго-

ритм OD_ALGORITHM. Параметр SAMPLE_PER-CENTAGE указывает, что при обучении модели будет использоваться техника Sampling [1], а параметр StoreXML указывает провайдеру необх димость сохранения модели в виде XML-файла.

Обучение модели. Для обучения модели используется выражение INSERT INTO. Указываются данные для обучения модели и инициируется сам процесс обучения.

INSERT INTO NetAnomalyIDSModel ( ID, service, duration, src_bytes, dst_bytes

)

OPENROWSET( 'Microsoft.Jet.OLEDB.4.0;', 'Data Source=c:\kdd99.mdb',

'SELECT ID, service, duration, src_bytes, dst_bytes FROM [alldata]' )

Синтаксис этого выражения похож на синтаксис соответствующего INSERT-выражения языка SQL. С помощью ключевого слова OPENROW-

SET задается источник исходных данных.

Применение модели. SELECT - выражение используется для применения модели к новым данным, то есть для выявления исключений среди

новых данных в построенной модели.

SELECT TrainSamples.ID, ClusterProbability(0) FROM NetAnomalyIDSModel PREDICTION JOIN OPENROWSET(

'MicrosoftJet.OLEDB.4.0;', 'Data Source=c:\kdd99.mdb', 'SELECT * FROM [alldata] order by class desc' ) AS TrainSamples ON

TrainSamples.service = NetAnomalyIDSModel.service and TrainSamples.duration = NetAnomalyIDSModel.duration and TrainSamples.src_bytes = NetAnomalyIDSModel.src_bytes and TrainSamples.dst bytes = NetAnomalyIDSModel.dst bytes

PREDICTION JOIN используется для выполнения операции соединения всех входящих в DMM экземпляров данных с указанным множеством экземпляров данных. Команда SELECT при-

меняется к результату операции соединения, возвращая значение степени исключительности для каждого соединения с идентификатором ГО.

В данной статье рассмотрена программная реализация алгоритма поиска исключений. Алгоритм был реализован в соответствии со специфи-

Отформатировано ... [120] Удалено:

Отформатировано ... [121]

Удалено: ЭММ

Отформатирован^ ... [122]

Отформатировано: Шрифт: 10 пт

Отформатировано:

интервал После: 3 пт

Отформатировано: русский (Россия)

Отформатировано Г ... [123]

Отформатировано:

интервал Перед: 3 пт

Удалено:

Отформатирован^ ... [124]

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Отформатировано:

интервал После: 3 пт

Отформатировано:

интервал После: 3 пт

Отформатировано: русский (Россия)

Удалено:

Отформатировано: русский (Россия)

Отформатировано: русский (Россия)

Отформатировано:

интервал Перед: 2 пт

Удалено:

Отформатировано: русский (Россия)

Отформатировано:

интервал Перед: 3 пт

Удалено: Mining Отформатировано Г ... [125] Удалено:

Отформатировано:

интервал Перед: 0 пт

Отформатирован^ ... [126] Удалено:

Отформатировано: Шрифт: 10 пт

Отформатировано: Отступ: Первая строка: 0 см, Поз.табуляции: 2,12 см, по левому краю + нет в 7,62 см + 15,24 см

34

кацией OLE DB for Data Mining предложенной

фирмой Microsoft. Данная спецификация имеет

ряд достоинств, обусловивших ее выбор при реализации алгоритма поиска исключений. Одним из таких достоинств является унификация интерфейса работы с алгоритмом, что дает легкость исполь-

зования реализованного алгоритма как в разрабатываемых приложениях, так и в уже существую-

щих.

Кроме того, мы рассмотрели особенности реализации алгоритма поиска исключений в соответствии со спецификацией OLE DB for Data Mining.

Эти особенности связаны с тем, что, во первых, изначально спецификация не была рассчитана на

методы поиска исключений. Поэтому в программном интерфейсе, определяемом спецификацией, отсутствуют необходимые методы. Для решения данной проблемы ^спользовадись .методы, предназначенные для алгоритмов кластерного анализа. Во-вторых, спецификация изначально не предусматривала передачу дополнительной ин-

формации в модель о характере исходных данных. В связи с этим был расширен синтаксис 80Е-подобного языка, с помощью которого осуществляется управление моделью.

Список литературы

1. Microsoft, OLE DB for Data Mining Specifications, July

2000, www.microsoft.com/data/oledb/dm.

2. Jiawei Han u Micheline Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2000.

3. Microsoft Developer Network Library, July 2002.

4. Microsoft® OLE DB 2.0 Programmer's Reference and

Data Access SDK. Microsoft Press; Book and CD-ROM edition,

November 1998 5. Петр'

овский м.и. Алгоритмы выявления исключений в системах интеллектуального анализа данных. // Программирование. - 2003. - №4. - С. 66-80.

6. Netz A., Chaudhuri S., Fayyad U., Bernhardt J. Integrating data mining with SQL databases: OLE DB for Data Mining, Proceedings of IEEE International Conference on Data

Engineering (ICDE'2001), 2001, pp. 379-387.

7. Jones A.K. and Sielken R.S. Computer System Intrusion

Detection: A Survey, tech report, Computer Science Dept.,

University of Virginia, 2000.

8.

Lee W. and Stolfo S. Data Mining Approaches for 7th I

Intrusion Detection. - Proc. 1998 7th USENIX Security Symposium,

1998. San Antonio, TX.

9. Lee W. Applying Data Mining to Intrusion Detection: the Quest for Automation, Efficiency, and Credibility. - ACM SIGKDD Explorations Newsletter, Volume 4 , Issue 2 (December P.35 - 42, 2002._

2002)I

10. Fayyad U. and Uthurusamy R. Data Mining and Knowledge Discovery in Databases. - Comm. ACM, vol. 39, no. 11,

pp. 24-27, Nov. 1996.

Отформатировано:

интервал Перед: 4 пт, После: 4 пт

Отформатирован^ . [127]

Отформатировано: русский (Россия)

Отформатировано: русский (Россия)

Отформатирован^ ■ ■■ [128]

^Удалено: с

Отформатировано ... [129]

Отформатировано ■■■ [130Т

Отформатировано ... [131] Отформатировано ■■■ [132]

Удалено: было решено во Удалено: ться... метод [133]

Отформатировано ■■■ [134]

Отформатировано ■■■ [135]

Отформатировано:

Поз.табуляции: нет в 0,95 см

ПОСТРОЕНИЕ МАРШРУТА С МАКСИМАЛЬНОЙ ПРОПУСКНОЙ СПОСОБНОСТЬЮ МЕТОДОМ ПОСЛЕДОВАТЕЛЬНОГО УЛУЧШЕНИЯ ОЦЕНОК

А.С. Котов

Отформатировано ... [136]

Отформатировано

Удалено:1

В работах [1,2] построение маршрута с максимальной пропускной способностью производится непосредственно на сети, представленной графом. Такие методы, обладая хорошей наглядностью (особенно если сеть достаточно проста), затрудняют использование ЭВМ как для хранения исходной информации, так и для процесса оптимизации. Метод улучшения оценок рассчитан на представление сети (графа) в виде матрицы смеж-c = ег , где Су - пропускная способность

ности c

А А

участка сети от вершины Ai до вершины Aj, то

есть дуги (1,]). Матрица может быть и несимметричной (ЭСу^Су), что не повлияет на предлагаемый

метод построения оптимального маршрута |kl от

вершины (пункта) Ак к вершине Л!, то есть маршрута, обладающего наибольшей пропускной

способностью - nk j .

Следуя [1], некоторый произвольный маршрут (путь) | 1 от Ак к А1 будем обозначать как упоря-

доченную последовательность вершин, соединенных дугами:

lk,i = ^...,i,j,...,rj) =

= ((k, i;),...,(i,J),...,(rJ)),

(1)

где указаны номера вершин, или дуги.

Множеству дуг (1,]), принадлежащих маршруту 1и (1), соответствует множество их пропускных способностей {Су}. Минимальная из этих пропускных способностей определяет собой критическую пропускную способность всего пути Пц:

_ (2)

где ^кУО - критическая дуга маршрута ||к1.

Например, для некоторого произвольного маршрута ц.16, построенного по матрице пропуск-

ных способностей (табл. 1) ц.16=(1,4,5,3,6), пропу-

скная способность и критическая дуга, согласно

(2), равны (критическая дуга в маршруте |16 выделена жирным-шрифтом) :

П1,6= min {01,4, c4,5, c5,3, c3,6} =

-(i.j)F|l 1,6-

ш1п{5,7,2,3}= С5,з= 2 ^(Ув) =(5;3) Однако от вершины А1 к вершине А6 существует целое множество {|161 возможных путей,

среди которых содержится, по крайней мере, один оптимальный (то есть имеющий наибольшую пропускную способность П06). В частности, меж-

Удалено:

[ ■■■ [137]

: ряде

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Отформатировано

[138]

Отформатировано ... [139]

Код поля изменен

Удалено:

Отформатировано ■

[140]

Отформатировано ... [141]

Код поля изменен

Отформатировано ... [142]

Отформатировано ■■■ [143]

Удалено: c

Отформатировано ... [144]

Код

поля изменен

Отформатировано ■■ ■ [145]

Отформатировано ■■ ■ [146]

Отформатировано ■■ ■ [147]

Отформатировано ■■ ■ [148]

Отформатировано ■■ ■ [149]

Отформатировано ■■ ■[150]

Код поля изменен

Удалено: ,

Отформатировано ■■ ■[151]

Отформатировано ■■ ■[152]

Отформатировано ■■■ [153]

35 I

п

c

k,l

i Надоели баннеры? Вы всегда можете отключить рекламу.