Извлечение явных знаний из разнотипных данных с помощью нейронных сетей

Игнатьев Н.А.

Вычислительные технологии

Том 8, № 2, 2003

ИЗВЛЕЧЕНИЕ ЯВНЫХ ЗНАНИЙ ИЗ РАЗНОТИПНЫХ ДАННЫХ С ПОМОЩЬЮ НЕЙРОННЫХ СЕТЕЙ

Н.А. Игнатьев Национальный университет Узбекистана, Ташкент e-mail tin000@tashsu.silk.org

The methods of extraction of implicit knowledge from various data types at synthesis of neural networks in the form of the solution of minimum cover by objects — measurement standards of learning sample problem are considered

Введение

Автоматизация процесса извлечения явных знаний из больших объемов данных — одно из приоритетных направлений в области искусственного интеллекта. Извлечение знаний с помощью обучаемых нейронных сетей (НС) может выражаться в форме объяснения процесса принятия решений в задачах распознавания образов, прогнозирования. Пример такого объяснения — определение количества нейронов и структуры НС, необходимых для решения конкретной задачи.

В работах [1, 2] показано, что введение определенных ограничений над множеством значений признаков позволяет использовать точные методы для вычисления синаптических весов нейронов и определять их количество. Поиск минимальной конфигурации однослойной НС осуществлялся в форме решения задачи минимального покрытия обучающей выборки объектами-эталонами.

Согласно методу, описанному в [2], состав множества объектов покрытия определяется выбранной схемой (порядком) подачи объектов — кандидатов на удаление из обучающей выборки процедурой “последовательного исключения”. Изменение порядка подачи, как правило, приводит к разным множествам объектов, образующих покрытие.

В настоящей работе рассматривается метод построения НС, ориентированный на случай, когда число объектов в выборке достаточно велико, чтобы использовать последовательный алгоритм, описанный в [2]. Генетический алгоритм, реализующий этот метод, позволяет получить локально-оптимальное покрытие выборки объектами-эталонами, используя различные рекомбинации состава множества объектов покрытия. Так же, как и в

[3], результаты генетического алгоритма могут использоваться при построении минимально допустимой обучающей выборки для нейросетевой системы принятия решений.

Теоретический и практический интерес представляет проверка гипотезы, что множество локально-оптимальных покрытий эталонами обучающей выборки замкнуто относи© Н. А. Игнатьев, 2003.

тельно операций объединения и пересечения. В качестве нового источника знаний предлагается использовать:

— частотные характеристики номинальных признаков, определяющие внутриклассовое сходство и межклассовое различие;

— значения синаптических весов НС для отбора информативных наборов признаков.

1. Генетический алгоритм построения минимального покрытия обучающей выборки объектами-эталонами

Постановка задачи и изложение метода имеют некоторую аналогию с описанными в [2]. Считается, что множество допустимых объектов E0 = — обучающая выбор-

ка, в которой заданы представители l непересекающихся классов K1,...,Ki. Каждый допустимый объект описывается с помощью n признаков, r из которых количественные (0 < r < n), n — r — номинальные.

Пусть I, J — множества номеров соответственно количественных и номинальных признаков, используемых для описания допустимых объектов и объект Sj G E0 (Sj =

(xji,..., Xjn)) является эталоном выборки. Веса количественных признаков эталона вычисляются как Wjt = Xjt Vt G I и Wj0 = — - wjt.

tel

Значения весов номинальных признаков определяются так же, как ив [2], на основе предположения об одинаковом характере различий между количественными и номинальными признаками, т.е. считается, что максимальное различие объектов по количественным признакам соответствует максимальному возможному различию по каждому номинальному признаку. Вычисляются предельные значения, — общие для всех номинальных признаков

Wmax = max( — 2Wjo/r),

Sj eEo

i

^max ^ ] 1 Kt 1 (| Kt 1 — 1); t=1

i

втах = ^ I Kt | (m— | Kt |). t=1

Обозначим через p число градаций признака c G J, через gfdc — количество значений t-й (1 < t < p) градации c-го признака в описании объектов класса K^. Тогда

i p

=^2^2 gic(9ic —1), (1)

i=1 t=1

* ^ i gtc(I CKi I— b\c),gl = 0,

вс = ££ (-)

i=1 t=1 [ btc1 Ki \,gtic = °

где Ь*с — количество значений ¿-й градации с-го признака в СКг-дополнении класса Кг. Вес каждого номинального признака с € 3 определяется по формуле

Значение взвешенной суммы по объекту-эталону Бj• € Е0 для произвольного допустимого объекта Б = (й1, ...,ага) вычисляется как

Согласно решающему правилу, реализующему принцип “победитель забирает все”, объект Б принадлежит к тому классу, значение взвешенной суммы (4) объекта-эталона которого максимально.

Алгоритм построения НС, изложенный в [2], рассчитан на обработку обучающей выборки с ограниченными, заранее заданными размерами. При значительном числе объектов обучающей выборки (1000 и более) из-за больших затрат вычислительных ресурсов машинная реализация такого алгоритма практически неприемлема.

В предлагаемом здесь генетическом алгоритме для нахождения локально-оптимального покрытия обучающей выборки Е0 эталонами последовательность выполнения действий такова. Из выборки Е0 случайным образом формируется подвыборка данных Е0 (популяция индивидуумов). Состав объектов Е0 предопределяет начальное приближение покрытия Е0 всей обучающей выборки, получаемого в результате выполнения процедуры “последовательного исключения”. Краткая суть работы этой процедуры на г-м (г = 0,1, 2,...) шаге итерации заключается в следующем.

Изначально все объекты Е0 считаются эталонами покрытия Ег, т. е. Ег = Е0. Если при использовании Ег\{Б*} в качестве эталонов алгоритм распознавания — корректный (не делает ошибок) на Е0, то производится удаление объекта Б* из Ег. Условие, что исключение любого объекта-эталона из Ег и последующее использование Ег алгоритмом распознавания приводят к ошибкам на Е0, служит критерием останова выполнения процедуры на г-м шаге.

Пусть Рг(Рг € Е0) — множество некорректно распознанных на Е0 объектов при использовании Ег в качестве эталонов в (4). Подвыборка Е0+1 формируется путем включения покрытия Ег и случайным образом отобранных объектов из Рг. Описанный процесс повторяется до тех пор, пока на некотором г-м (г > 0) шаге итерации не выполнится условие Рг = 0.

2. Системы, основанные на знаниях

Одной из разновидностей систем, основанных на знаниях (СОЗ), является автоматическое гипотезирование (порождение гипотез), реализуемое в форме обучения НС. Считается, что система с элементами искусственного интеллекта обладает априорными знаниями и реализует кумулятивный (накопительный) вид обучения, когда накопление знаний, вообще говоря, улучшает способность к обучению с учителем или без него [4].

В качестве одного из источников знаний при реализации описанного выше метода синтеза НС можно рассматривать значения величин, характеризующих внутриклассовое

(3)

Wjг + Wjо.

(4)

г€

сходство (Ac/Amax) И межклассовое различие (вс/втах), вычисляемых соответственно С ПОмощью (1), (2). Множество значений этих величин лежит в интервале [0,1], что облегчает их интерпретацию в терминах нечетких логик. Упорядочение значений (3) позволяет эксперту-исследователю делать заключения о том, какие из номинальных признаков с малыми значениями весов следует считать неинформативными.

Локально-оптимальные покрытия обучающей выборки Е0 эталонами получаются как результат различных схем подачи объектов — кандидатов на вход процедуры “последовательного исключения”, число этих схем не превышает m!. С позиций извлечения знаний представляют интерес такие вопросы:

1. Совпадает ли объединение всех покрытий с исходной выборкой?

2. Как можно сравнивать два и более покрытия?

3. Какие отношения можно ввести на множестве различных покрытий, какие свойства имеют эти отношения и какие классы отношений они образуют?

Пусть испытано к схем подачи кандидатов на исключение и Mi,Mk — множества объектов покрытия, получаемые по каждой из к схем. В первую очередь интерес представляют результаты применения на Mi,..., Mk классических операций пересечения и объеди-

k

нения множеств. Объединение U Mi = Е0 может быть проинтерпретировано как наличие:

i=i

а) объектов, не определяющих структуру классов;

б) ограниченного множества объектов Z0 (| Z0 | < | Е0 |), локально-оптимальные покрытия которого такие же, как и на Е0.

Очевидно, что объекты линейных оболочек [5] также образуют одно из покрытий (не обязательно локально-оптимальное), которое можно считать базовым, неизменным и фиксированным для конкретной выборки. Значения расстояний от объектов покрытия до ближайших объектов линейной оболочки из противоположных классов дают характеристику конкретного локально-оптимального покрытия, которая может применяться для сравнительного анализа. Число различных локально-оптимальных покрытий фиксированной выборки можно рассматривать в качестве меры ее дихотомизационной мощности.

Результаты экспериментов по использованию различных схем подачи объектов — кандидатов на удаление — позволяют по-другому рассматривать вопрос разделения выборки на обучающую и контрольную. Действительно, выбрав (осознанно или чисто случайно) объекты локально-оптимального покрытия в качестве обучающей выборки, а остальные

— в качестве контрольной, в результате получим абсолютную точность распознавания.

Поэтому имеет смысл точность распознавания на данных, которые не предъявлялись на обучении, определять в форме теоретической оценки, например, как математическое ожидание вероятности ошибки на контроле. При использовании традиционной технологии разбиения на обучающую и контрольную выборку следует особо подчеркивать, что обучающая выборка не является локально-оптимальным покрытием.

Вопросы сравнения двух и более покрытий, введения отношений на множестве различных покрытий и изучения их свойств — предмет дальнейших исследований.

В заключение приведем результаты вычисления синаптических весов номинальных признаков, получаемых при диагностике аномальной сетевой активности [6] по следующим показателям:

1) протокол, связанный с событием (TCP = 0, UPD = 1, ICMP = 2 и Unknown = 3);

2) IP — адрес источника;

3) номер порта источника;

4) IP — адрес получателя;

5) номер порта получателя;

6) тип ICMP пакета;

7) кодовое поле (или поле кода ) из ICMP пакета;

8) длина данных в пакете.

Обучение сети проводилось на 116 746 событиях, каждое из которых описывалось восемью приведенными выше показателями. 74 070 события определяли нормальную сетевую активность (класс 1 ), 42 676 — аномальную (класс 2). Результаты вычисления значений синаптических весов номинальных признаков приведены ниже.

Номер Вес Внутриклассовое Межклассовое

признака сходство различие

1 13454.01 0.3793 0.0473

3 514.51 0.0049 0.1392

5 480.63 0.0048 0.1341

6 2778.59 0.4072 0.0091

7 2637.81 0.4079 0.0086

Большое разнообразие номеров портов источника и получателя, используемых в процессе передачи сообщений в сети, служит объяснением малых значений величин внутриклассового сходства и синаптических весов для номинальных признаков с номерами 3

и 5.

Список литературы

[1] Игнатьев Н.А. Выбор минимальной конфигурации нейронных сетей // Вычисл. технологии. 2001. Т. 6, №1. С. 23-28.

[2] Игнатьев Н.А. К вопросу построения эффективных нейронных сетей для данных, описываемых разнотипными признаками // Вычисл. технологии. 2001. Т. 6, №5. С. 3438.

[3] Беркульцев М.Б., Дьячук А.К., Оркин С.Д. Применение генетического алгоритма к построению минимально допустимой обучающей выборки для нейросетевой системы принятия решений // Изв. РАН. Теория и системы управления. 1999. №5. С. 172176.

[4] Васильев С.Н. От классических задач регулирования к интеллектуальному управлению // Изв. РАН. Теория и системы управления. 2001. Т. 1, №1. С. 5-22.

[5] Игнатьев Н.А. Распознающие системы на базе метода линейных оболочек // Автоматика и телемеханика. 2000. №3. С. 168-172.

[6] CANNADY J. Artifical Neural Network for Misuse Detection. School of Computer and Information Sciences. Nova Southeastern Univ., 1998.

Поступила в редакцию 25 июля 2002 г., в переработанном виде — 21 ноября 2002 г.

Извлечение явных знаний из разнотипных данных с помощью нейронных сетей Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Игнатьев Н. А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Игнатьев Н. А.

Extract of implicit knowledge from the various type of data by using the neural networks

Текст научной работы на тему «Извлечение явных знаний из разнотипных данных с помощью нейронных сетей»