Научная статья на тему 'Визуальный синтез классифицирующих предикатов и их использование в процедурах мета-классификации'

Визуальный синтез классифицирующих предикатов и их использование в процедурах мета-классификации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
129
71
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Визуальный синтез классифицирующих предикатов и их использование в процедурах мета-классификации»

УДК 007:681.518.2

В.И. Городецкий, В.В.Самойлов*

ВИЗУАЛЬНЫЙ СИНТЕЗ КЛАССИФИЦИРУЮЩИХ ПРЕДИКАТОВ И ИХ ИСПОЛЬЗОВАНИЕ В ПРОЦЕДУРАХ МЕТА-КЛАССИФИКАЦИИ

Проблема извлечения знаний из данных вот уже более чем два десятилетия относится к числу ключевых в области разработки интеллектуальных систем (ИС). В настоящее время эта проблема является предметом интенсивных исследований, где это направление принято называть кратко KDD- Knowledge Discovery from Data.

Под извлечением знаний из данных понимается итеративная и интерактивная

,

полезных для решения практических задач, новых и, в конечном счете, понятных фрагментов ("па^ернов") знаний в данных ([Fayyad-96]). Смысл терминов, использованных в предыдущем предложении, таков. Данные - это набор записей ("прецедентов") базы данных, называемых также "фактами". Фрагмент знаний (" ") - -. , , часто встречающиеся подпоследовательности (если столбцы базы данных являются позиционными переменными) и др. Эти фрагменты являются "потенциально полезными", если их использование в приложениях, скажем, для классификации

, . ., -, , , больший доход и т.п. Понятность фрагмента означает, что он может быть интерпретирован в терминах решаемой прикладной задачи, или он может быть объяс-.

В практике извлечения знаний из данных различают два наиболее важных : (1) (2) . -на основе информации о значениях некоторых переменных в строке базы данных оценить значения других переменных в этой же строке. Цель второй задачи - построение математической модели, полезной для решения некоторой прикладной .

Обе названные задачи разбиваются на ряд конкретных подзадач, в частности, таких ([Fayyad-96]):

♦ Классификация - отображение множества записей базы данных в дискретное множество классов;

♦ Регрессия - отыскание функции, которая вектору непрерывных переменных строки БД, соответствующих моменту времени tk, ставит в соответствие

значение этих же или других переменных в момент времени tk +1. Заметим, что в общем случае переменные могут и не зависеть от времени;

♦ Кластеризация - отыскание конечного множества категорий, которые разбивают данные на непересекающиеся подмножества данных. При этом полага-

,

собой и отличаются от данных других подмножеств;

* Данная работа поддерживается грантом РФФИ №99-01-00733

♦ Сжатие - более компактное описание (подмножеств) данных, например, в терминах математических ожиданий и ковариационных матриц, в терминах функциональных зависимостей и т.п.

♦ Обнаружение зависимостей - поиск наиболее существенных с некоторой прагматической точки зрения зависимостей между переменными - столбцами

;

♦ Обнаружение изменений - обнаружение некоторых существенных с практической точки зрения отклонений значений переменных от их нормативных

.

Более подробную информацию о классах задач и используемых методах в области извлечения знаний из данных можно найти в работах [Загоруйко-99], [Bradley-98], [Dietterich-81], [Fayyad-96], [Frawley-91], [Kloesgen-95], [Liu-Setiono-

98], [Matheus-93], [Michalsky-83], [Michalsky-90], [Quinlan-83], [Ouinlan-93].

В настоящей работе рассматривается одна из наиболее распространенных в практике задач обнаружения знаний из данных, а именно, задача классификации. Традиционный подход к извлечению знаний из разнотипных данных - это дискретизация непрерывных переменных и замена каждого числового атрибута множеством высказываний о принадлежности его значения одному из введенных интервалов. Тогда все атрибуты оказываются дискретными, а для таких задач имеются методы и инструментальные средства извлечения правил, описанные, например, в работах [Dietterich-81] - система INDUCE, [Quillian-83] - система ID3, [Ouinlan-93]

- система C4.5, [Cohen-95] - система RIPPER, [Gorodetski-96] - система INFORM и .

В работе рассматривается иной подход к последней задаче, который может интерпретироваться как обобщение традиционного подхода.

Некоторые идеи рассматриваемого в данной работе подхода к построению решающих правил в задачах классификации ранее были высказаны в статье [Skormin-97]. Данная работа может рассматриваться как развитие и обобщение ,

, , присутствуют данные в непрерывной (числовой) шкале.

Смысл описываемого далее подхода достаточно прост и состоит в следующем. Предположим, строки базы данных принадлежат двум различным кластерам ( ), ,

, . данных это отображается меткой состояния, например, "0" и "1". Рассмотрим проекции кластеров данных на некоторое подпространство Kk переменных

Xk =< xk ,xk ,...xk > исходного пространства К переменных

X =< x1, x2,...xn >, К k сК . При этом будем полагать, что размерность подпространства Kk небольшая, например, к=2 или 3. Предположим, что имеется алгоритм, который строит в этом подпространстве функцию f (Xk ) = 0 , (разде-),

принимает положительные значения, а по другую - отрицательные значения. Назовем предикат

Рк = Р(/ (Хк )) =

(1)

Г" истина", если /(Хк ) > 0,

I " ложно", если /(Хк ) < 0.

классифицирующим предикатом.

В том случае, когда размерность такого подпространства равна 2, проекции кластеров данных можно визуально представить на плоскости. Последнее дает возможность вовлекать человека в процесс обработки данных, возлагая на него функции "рисования" разделяющих линий для кластеров данных, относящихся к

.

генерации уравнений этих линий и формального описания, ограниченных ими об, . программная поддержка разработана. Она позволяет автоматически генерировать формальное описание невыпуклых и многосвязных областей на плоскости, ап-

- ( ), -ответствующий классифицирующий предикат. Этот предикат далее рассматривается как новая переменная, измеренная в булевой шкале, которая может быть включена в качестве столбца в базу обучающих данных вместо двух непрерывных переменных. Таких классифицирующих предикатов можно построить достаточно много. Каждый из них в отдельности может рассматриваться как простое решающее правило, хотя, возможно, и не обладающее требуемой точностью классификации данных. В задаче мета-классификации (см. раздел 5) множество классифици-

(" -

"), ( -

ных)-как данные для обучения мета-классификатора.

Ключевой процедурой в общей технологии преобразования непрерывных данных в дискретную (булеву) шкалу и при формировании базовых классификаторов является процедура визуального формирования классифицирующих предикатов.

Рассмотрим проекцию кластеров

данных на подпространство двух пе-, , -странство <х16,х19 >. На рис.1 представлена компьютерная распечатка такой проекции для некоторого набо-, . На этой распечатке символом "+" обозначены представители одного класса состояний (в нашем случае это класс "0" -технический объект исправен), а символом "о" -представители другого класса состояний (класса "1"

-объект неисправен). Предположим, что прямая линия нарисована пользователем и рассматривается им как разделяющая граница кластеров. Ес,

разделить кластеры прямой линией,

Рис.1. Проекция кластеров данных и линейной разделяющей границы подпространство

но точное разделение кластеров и не является целью построения изображенной на .1 . , этом он строит ее таким образом, чтобы большая часть представителей одного из кластеров находилась по одну сторону прямой, а большая часть представителей другого кластера находилась по другую ее сторону, т.е. пусть пользователь пытается выполнить условия

И„> М,п, Мт> N

где N,, -число

и 10’ 00

представителей кластера

01 "1 "

для которого предикат

Р(1(х16, х19)) имеет значение "истинно"; N01 -число представителей кластера "1" для которого предикат Р(I(х16, х19 )) имеет значение "ложно" ,М10-число представителей кластера "0", для которого предикат Р(I(х16, х19 )) имеет значение "истинно" и, наконец,

М00 -число представителей кластера "0", для которого предикат Р(I(х16, х19 )) имеет значение "ложно". Ясно, что N11 + М00)

-

ных данных классифицируются правильно, а (М10 + N01) представителей-неправильно. Например, для проекции кластеров, представленных на рис.1 эти числа таковы:

N11=39, М10 =0, N01=10, М00 =24.

На основе этих данных можно оценить вероятностные характеристики правильного распознавания представителей каждого из классов и ошибки первого и второго рода, т.е. элементы следующей матрицы:

Рк(1 /1) Рк(1 / 0)

Рис. 2. Уравнение линейной разделяющей границы и соответствующий классифицирующий предикат

Р( Рк ) =

,

круглых скобках отвечает имени клас, -, -отвечает истинному имени класса. Вычисление эмпирических вероятностей может быть выполнено по таким формулам:

рк(1 /Г)=Ы„ (к)/[Ып (к)+М 10 (к)], рк (1 / 0) =М 10 (к)/[Ма (к)+М 10 (к)],

Рк (0 /1) Рк (0 / 0)

(2)

Рис. 3. Вероятностные характеристики классифицирующего предиката, представленного на рис. 2.

рк(0/1) =N01 (к)/[М00 ^+N01 (к)], Рк(0/0) = М00 (к)/^01 (к)+ М00 (к)],

На рис.3 для рассматриваемого примера даны значения элементов матрицы (2), представленные в той форме, как они отображаются на мониторе компьютера.

Однако в разработанном инструментарии возможности визуального формирования классифицирующих предикатов, предоставляемые пользователю, не ограничиваются линейными разделяющими границам. Предоставляемые возможности существенно шире. Пользователю предоставляется возможность "обрамлять" любые, даже несвязные области плоскости кусочно-линейными невыпуклыми кривы.

классифицирующий предикат в виде конъюнкции предикатов с отрицаниями или , " " . -лизуются в несвязных областях, то тогда соответствующий классифицирующий предикат формируется как дизъюнкция предикатов, отвечающих отдельным облас-.

, -

цирующих предикатов позволяет создавать любые описания областей, которые можно представить в терминах формул, определенных над множеством предикатов с линейными арифметическими термами и заданных с помощью логических связок (конъюнкции, дизъюнкции и отрицания). Пример такого более общего случая (по сравнению с ранее рассмотренным примером) приведен на рис.4.

На этом рисунке представлен случай, когда пользователь на плоскости аргументов <х11, х15> ввел две линейные разделяющие границы, которым соответствуют такие предикаты:

Р1 = (0.226Х11 + 0.947Х15 - 29.52 > 0) , Р2 = (-0.256Хи + 0.967Х15 -14.79 > 0) .

TestPrg

Rule Mode Exit

Э

$

Rule: FIX,Y)=

(NOTKO.2261 ]*X +(0.3741)'!' +(-29.5194) > 0)

AND ((-0.2559]"X +(0.3667)'!' +(-14.7315) > 0))

DR

(((0.2261 fX +(0.9741)'!' +(-29.5194) > 0)

AND NOT((-O.2559)'*l +(0.9667)'!' +(-14.7315) > 0)) DR

(NOT((0.22G1 ]*X +(0.3741)'!' +(-29.5194) > 0)

AND NOT((-O.2559)'*l +(0.9667)'!' +(-14.7315) > 0))

OK

Рис. 4. Распечатка (1) визуального интерфейса для рисования кусочно-линейных разделяющих гранту (слева), (2) автоматически сгенерированного классифицирующего предиката (справа вверху) и (3) результатов оценки эмпирических вероятностей правильной классификации и ошибок первого и второго рода (справа

внизу).

Оба эти предиката имеют значение "истинно" в областях, лежащих выше пря-. -катов. Заштрихованная область имеет нелинейную невыпуклую границу. Ей соответствует классифицирующий предикат, представляемый формулой, определенной над предикатами Р: иР2, имеющей такой вид:

Р3 =(—Р1&Р2)у(Р1&—Р2)у(—Р1&—Р2)

,

предварительно необходимо каким-то образом определить, как именно производить выбор двухмерных подпространств. Если общее количество столбцов базы данных с числовыми атрибутами равно п, то тогда число возможных пар равно п(п-1)/2. При большом значении п перебор подпространств может представлять собой достаточно громоздкую в вычислительном отношении задачу. Если же использовать все двух, -ся слишком большим. Естественно, что выбор числа и номенклатуры двухмерных ,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

классифицирующих предикатов и генерации на их основе новых (булевых) переменных представляет собой неформальный процесс и каких бы то ни было строгих подходов к ее решению не существует. Однако возможны некоторые процедуры эври-

,

подпространств те из них, которые представляются наиболее "перспективными". Для этого обычно используют различные эвристические меры расстояния между парой кластеров данных в некотором подпространстве, которые позволяют упорядочить все двухмерные подпространства по этим мерам или выбрать только некоторое их количество [8когтт-97]. Авторами разработаны некоторые варианты таких эвристи-. , -ных, представленные равенствами (3), (4) и (5).

К2г,9 = (КК0)4 ^^{[хКг) - х\°(в)]2 / а,2 + [х\(т) - х09(в)]2 / а,2 , (3) М[К ] = (0) / а 2 + ™х, (0) / а \ + ™х, (1) / а 2 + ™х, (1) / а 2 +

? ? (4)

+ (Дх0’1)2/ а 2 + (А*,0’1)2/ а 2

где а {, а — стандартные отклонения переменных х{ и х , оцененные по множеству данных обоих кластеров, (Ах”’1 )2, (Ах,0’1 )2 - квадраты расстояний между математическими ожиданиями (или их эмпирическими оценками) в пространстве рассматриваемых переменных х1 , х, в кластерах данных классов "0" и "1" соответственно. Заметим, что вторая мера расстояния является обобщением первой на случай , -ний достаточно точны.

1л = (К К о)-1 ^ а1{[х1(г) - х^)]2/а,2 + [х[(г) - х^)]2/а,2}, (5)

где а°о , а\ - веса реализаций кластеров "0" и "1" соответственно.

Эти веса вычисляются по формулам:

Щ = (х1 - х!)/ аI, Дхч = (х1 - х,)/ а,, Ь = ^(Щ )2 + (Дх, )2

=<Дх1 / b, Дх, / Ь >=< е, , >

Для всех прецедентов кластера "1" (г=1,2,..., К1)

<° = | е1(х\(г)-х1)/а1 + (х,(г)-х1)/а, |

^ =| е(х1(г)-х1)/а +(х,(г)-К)/а, |

1 = Г\ifd0 > <,

а \о,ifdl < d\.

Для всех прецедентов кластера "0" (8=1,2,..., К0)

^ =| е(х0 (8) - х°)/а1 +(х,0 (8) - х,0)/ а |

^=| е(х0(8)-х\)/а1 +(х,(8)-х\)/а, |

0 = Г\ if d1 > ^°, а [0, if d1 < ^0

Детальное объяснение смысла весов а° , а\ можно найти в работе [8когтш-

99]. Заметим, что меры расстояний (3) и (4) аддитивны, и поэтому для них существует простая оптимизационная процедура упорядочения двухмерных подпространств ([8когтш-99]).

,

шкалу для последующего извлечения из них правил такова:

1.

эвристическим метрикам типа (3), (4) и/или (5).

2.

двухмерных подпространств с помощью средств визуализации.

3. -

ных и удаление из нее столбцов с числовыми атрибутами.

Результатом этих операций будет база данных в дискретной форме. Заметим, что новые "признаки", роль которых играют сформированные классифицирующие , , " " -, .

Обратимся теперь к классифицирующим предикатам, которые могут быть достаточно просто построены на основе визуального подхода. Каждый классифи-( ), -са, можно рассматривать как простой классификатор, или "б^овый классификатор" в том смысле, в котором это понятие рассматривается в концепции метаклассификатора. Поскольку каждый из них на конкретных прецедентах (фактах) принимает свое решение о классе принадлежности прецедента, то множество решений, принятых несколькими классифицирующими предикатами, является (в ранее введенных терминах) строкой мета-обучающих данных. Поскольку в процессе ( ) -ляется столбец для каждого из построенных классифицирующих предикатов, то результирующая таблица базы данных (после удаления из нее столбцов с исходными числовыми атрибутами) является таблицей мета-обучающих данных. Таким , -падает под ту, которую принято называть схемой мета-классификации.

В данной работе предложена технология извлечения правил из распределенных баз данных. Технология ориентирована на случай, когда в базах данных имеются атрибуты, измеренные в числовой шкале и при этом размерность баз данных достаточно велика. Основу технологии составляют две процедуры:

♦ Процедура визуальной разработки классифицирующих предикатов, которые принадлежат классу произвольных формул, заданных над множеством предикатов с линейными арифметическими термами. Это дает возможность строить разделяющие границы достаточно общего вида, включая нелинейные и невы, -

.

♦ Процедура построения мета-классификатора, который обобщает решения, даваемые различными базовыми классификаторами. Использование этой процедуры дает возможность строить точные и эффективные классификаторы, обладающие свойствами масштабируемости, расширяемости и адаптив-

.

Предложенная технология тестировалась на ряде практических приложений.

,

блоков авиационной электроники по истории условий эксплуатации. Программное , -ное для тестирования технологии, разработано в инструментальной среде Visual C++ 5.0 + Access 97.

ЛИТЕРАТУРА

1. [Загоруйко-99] Н.Г.Загоруйко. Прикладные методы анализа данных и знаний. - Новосибирск: Институт математики, 1999.

2. [Растригин-81] Л.А.Растригин, Р.Х.Эренштейн. Метод коллективного распознавания // Библиотека по автоматике. - Москва: Энергоиздат, 1981. - Вып. 615.

3. [Bradley et al-98] P.Bradley, U.Fayyad, O.Mangasarian. Data Mining: Overview and Optimization Opportunity. - 1998.

4. [Chan-98] P.Chan, S.Stolfo. Towards Scalable Learning with Non-uniform Class and Cost Distribution: A Case Study in Credit Card Fraud Detectio // Proceedings of the 4th International Conference on Knowledge Discovery and Data Mining, New York, NY, August 1998. AAAI Press. - 1998.

5. [Cohen-95] W. W. Cohen. Fast effective rule induction //Machine Learning: the 12th International Conference, Lake Taho, CA, Morgan Kaufmann. - 1995.

6. [Dietterich- 81] T.C.Dietterich, R.S.Michalski. Inductive Learning of Structural Descriptions // Evaluation Criteria and Comparative Review of Selected Method. Artificial Intelligence. -1981. - 16, №3.

7. [Fayyad-96]. U.M.Fayyad, G.Piatetsky-Shapiro, P.Smyth. From Data Mining to Knowledge Discovery // An Overview. "Advances in Knowledge Discovery and Data Mining" (Eds. U.M.Fayyad, G.Piatetsky-Shapiro, P.Smyth). - Cambridge, Mass: MIT Press, 1995. - C.1-34.

8. [Frawley-91]. W.J.Frawley, G.Piatetsky-Shapiro, and C.J.Matheus. Knowledge Discovery in Data Bases // An Overview. "Knowledge Discovery in Data Bases" (Eds. G.Piatetsky-Shapiro and W.J.Frawley). - Cambridge, Mass: AAAI/MIT Press, 1991. - C.1-27.

9. [Gorodetski-96]. V.Gorodetski, O.Karsaev. Algorithm of Rule Extraction from Learning Data // Proceedings of the 8th International Conference (joint Europe-USA) "Expert Systems Application & Artificial Intelligence"" (EXPERSYS-96). IITT International,Paris, France. - 1996. -C. 133-138.

10. [Kloesgen-95]. W.Kloesgen. Versatile Discovery System // In "Knowledge Discovery in Data Bases" (Eds. U.M.Fayyad, G.Piatetsky-Shapiro, P.Smyth). - Cambridge, Mass: MIT Press, 1995. - C. 249-271.

11. [Lee-98] W. Lee, S. J. Stolfo, and K. W. Mok. Mining audit data to build intrusion detection model // Proceedings of the 4th International Conference on Knowledge Discovery and Data Mining, New York, NY, August 1998. AAAI Press. - 1998.

12. [Lee-99] W. Lee and S. J. Stolfo, K.Mok. A Data mining Framework for Building Intrusion Detection Model // Proceedings of the IEEE Symposium on Security and Privacy, 1999. IEEE Computer Press. - 1999.

13. [Liu-Setiono-98]. H.Liu, R.Setiono. Scalable Feature selection for Large Sized Databases // Proceedings of World Congress on Expert Systems (Eds. F.Cantu, R.Soto, J.Liebowitz, and E. Sucar) v.2, Cognizant Communication Corporation, Mexico-New-York. - 1998. - C. 521-528.

14. [Matheus et al-93]. C.J.Matheus, P.Chan, and G.Piatetsky-Shapiro. Systems for Knowledge Discovery // IEEE Trans. On Knowledge and Data Engineering. - 1993. -5, № 6. - C. 903-913.

15. [Michalsky-83]. R.S.Michalsky. A Theory and Methodology of Inductive Learning // Artificial Intelligence, 20, Vol. 2. - 1983. - C. 111-161.

16. [Michalsky-90]. R.S.Michalsky. Learning Flexible Concepts: Fundamental Ideas and Methodology // Machine Learning: An Artificial Intelligence Approach. v.III. (Eds. Y.Kondratoff and R.S.Michalsky), Morgan Kaufmann Publishers. - 1990.

17. [Quinlan-83]. J.R.Quinlan. Inductive Inference as a Tool for the Construction of High- Performance Programs // In Machine Learning: An Artificial Intelligence Approach. (ed. R.S. Michalsky, J.G.Carbonell, T.M.Mitchell),-Palo Alto, Tioga Publishing Company. - 1983.

18. [Ouinlan-93] J.R.Quinlan. C4.5:program for machine learning // Morgan Kaufman, San Mateo, CA.

- 1993.

19. [Skormin-97] V. Skormin, L. Popyack. Reliability of Avionics and “History of Abuse”. A Prognostic Technique // In Proceedings ofICI&C ‘97, St. Petersburg. - 1997. - C. Lxxvi-lxxxii.

20. [Skormin-99] V.A. Skormin, V.I. Gorodetski, L.J. Popyack. Data Mining Technology for Failure Prognostics ofAvionics // IEEE Transactions on Aerospace and Electronic Systems. - 1999.

УДК 007:681.518.2

Л.С. Берштейн, А.Н. Целых

МОДЕЛИРОВАНИЕ ПРОЦЕССОВ ПРИНЯТИЯ РЕШЕНИЙ НА ОСНОВЕ ВЫЯВЛЕНИЯ ЕСТЕСТВЕННОГО ГОМОМОРФИЗМА НЕЧЕТКИХ

ОТНОШЕНИЙ

Принятие решений в условиях неопределенности, характеризующихся неполнотой и нечеткостью исходной информации, включает в себя решение задач поиска, рас, , .

С информационной точки зрения принятие решений представляет собой последовательный процесс уменьшения неопределенности исходной информации, в основе которого лежит структурирование. Процедура структурирования позволяет получить в явном виде математическую модель задачи принятия решений, т.е. логически упорядо-, , -ния поставленной задачи.

Методы построения моделей принятия решений определяются характером ре.

постановки конкретной задачи, причем для одной и той же задачи принятия решений, как правило, можно использовать различные типы моделей [1].

, -ний, ориентированных на решение задач экологического мониторинга, являются:

) , получаемых от экспертов в количественной или качественной форме и объектив-

i Надоели баннеры? Вы всегда можете отключить рекламу.