УДК 007:681.518.2
В.И. Городецкий, В.В.Самойлов*
ВИЗУАЛЬНЫЙ СИНТЕЗ КЛАССИФИЦИРУЮЩИХ ПРЕДИКАТОВ И ИХ ИСПОЛЬЗОВАНИЕ В ПРОЦЕДУРАХ МЕТА-КЛАССИФИКАЦИИ
Проблема извлечения знаний из данных вот уже более чем два десятилетия относится к числу ключевых в области разработки интеллектуальных систем (ИС). В настоящее время эта проблема является предметом интенсивных исследований, где это направление принято называть кратко KDD- Knowledge Discovery from Data.
Под извлечением знаний из данных понимается итеративная и интерактивная
,
полезных для решения практических задач, новых и, в конечном счете, понятных фрагментов ("па^ернов") знаний в данных ([Fayyad-96]). Смысл терминов, использованных в предыдущем предложении, таков. Данные - это набор записей ("прецедентов") базы данных, называемых также "фактами". Фрагмент знаний (" ") - -. , , часто встречающиеся подпоследовательности (если столбцы базы данных являются позиционными переменными) и др. Эти фрагменты являются "потенциально полезными", если их использование в приложениях, скажем, для классификации
, . ., -, , , больший доход и т.п. Понятность фрагмента означает, что он может быть интерпретирован в терминах решаемой прикладной задачи, или он может быть объяс-.
В практике извлечения знаний из данных различают два наиболее важных : (1) (2) . -на основе информации о значениях некоторых переменных в строке базы данных оценить значения других переменных в этой же строке. Цель второй задачи - построение математической модели, полезной для решения некоторой прикладной .
Обе названные задачи разбиваются на ряд конкретных подзадач, в частности, таких ([Fayyad-96]):
♦ Классификация - отображение множества записей базы данных в дискретное множество классов;
♦ Регрессия - отыскание функции, которая вектору непрерывных переменных строки БД, соответствующих моменту времени tk, ставит в соответствие
значение этих же или других переменных в момент времени tk +1. Заметим, что в общем случае переменные могут и не зависеть от времени;
♦ Кластеризация - отыскание конечного множества категорий, которые разбивают данные на непересекающиеся подмножества данных. При этом полага-
,
собой и отличаются от данных других подмножеств;
* Данная работа поддерживается грантом РФФИ №99-01-00733
♦ Сжатие - более компактное описание (подмножеств) данных, например, в терминах математических ожиданий и ковариационных матриц, в терминах функциональных зависимостей и т.п.
♦ Обнаружение зависимостей - поиск наиболее существенных с некоторой прагматической точки зрения зависимостей между переменными - столбцами
;
♦ Обнаружение изменений - обнаружение некоторых существенных с практической точки зрения отклонений значений переменных от их нормативных
.
Более подробную информацию о классах задач и используемых методах в области извлечения знаний из данных можно найти в работах [Загоруйко-99], [Bradley-98], [Dietterich-81], [Fayyad-96], [Frawley-91], [Kloesgen-95], [Liu-Setiono-
98], [Matheus-93], [Michalsky-83], [Michalsky-90], [Quinlan-83], [Ouinlan-93].
В настоящей работе рассматривается одна из наиболее распространенных в практике задач обнаружения знаний из данных, а именно, задача классификации. Традиционный подход к извлечению знаний из разнотипных данных - это дискретизация непрерывных переменных и замена каждого числового атрибута множеством высказываний о принадлежности его значения одному из введенных интервалов. Тогда все атрибуты оказываются дискретными, а для таких задач имеются методы и инструментальные средства извлечения правил, описанные, например, в работах [Dietterich-81] - система INDUCE, [Quillian-83] - система ID3, [Ouinlan-93]
- система C4.5, [Cohen-95] - система RIPPER, [Gorodetski-96] - система INFORM и .
В работе рассматривается иной подход к последней задаче, который может интерпретироваться как обобщение традиционного подхода.
Некоторые идеи рассматриваемого в данной работе подхода к построению решающих правил в задачах классификации ранее были высказаны в статье [Skormin-97]. Данная работа может рассматриваться как развитие и обобщение ,
, , присутствуют данные в непрерывной (числовой) шкале.
Смысл описываемого далее подхода достаточно прост и состоит в следующем. Предположим, строки базы данных принадлежат двум различным кластерам ( ), ,
, . данных это отображается меткой состояния, например, "0" и "1". Рассмотрим проекции кластеров данных на некоторое подпространство Kk переменных
Xk =< xk ,xk ,...xk > исходного пространства К переменных
X =< x1, x2,...xn >, К k сК . При этом будем полагать, что размерность подпространства Kk небольшая, например, к=2 или 3. Предположим, что имеется алгоритм, который строит в этом подпространстве функцию f (Xk ) = 0 , (разде-),
принимает положительные значения, а по другую - отрицательные значения. Назовем предикат
Рк = Р(/ (Хк )) =
(1)
Г" истина", если /(Хк ) > 0,
I " ложно", если /(Хк ) < 0.
классифицирующим предикатом.
В том случае, когда размерность такого подпространства равна 2, проекции кластеров данных можно визуально представить на плоскости. Последнее дает возможность вовлекать человека в процесс обработки данных, возлагая на него функции "рисования" разделяющих линий для кластеров данных, относящихся к
.
генерации уравнений этих линий и формального описания, ограниченных ими об, . программная поддержка разработана. Она позволяет автоматически генерировать формальное описание невыпуклых и многосвязных областей на плоскости, ап-
- ( ), -ответствующий классифицирующий предикат. Этот предикат далее рассматривается как новая переменная, измеренная в булевой шкале, которая может быть включена в качестве столбца в базу обучающих данных вместо двух непрерывных переменных. Таких классифицирующих предикатов можно построить достаточно много. Каждый из них в отдельности может рассматриваться как простое решающее правило, хотя, возможно, и не обладающее требуемой точностью классификации данных. В задаче мета-классификации (см. раздел 5) множество классифици-
(" -
"), ( -
ных)-как данные для обучения мета-классификатора.
Ключевой процедурой в общей технологии преобразования непрерывных данных в дискретную (булеву) шкалу и при формировании базовых классификаторов является процедура визуального формирования классифицирующих предикатов.
Рассмотрим проекцию кластеров
данных на подпространство двух пе-, , -странство <х16,х19 >. На рис.1 представлена компьютерная распечатка такой проекции для некоторого набо-, . На этой распечатке символом "+" обозначены представители одного класса состояний (в нашем случае это класс "0" -технический объект исправен), а символом "о" -представители другого класса состояний (класса "1"
-объект неисправен). Предположим, что прямая линия нарисована пользователем и рассматривается им как разделяющая граница кластеров. Ес,
разделить кластеры прямой линией,
Рис.1. Проекция кластеров данных и линейной разделяющей границы подпространство
но точное разделение кластеров и не является целью построения изображенной на .1 . , этом он строит ее таким образом, чтобы большая часть представителей одного из кластеров находилась по одну сторону прямой, а большая часть представителей другого кластера находилась по другую ее сторону, т.е. пусть пользователь пытается выполнить условия
И„> М,п, Мт> N
где N,, -число
и 10’ 00
представителей кластера
01 "1 "
для которого предикат
Р(1(х16, х19)) имеет значение "истинно"; N01 -число представителей кластера "1" для которого предикат Р(I(х16, х19 )) имеет значение "ложно" ,М10-число представителей кластера "0", для которого предикат Р(I(х16, х19 )) имеет значение "истинно" и, наконец,
М00 -число представителей кластера "0", для которого предикат Р(I(х16, х19 )) имеет значение "ложно". Ясно, что N11 + М00)
-
ных данных классифицируются правильно, а (М10 + N01) представителей-неправильно. Например, для проекции кластеров, представленных на рис.1 эти числа таковы:
N11=39, М10 =0, N01=10, М00 =24.
На основе этих данных можно оценить вероятностные характеристики правильного распознавания представителей каждого из классов и ошибки первого и второго рода, т.е. элементы следующей матрицы:
Рк(1 /1) Рк(1 / 0)
Рис. 2. Уравнение линейной разделяющей границы и соответствующий классифицирующий предикат
Р( Рк ) =
,
круглых скобках отвечает имени клас, -, -отвечает истинному имени класса. Вычисление эмпирических вероятностей может быть выполнено по таким формулам:
рк(1 /Г)=Ы„ (к)/[Ып (к)+М 10 (к)], рк (1 / 0) =М 10 (к)/[Ма (к)+М 10 (к)],
Рк (0 /1) Рк (0 / 0)
(2)
Рис. 3. Вероятностные характеристики классифицирующего предиката, представленного на рис. 2.
рк(0/1) =N01 (к)/[М00 ^+N01 (к)], Рк(0/0) = М00 (к)/^01 (к)+ М00 (к)],
На рис.3 для рассматриваемого примера даны значения элементов матрицы (2), представленные в той форме, как они отображаются на мониторе компьютера.
Однако в разработанном инструментарии возможности визуального формирования классифицирующих предикатов, предоставляемые пользователю, не ограничиваются линейными разделяющими границам. Предоставляемые возможности существенно шире. Пользователю предоставляется возможность "обрамлять" любые, даже несвязные области плоскости кусочно-линейными невыпуклыми кривы.
классифицирующий предикат в виде конъюнкции предикатов с отрицаниями или , " " . -лизуются в несвязных областях, то тогда соответствующий классифицирующий предикат формируется как дизъюнкция предикатов, отвечающих отдельным облас-.
, -
цирующих предикатов позволяет создавать любые описания областей, которые можно представить в терминах формул, определенных над множеством предикатов с линейными арифметическими термами и заданных с помощью логических связок (конъюнкции, дизъюнкции и отрицания). Пример такого более общего случая (по сравнению с ранее рассмотренным примером) приведен на рис.4.
На этом рисунке представлен случай, когда пользователь на плоскости аргументов <х11, х15> ввел две линейные разделяющие границы, которым соответствуют такие предикаты:
Р1 = (0.226Х11 + 0.947Х15 - 29.52 > 0) , Р2 = (-0.256Хи + 0.967Х15 -14.79 > 0) .
TestPrg
Rule Mode Exit
Э
$
Rule: FIX,Y)=
(NOTKO.2261 ]*X +(0.3741)'!' +(-29.5194) > 0)
AND ((-0.2559]"X +(0.3667)'!' +(-14.7315) > 0))
DR
(((0.2261 fX +(0.9741)'!' +(-29.5194) > 0)
AND NOT((-O.2559)'*l +(0.9667)'!' +(-14.7315) > 0)) DR
(NOT((0.22G1 ]*X +(0.3741)'!' +(-29.5194) > 0)
AND NOT((-O.2559)'*l +(0.9667)'!' +(-14.7315) > 0))
OK
Рис. 4. Распечатка (1) визуального интерфейса для рисования кусочно-линейных разделяющих гранту (слева), (2) автоматически сгенерированного классифицирующего предиката (справа вверху) и (3) результатов оценки эмпирических вероятностей правильной классификации и ошибок первого и второго рода (справа
внизу).
Оба эти предиката имеют значение "истинно" в областях, лежащих выше пря-. -катов. Заштрихованная область имеет нелинейную невыпуклую границу. Ей соответствует классифицирующий предикат, представляемый формулой, определенной над предикатами Р: иР2, имеющей такой вид:
Р3 =(—Р1&Р2)у(Р1&—Р2)у(—Р1&—Р2)
,
предварительно необходимо каким-то образом определить, как именно производить выбор двухмерных подпространств. Если общее количество столбцов базы данных с числовыми атрибутами равно п, то тогда число возможных пар равно п(п-1)/2. При большом значении п перебор подпространств может представлять собой достаточно громоздкую в вычислительном отношении задачу. Если же использовать все двух, -ся слишком большим. Естественно, что выбор числа и номенклатуры двухмерных ,
классифицирующих предикатов и генерации на их основе новых (булевых) переменных представляет собой неформальный процесс и каких бы то ни было строгих подходов к ее решению не существует. Однако возможны некоторые процедуры эври-
,
подпространств те из них, которые представляются наиболее "перспективными". Для этого обычно используют различные эвристические меры расстояния между парой кластеров данных в некотором подпространстве, которые позволяют упорядочить все двухмерные подпространства по этим мерам или выбрать только некоторое их количество [8когтт-97]. Авторами разработаны некоторые варианты таких эвристи-. , -ных, представленные равенствами (3), (4) и (5).
К2г,9 = (КК0)4 ^^{[хКг) - х\°(в)]2 / а,2 + [х\(т) - х09(в)]2 / а,2 , (3) М[К ] = (0) / а 2 + ™х, (0) / а \ + ™х, (1) / а 2 + ™х, (1) / а 2 +
? ? (4)
+ (Дх0’1)2/ а 2 + (А*,0’1)2/ а 2
где а {, а — стандартные отклонения переменных х{ и х , оцененные по множеству данных обоих кластеров, (Ах”’1 )2, (Ах,0’1 )2 - квадраты расстояний между математическими ожиданиями (или их эмпирическими оценками) в пространстве рассматриваемых переменных х1 , х, в кластерах данных классов "0" и "1" соответственно. Заметим, что вторая мера расстояния является обобщением первой на случай , -ний достаточно точны.
1л = (К К о)-1 ^ а1{[х1(г) - х^)]2/а,2 + [х[(г) - х^)]2/а,2}, (5)
где а°о , а\ - веса реализаций кластеров "0" и "1" соответственно.
Эти веса вычисляются по формулам:
Щ = (х1 - х!)/ аI, Дхч = (х1 - х,)/ а,, Ь = ^(Щ )2 + (Дх, )2
=<Дх1 / b, Дх, / Ь >=< е, , >
Для всех прецедентов кластера "1" (г=1,2,..., К1)
<° = | е1(х\(г)-х1)/а1 + (х,(г)-х1)/а, |
^ =| е(х1(г)-х1)/а +(х,(г)-К)/а, |
1 = Г\ifd0 > <,
а \о,ifdl < d\.
Для всех прецедентов кластера "0" (8=1,2,..., К0)
^ =| е(х0 (8) - х°)/а1 +(х,0 (8) - х,0)/ а |
^=| е(х0(8)-х\)/а1 +(х,(8)-х\)/а, |
0 = Г\ if d1 > ^°, а [0, if d1 < ^0
Детальное объяснение смысла весов а° , а\ можно найти в работе [8когтш-
99]. Заметим, что меры расстояний (3) и (4) аддитивны, и поэтому для них существует простая оптимизационная процедура упорядочения двухмерных подпространств ([8когтш-99]).
,
шкалу для последующего извлечения из них правил такова:
1.
эвристическим метрикам типа (3), (4) и/или (5).
2.
двухмерных подпространств с помощью средств визуализации.
3. -
ных и удаление из нее столбцов с числовыми атрибутами.
Результатом этих операций будет база данных в дискретной форме. Заметим, что новые "признаки", роль которых играют сформированные классифицирующие , , " " -, .
Обратимся теперь к классифицирующим предикатам, которые могут быть достаточно просто построены на основе визуального подхода. Каждый классифи-( ), -са, можно рассматривать как простой классификатор, или "б^овый классификатор" в том смысле, в котором это понятие рассматривается в концепции метаклассификатора. Поскольку каждый из них на конкретных прецедентах (фактах) принимает свое решение о классе принадлежности прецедента, то множество решений, принятых несколькими классифицирующими предикатами, является (в ранее введенных терминах) строкой мета-обучающих данных. Поскольку в процессе ( ) -ляется столбец для каждого из построенных классифицирующих предикатов, то результирующая таблица базы данных (после удаления из нее столбцов с исходными числовыми атрибутами) является таблицей мета-обучающих данных. Таким , -падает под ту, которую принято называть схемой мета-классификации.
В данной работе предложена технология извлечения правил из распределенных баз данных. Технология ориентирована на случай, когда в базах данных имеются атрибуты, измеренные в числовой шкале и при этом размерность баз данных достаточно велика. Основу технологии составляют две процедуры:
♦ Процедура визуальной разработки классифицирующих предикатов, которые принадлежат классу произвольных формул, заданных над множеством предикатов с линейными арифметическими термами. Это дает возможность строить разделяющие границы достаточно общего вида, включая нелинейные и невы, -
.
♦ Процедура построения мета-классификатора, который обобщает решения, даваемые различными базовыми классификаторами. Использование этой процедуры дает возможность строить точные и эффективные классификаторы, обладающие свойствами масштабируемости, расширяемости и адаптив-
.
Предложенная технология тестировалась на ряде практических приложений.
,
блоков авиационной электроники по истории условий эксплуатации. Программное , -ное для тестирования технологии, разработано в инструментальной среде Visual C++ 5.0 + Access 97.
ЛИТЕРАТУРА
1. [Загоруйко-99] Н.Г.Загоруйко. Прикладные методы анализа данных и знаний. - Новосибирск: Институт математики, 1999.
2. [Растригин-81] Л.А.Растригин, Р.Х.Эренштейн. Метод коллективного распознавания // Библиотека по автоматике. - Москва: Энергоиздат, 1981. - Вып. 615.
3. [Bradley et al-98] P.Bradley, U.Fayyad, O.Mangasarian. Data Mining: Overview and Optimization Opportunity. - 1998.
4. [Chan-98] P.Chan, S.Stolfo. Towards Scalable Learning with Non-uniform Class and Cost Distribution: A Case Study in Credit Card Fraud Detectio // Proceedings of the 4th International Conference on Knowledge Discovery and Data Mining, New York, NY, August 1998. AAAI Press. - 1998.
5. [Cohen-95] W. W. Cohen. Fast effective rule induction //Machine Learning: the 12th International Conference, Lake Taho, CA, Morgan Kaufmann. - 1995.
6. [Dietterich- 81] T.C.Dietterich, R.S.Michalski. Inductive Learning of Structural Descriptions // Evaluation Criteria and Comparative Review of Selected Method. Artificial Intelligence. -1981. - 16, №3.
7. [Fayyad-96]. U.M.Fayyad, G.Piatetsky-Shapiro, P.Smyth. From Data Mining to Knowledge Discovery // An Overview. "Advances in Knowledge Discovery and Data Mining" (Eds. U.M.Fayyad, G.Piatetsky-Shapiro, P.Smyth). - Cambridge, Mass: MIT Press, 1995. - C.1-34.
8. [Frawley-91]. W.J.Frawley, G.Piatetsky-Shapiro, and C.J.Matheus. Knowledge Discovery in Data Bases // An Overview. "Knowledge Discovery in Data Bases" (Eds. G.Piatetsky-Shapiro and W.J.Frawley). - Cambridge, Mass: AAAI/MIT Press, 1991. - C.1-27.
9. [Gorodetski-96]. V.Gorodetski, O.Karsaev. Algorithm of Rule Extraction from Learning Data // Proceedings of the 8th International Conference (joint Europe-USA) "Expert Systems Application & Artificial Intelligence"" (EXPERSYS-96). IITT International,Paris, France. - 1996. -C. 133-138.
10. [Kloesgen-95]. W.Kloesgen. Versatile Discovery System // In "Knowledge Discovery in Data Bases" (Eds. U.M.Fayyad, G.Piatetsky-Shapiro, P.Smyth). - Cambridge, Mass: MIT Press, 1995. - C. 249-271.
11. [Lee-98] W. Lee, S. J. Stolfo, and K. W. Mok. Mining audit data to build intrusion detection model // Proceedings of the 4th International Conference on Knowledge Discovery and Data Mining, New York, NY, August 1998. AAAI Press. - 1998.
12. [Lee-99] W. Lee and S. J. Stolfo, K.Mok. A Data mining Framework for Building Intrusion Detection Model // Proceedings of the IEEE Symposium on Security and Privacy, 1999. IEEE Computer Press. - 1999.
13. [Liu-Setiono-98]. H.Liu, R.Setiono. Scalable Feature selection for Large Sized Databases // Proceedings of World Congress on Expert Systems (Eds. F.Cantu, R.Soto, J.Liebowitz, and E. Sucar) v.2, Cognizant Communication Corporation, Mexico-New-York. - 1998. - C. 521-528.
14. [Matheus et al-93]. C.J.Matheus, P.Chan, and G.Piatetsky-Shapiro. Systems for Knowledge Discovery // IEEE Trans. On Knowledge and Data Engineering. - 1993. -5, № 6. - C. 903-913.
15. [Michalsky-83]. R.S.Michalsky. A Theory and Methodology of Inductive Learning // Artificial Intelligence, 20, Vol. 2. - 1983. - C. 111-161.
16. [Michalsky-90]. R.S.Michalsky. Learning Flexible Concepts: Fundamental Ideas and Methodology // Machine Learning: An Artificial Intelligence Approach. v.III. (Eds. Y.Kondratoff and R.S.Michalsky), Morgan Kaufmann Publishers. - 1990.
17. [Quinlan-83]. J.R.Quinlan. Inductive Inference as a Tool for the Construction of High- Performance Programs // In Machine Learning: An Artificial Intelligence Approach. (ed. R.S. Michalsky, J.G.Carbonell, T.M.Mitchell),-Palo Alto, Tioga Publishing Company. - 1983.
18. [Ouinlan-93] J.R.Quinlan. C4.5:program for machine learning // Morgan Kaufman, San Mateo, CA.
- 1993.
19. [Skormin-97] V. Skormin, L. Popyack. Reliability of Avionics and “History of Abuse”. A Prognostic Technique // In Proceedings ofICI&C ‘97, St. Petersburg. - 1997. - C. Lxxvi-lxxxii.
20. [Skormin-99] V.A. Skormin, V.I. Gorodetski, L.J. Popyack. Data Mining Technology for Failure Prognostics ofAvionics // IEEE Transactions on Aerospace and Electronic Systems. - 1999.
УДК 007:681.518.2
Л.С. Берштейн, А.Н. Целых
МОДЕЛИРОВАНИЕ ПРОЦЕССОВ ПРИНЯТИЯ РЕШЕНИЙ НА ОСНОВЕ ВЫЯВЛЕНИЯ ЕСТЕСТВЕННОГО ГОМОМОРФИЗМА НЕЧЕТКИХ
ОТНОШЕНИЙ
Принятие решений в условиях неопределенности, характеризующихся неполнотой и нечеткостью исходной информации, включает в себя решение задач поиска, рас, , .
С информационной точки зрения принятие решений представляет собой последовательный процесс уменьшения неопределенности исходной информации, в основе которого лежит структурирование. Процедура структурирования позволяет получить в явном виде математическую модель задачи принятия решений, т.е. логически упорядо-, , -ния поставленной задачи.
Методы построения моделей принятия решений определяются характером ре.
постановки конкретной задачи, причем для одной и той же задачи принятия решений, как правило, можно использовать различные типы моделей [1].
, -ний, ориентированных на решение задач экологического мониторинга, являются:
) , получаемых от экспертов в количественной или качественной форме и объектив-