УДК 519.85
О ПРЕДСТАВЛЕНИИ ИНФОРМАЦИИ В ЗАДАЧАХ КЛАССИФИКАЦИИ
Т.М. Леденева, Нгуен Нгок Хуи
В статье рассматриваются основные типы данных для задачи классификации и соответствующие им функции расстояния
Ключевые слова: типы данных, мера несходства, функция расстояния
Введение
Пусть задано некоторое множество
Y = {Yl3..., Ym } объектов, обладающих определенными свойствами, причем эти свойства могут быть описаны в различных шкалах, так что Sh - это шкала для описания некоторого
i -го свойства объектов из множества Y. Заметим, что декартово произведение Shj х... х Shm содержит множество возможных описаний (оценок) объектов. Поставим в соответствие каждому объекту Y векторную
°ценку £(j) = (^lj,...,^mj), где ^ е Shi для
всех i = 1, m. Как правило, в задачах классификации предполагается, что все ^ являются
количественными, а для определения «близости» объектов используется функция расстояния. Однако встречаются задачи, в которых исходная информация не является числовой. Наиболее интересным представляется случай, когда каждое свойство оценивается в своей шкале, тогда векторная оценка содержит смешанную информацию. Целью статьи является классификация различных типов данных, которые используются в задачах классификации и кластерного анализа, и определение для этих данных функции расстояния.
1. Основные типы данных Рассмотрим различные варианты задания шкал для измерения свойств объектов. Пусть
Shi =fek Ls, - шкала для описания некоторого i -го свойства объектов из множества Y . Рассмотрим основные типы шкал.
1) Sh e{R,Q,N,Zj, т.е. шкала совпадает с некоторым числовым множеством, и, по сути,
любая оценка ^ е БЬ; представляет собой
некоторое число. Данный случай является в определенном смысле «классическим», поскольку большинство методов классификации и кластерного анализа ориентированы именно на него.
2) Обобщением числовой переменной является случайная, нечеткая переменная и т.д., а в общем случае модальнозначная переменная. Например, каждую оценку ^ е БЬ; можно рассматривать как реализацию случайной переменной предполагая, что на множестве
значений шкалы БЬ задано некоторое распределение вероятностей. Обобщая данный подход, можно предположить, что вместо вероятностного распределения задано, например, распределение возможностей или другое распределение, определяемое с помощью некоторой нечеткой меры.
3) = [а, Ъ] ^ БЬ; ^ Я, где а < Ь и а, Ь е Я (при а = Ь = Я), причем можно рассматривать и другие промежутки (а, Ь),
[а,Ь), (а,Ь]. В этом случае переменную ^1к
будем называть интервальнозначной. Заметим, что этот тип переменных целесообразно использовать в том случае, если невозможно охарактеризовать свойство объекта с помощью некоторого числа.
4) Интервальнозначная переменная также может быть обобщена с помощью различных модальностей. Простейшим случаем такого обобщения является задание гистограммы с областью определения БЬ. В этом случае
шкала
Леденева Татьяна Михайловна - ВГУ, д-р техн. наук, профессор, е-шаД: [email protected] Нгуен Нгок Хуи - ВГУ, аспирант, е-шай:
shashkin@amm. vsu.ru
примет вид БЬ1 = {([^, Ц ], р )Ц^,
т.е. каждому значению в виде отрезка (промежутка) соответствует некоторое значение Р , в качестве которого может выступать, например, вес. Заметим, что, как правило, тре-
буется выполнение условия нормировки в виде
м
Ер*= 1.
н
5) Пусть некоторое I -е свойство может быть описано счетным множеством возможных зна-
ы
чении
, на котором определена неотри-
цательная мера Щ : {^ }. ^ — Я+ , так что
шкала имеет вид БЬ; = {(^-, *»))«» . Этой
мере могут соответствовать различные типы модальности (возможность, необходимость и т.п.). Кроме того, в качестве Щ могут выступать веса, степени предпочтения и т.п.
6) В качестве значений Щ могут выступать
модели. Например, в табл. приведены банковские ставки для четырех банков, которые изменяются во времени в соответствии трендовой моделью
У (1) = а У (1 -1) +... + ар У (1 - р) + в (1), где {а,..., ар} - коэффициенты модели, которые для различных банков могут принимать различные значения. Для р = 2 переменная «банковская ставка» описывается множеством значений и соответствующих им моделей, представленных в таблице.
Значение переменной Банк Параметры модели
В, Банк 1 а неизвестно
В2 Банк 2 а = 0.7; а2 = -0.2
Вз Банк 3 а, а неизвестны
В4 Банк 4 а = -0.6
Рассмотрим различные типы мер, которые могут использоваться для задания модальностей.
Возможностной мерой (или мерой возможности) некоторого события из О называется отображение Щ : О —[0,1], которое удовлетворяет следующим условиям:
О щ(О) = 1, щ(0) = 0;
и) для любых подмножеств А, В О имеет место равенство
щ( А ^ В) = тах {щ( А), щ( В)}.
Мерой необходимости называется отображение КеБ: О —— [0,1], которое каждому
А ^ О ставит в соответствие число ( А ) = 1 -щ( А ), где А = О \ А - дополнение А и щ(-) - возможностная мера.
Заметим, что мера возможности и мера необходимости взаимно дополняют друг друга.
Между переменными, характеризующими свойства объектов заданного множества, может быть зависимость: статистическая, логическая, таксономическая или иерархическая.
Логическая зависимость имеет место в том случае, если возможные значения одной переменной (входной) определяют возможные значения другой (выходной) переменной. Как правило, такой тип зависимости может быть формализован с помощью правила
Я : если {у е А}, то{У2 е В}.
Выявление логической зависимости важно для агрегирования информации или сокращения размерности множества данных.
Таксономическая переменная - переменная, организованная в виде дерева с несколькими уровнями обобщения, при этом корень дерева используется для ссылки на эту переменную.
2. Определение функции расстояния для различных типов данных
Для оценки близости объектов заданного множества используются различные меры сходства/несходства. Простейшим примером меры несходства является функция расстояния.
Пусть а и Ь - некоторые объекты из некоторого множества Е . Мерой несходства называется отображение ё: Е2 — N, которое удовлетворяет следующим условиям:
0 ё(а,Ь) = ё(Ь,а),
и) ё (а,а) = ё (Ь,Ь)> ё (а,Ь) для а Ф Ь,
ш) ё (а,а) = 0 для всех а е Е .
Расстоянием (или метрикой) называется мера несходства, которая удовлетворяет следующим дополнительным свойствам:
гу) если ё (а, Ь) = 0, то а = Ь,
v) ё (а,Ь) < ё (а, с) + ё (с, Ь) для всех
а,Ь,с е Е.
Помимо метрики можно рассматривать ультраметрику, которая является метрикой, удовлетворяющей дополнительному свойству
vi) d (a,b) < max {d (a, c) ,d (c,b)} для всех a,b,c g E.
Можно показать, что ультраметрика - взаимно-однозначное соответствие с иерархией, поэтому для сравнения иерархически организованных данных нужно использовать именно ультраметрику.
Если E = {aj,...,an}, то вычислив расстояние между каждой пары объектов, получим матрицу расстояний (матрицу несходства)
D = {d„= d (a„aJ )}nn.
Матрица расстояний, элементы которой монотонно возрастают при удалении от главной диагонали по столбцам и строкам, называется матрицей Робинсона. Матрица Робинсона играет существенную роль в пирамидальной кластеризации, являясь основой для сравнения пирамид.
Существуют меры несходства, основанные на специальных операциях над множествами.
Пусть A = (A1,...,Ap) и B = (B!,...,BP) векторные оценки двух объектов из некоторого множества объектов, в которых A (и B ) представлены некоторыми множествами,
например, A = {^1,.., a^. }, либо
А =[ м ].
Декартова сумма двух множеств A и B определяется покомпонентно в виде
a е b = ( a е в,..., A ф B),
где элемент A е B = A ^ B , т е. определяется одним из следующих способов в зависимости от способа задания компонент
1) A еB ={aji,...,ajn.л,...,,},
2) Aj е Bj = [min {a ,bj}, max {aj, bj}].
Декартово произведение двух множеств A и B определяется покомпонентно в виде
a ® в = ( a 0 B,...,A 0 B),
где a 0 B = A ^ B.
Заметим, что если компоненты заданы интервалами, то
A
)Bj =
max {aj,bj},min {aj,bj}],
причем, если А ^ В =0 , то А ® В = 0 .
Рассмотрим примеры использования данных операций.
Пусть
A = ({red, green}, {small}), B = ({red, blue}, {small, medium}),
тогда
A Ф B = ({red, green, blue}, {small, medium}),
> B = ({red}, {small}).
Пусть A и B заданы интервально A = ([3,7], [21,25], [5,9]),
B = ([5,8], [19,24], [6,11]) ,
тогда
A Ф B = ([3,8], [19,25] ,[5,11]) , >B = ([5,7],[19,24],[6,9]).
Этот же подход может быть использован для смешанных типов данных. Например, для
A = ([3,8], {red, green, blue})
и
В = ([5,7],{red})
получим
A Ф В = ([3,8], {red, green, blue}),
A ® В = ([5,7] ,{red}) .
Рассмотрим некоторые функции расстояния для множественных и интервальных переменных.
Мера несходства Ichino-Yaguchi по переменной j [1] определяется через введенные выше операции и имеет вид
(j A,B) = |Aj Ф Bj| - j Bj| + y(2|Aj® Bj - |aJ - |Bj|),
где IA - мощность множества A , ye [0Д5]
- специальная константа.
Обобщенное расстояние Минковского порядка q > 1 между множествами определяется в виде
dq (A,B)=f]^Wj((j( A,B))q ]1q ,
V J=1 J
где {w } - набор весов, ( (A, B) - подходящее расстояние между соответствующими компонентами.
При увеличении числа переменных расстояние Минковского возрастает. Помимо предыдущей формулы расстояние Минковского может задаваться другой формулой
(
dq (A, B) = I £w,(<p,(A,B))’
V P j=1
В данной формуле ^ (A, B) можно
нить
на
относительные
заме-величины
ф'( A,B) = 5^
Y
где У - мощность об-
ласти определения J -й переменной. В этом случае 0 < ёч (А, В) < 1.
Частными случаями расстояния Минков-ского являются расстояния Хемминга и Евклида, которые часто используются в приложениях.
Рассмотрим случай многозначных переменных. Пусть У = (у,...,Ур) - векторная
оценка, такая, что каждая переменная У при-
нимает
значения
из
j
множества
Yj = {y^,..., Yjn j. Будем считать, что каждому возможному значению Yjk соответствует значение pjk, определенное с помощью подходящей модальности. Таким образом, j -я компонента векторной оценки задается распределением и = ((vp* w
Функцию расстояния между наблюдениями Uj и и2 можно определить в виде [2]
Р Sj Г m \2
d2 (U1, U2 ) = ZZ|pZ Pujkj I (Puljkj Pu2jkj ) .
j=l kj =1 V U=1 J
Например, пусть векторные оценки объектов U и U имеют вид:
^ =({( blue, 0.4), (g reen, 0.6) j, {urban j),
£2 = ({(blue, 0.3), (green,0.4), (red, 0.3)j, {urban, ruralj),
^ =({bluej,{(urban,0.4),(rural,0.6)j) .
Результаты преобразования данных в нужный формат представлены в следующей табл.
wu Y1 Y2 Pu
blue green red urban rural
*1 0.4 0.6 0 1 0 2
^2 0.3 0.4 0.3 0.5 0.5 2
^3 1 0 0 0.4 0.6 2
Pjk 1.7 1 0.3 1.9 1.1 6
В соответствии с формулой квадрат расстояния между векторными оценками вычисляется следующим образом
(0.4 - 0.3)2 (0.6 - 0.4)2 + (0.0 - 0.3)2
1.7
(1.0-0.5)^ (0.0-0.5)2
1.0
= 0.352.
0.3
1.9 1.1
Аналогично можно вычислить расстояния ё2 (\2!,\¥3) = 0.544, ё2 (\22,\у3) = 0.381. Матрица расстояний будет иметь вид ( 0 0.593 0.738^
0.593 0 0.617
у0.738 0.617 0 ,
и, как видно, является матрицей Робинсона.
Рассмотрим различные меры несходства для различных типов данных.
Мера несходства Gowda-Diday для многозначных наблюдений ц и и 2 определяется в виде [2,3]
Р ,
О (и1. и2 ) = Е(О (и1> и2 ) + D2J (и1. и2 )) ,
.1=1
где для каждой компоненты J = 1, р имеем Ои( и„и2 ) = ( ^ ^,
и„и2 ) = (к1+ к2 “ %, к =|^^(^( и1 )ф5( и,)),
к*=|5(и1 )®£(и2)| .
Мера несходства Ichino-Yaguchi для двух многозначных наблюдений и и и определяется в виде [1]
фj (и1 ,и2)=к - к*+у (2к! - к - к2),
где у е I0,05] - специальная константа.
Если данные являются интервальнозначными, то подход к построению функции расстояния такой же, как и в случае многозначных данных.
Пусть наблюдения представлены интервалами в виде = ([ ач ,ач ] ^ = 1,р), где
и = 1,т.
Мера несходства Gowda-Diday между интервальнозначными наблюдениями и и и определяется в виде [2,3]
р
О (и1,и2 ) = Е О ( и1,и2 ) ,
J=1
где
Dj (U1. u2 ) = Dj1 (ui. u2 ) + Dj2 (U1. u2 ) + Dj3 (ui. u2 ) ,
причем
Dj1 (ui,u2 ) =
au1j - âu1j - au2j - âu2j
где
kj = |max {au1j, au2j} - min {a u1 j, a u2j I ;
Dj2 (u1,u2 ) = где
au1j - au1j + au2j - au2j -
j
max {â.1 j, â.2j} - ™n {a„1j,a„2j|,
причем если интервалы не пересекаются, то
kj =
Ij = 0,
Dj3 (u1,u2 ) =
_ |au1j au1j|
fri'
где |т, | = тах {а,в}-тт {а^}.
Обобщенное взвешенное расстояние Мин-ковского порядка q для интервально-значных
наблюдений и и и определяется в виде
(и1,и2 )= Е^^(и1,и2 )]4 '] ,
V j=1 У
где ф(и,^) - расстояние Ichino-Yaguchi и
V* - весовые коэффициенты.
При q = 1 получим расстояние вида
р
ё (и1,и2 ) = Е CJVjФJ (и1,и2 ) ,
J=1
Р
где с > 0 и ^ cj = 1.
J=1
При q = 2 получим нормализованное Евклидово расстояние для интервальнозначных данных и и и
d ( U1,U2 )= 12 vj[J u1,u2 )]2
V p J=1
* 1
где V: = I----------1
J Y
вес соответствующей компо-
ненты.
Расстояние Хаусдорфа по переменной у
между интервальнозначными наблюдениями определяется в виде
auj - au2j
\j- au2j
} •
Матрица расстояний Евклида-Хаусдорфа для нескольких интервальнозначных наблюдений определяется в виде О = |ё(и;,ик)} ,
где
ё (и.,ик )=^]с [фj( и.,ик я2 у.
V j=1 У
Можно рассматривать нормализованную матрицу расстояний Евклида-Хаусдорфа
d ( ui,uk ) =
( 1- / \ 2 ^
p v ( ui,uk )
j=1 Hj
V L J _ У
где
1 m m -
H = ¿22^-)] •
Заключение
Таким образом, для большинства типов данных существуют меры несходства, позволяющие построить функцию расстояния для векторных оценок объектов заданного множества, а следовательно, для классификации таких объектов можно использовать существующие алгоритмы, основанные на определении количественной оценки их «близости».
Литература
1. M. Berthold, D.J. Hand Intelligent Data Analyses, An Introduction, 2000, Springer-Verlag.
2. Bin W., S. Zhongzhi A clustering algorithm based on intelligence. Info-Tech and Info-Net, 2001 Proceedings. ICII 2001, pp. 58-66
3. Billard L., Diday E. Symbolic Data-Analysis: Conceptual Statistics and Data Mining, 2006, John Wiley and Sons.
Воронежский государственный университет
ABOUT SUBMISSION OF INFORMATION IN PROBLEMS OF CLASSIFICATION
T.M. Ledeneva, Nguyen Ngok Hui
In article the main types of data for a problem of classification and functions of distance corresponding to them are considered
Key words: types of data, dissimilarity measure, distance function