Вычисление обобщенных оценок и иерархическая группировка признаков

Игнатьев Николай Александрович

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2015 Управление, вычислительная техника и информатика № 4 (33)

УДК 519.95

DOI: 10.17223/19988605/33/4

Н.А. Игнатьев

ВЫЧИСЛЕНИЕ ОБОБЩЕННЫХ ОЦЕНОК И ИЕРАРХИЧЕСКАЯ ГРУППИРОВКА ПРИЗНАКОВ

Рассматривается процесс формирования нового признакового пространства, размерность которого меньше исходного. Предлагается последовательный отбор непересекающихся подмножеств разнотипных признаков в описании объектов и нелинейное отображения их на числовую ось. При отборе используется правило иерархической группировки для попарного объединения признаков. Решение принимается по значениям степени размытости результатов отображения объектов классов на числовой оси.

Ключевые слова: обобщённые оценки; иерархическая группировка; логические закономерности; отступ.

Обобщённые оценки - это агрегированные (комбинированные) показатели, которые в [1] использовались для отображения отношений между объектами двух классов в разнотипном признаковом пространстве на числовую ось. Было разработано два метода вычисления оценок: стохастический и детерминистический. Критерием для выбора параметров алгоритма стохастического метода служила максимальная разность (отступ) между линейными проекциями двух объектов из разных классов. Из минимального значения на числовой оси одного класса вычиталось максимальное значение другого класса. Одним из применений метода было отображение описаний (визуализация) объектов [2] на плоскость.

В алгоритме детерминистического метода применялось разбиение на интервалы доминирования значений количественных признаков объектов одного из двух классов. При вычислении обобщённой оценки объекта использовались значения функций принадлежности к интервалам доминирования для количественных признаков и частоты встречаемости градаций для номинальных признаков.

Переход к однотипным шкалам измерений и поэтапное сокращение размерности признакового пространства посредством вычисления обобщённых оценок объектов описан в [3]. На первом этапе обобщённая оценка объекта по номинальным признакам интерпретировалась как значение нового (латентного) количественного признака. На втором этапе вычисление оценки производилось по расширенному множеству количественных признаков.

Результаты вычислительного эксперимента в [3] по выборке данных GERMAN из [4] показали, что обобщающая способность решающих правил на основе обобщённых оценок выше, чем у известного метода LDA [5].

Потребность во введении латентных признаков возникает при поиске спрямляющего пространства, в котором объекты из разных классов были бы линейно разделимы. В методе опорных векторов SVM [6] нелинейность разделяющей поверхности достигается за счёт использования ядерных функций, поиск параметров дискриминантных функций производится путём максимизации отступа между объектами двух классов в новом (спрямляющем) признаковом пространстве.

В данном исследовании предлагается правило для агломеративной иерархической группировки разнотипных признаков с целью нелинейного отображения их значений в описании объектов на числовую ось. Результаты нелинейного отображения рассматриваются как значения обобщённых оценок (новых признаков) в описании объектов. Предложены критерии, на основе которых определяются число обобщённых оценок (непересекающихся групп), количество исходных признаков, входящих в группу, и их состав.

Решающие правила по значениям каждого нового признака в описании объектов образуют совокупность базовых алгоритмов. Базовый алгоритм может рассматриваться как самостоятельный классификатор либо использоваться в композиции с другими алгоритмами.

31

Вычисление обобщенных оценок с помощью иерархической агломеративной группировки целесообразно по нескольким причинам:

- обобщённые оценки образуют новое признаковое пространство, размеры которого меньше исходного;

- решается проблема использования алгоритмов классификации, реализация которых была неэффективна из-за большой размерности признакового пространства либо возможна при одном типе шкал измерений;

- в процессе группировки происходит последовательный отбор информативных наборов признаков;

- нелинейное отображение описаний объектов на числовую ось по определяемым комбинациям признаков является средством обнаружения устойчивых логических закономерностей (новых знаний) в хранилищах данных.

1. Обобщенные оценки объектов на базе иерархической группировки признаков

Рассматривается множество из T допустимых объектов, разбитое на 2 непересекающихся подмножества (класса). Представители классов K\, К2 заданы через выборку (подмножество T) объектов Е0 = {Si,...,^}, Е0 = KjUK2. Объекты выборки описываются с помощью n разнотипных признаков X(n) = (xb...,xn), множество допустимых значений £ из которых измеряются в интервальных шкалах, n - £ - в номинальной.

На Е0 задано правило последовательного разбиения набора X(n) на непересекающиеся подмножества X1(^1),., XT(kT), т > 1, k1+.+kT < n. Требуется для каждого Xi(ki) определить алгоритм а, (распознающий оператор в терминологии алгебраического подхода к распознавания образов Ю.И. Журавлёва [7]) для отображения значений признаков изXi(ki) в описании объекта Sj е Е0, j = 1,...,m, в значение (обобщённую оценку) на числовой оси.

Обозначим множество номеров количественных и номинальных признаков соответственно как I и J. Процесс последовательного вычисления значений обобщённых оценок (новых признаков) реализуется алгоритмом иерархической агломеративной группировки по описываемому ниже правилу. Для идентификации признаков в описании объектов на p-м шаге 0 < p < n иерархической группировки будем использовать {xf }.^IU/).

В процессе группировки и формирования обобщённых оценок состав элементов и мощность множеств I и /, |I| +|J| < n будут изменятся. В зависимости от шкал измерений признаков, объединяемых в группы, используются различные способы вычисления их параметров для отображения на числовую ось. Для количественных признаков это производится следующим образом.

Упорядоченное множество значений признака xf, j е I, p > 0, объектов из Е0 разделим на два интервала [cf, cf ],(c2p, c3f ], каждый из которых рассматривается как градация номинального признака. Критерий для определения границы cf основывается на проверке гипотезы (утверждения) о том, что каждый из двух интервалов содержит значения количественного признака объектов только одного класса.

Пусть u],и2 - количество значений признака xjf , j е I, класса К, i = 1,2, соответственно в интервалах [c1p, cf ],(cfp, c3p ]; |Ki| > 1, v - порядковый номер элемента упорядоченной по возрастанию после-

довательности r.,..., r. ,..., r. значений xf из Е0, определяющий границы интервалов как c, = r

.11 Jv Jm ' 1

c2p = rc{p = r. Критерий

2 Jv 3 Jm A A

2

E u1 (1 - 1)+и.2 (ui2 -1

22

i=1

El K. (-1)

V i=1

EEud (| - ud-,)

d=1 i=1

2| КЛ K2

^ max

cf <c{p <cj

(1)

32

позволяет оценивать значение границы между интервалами [cf, cf ],(c2?, c.p ]. Выражение в левых скобках (1) представляет внутриклассовое сходство, в правых - межклассовое различие.

Экстремум критерия (1) используется в качестве веса wp (0 ^wp <1) признака xp . При wp =1

значения признака xp у объектов из классов К1 и К2 не пересекаются между собой.

При включении в группу номинального признака с целью вычисления обобщённой оценки объектов требуется определить значение его веса и вкладов каждой из градаций.

Обозначим через п число градаций признака xp , r sJ, p = 0, gdr - количество значений t-й (1< t < n)

градации r-го признака в описании объектов класса Kd, ldr - число градаций r-го признака в Kd, d = 1,2. Различие по r-му признаку между классами К и К2 определяется как величина

^r = 1

^ g1rg2r

h\ кd ■

(2)

Степень однородности (мера внутриклассового сходства) pr значений градаций r-го признака по классам К1, К2 вычисляется по формулам

Ddr

(I Kd\-L + 1)d Kd\-ldr), п > 2,

|Kd| (-1),п < 2;

Pr

^ S1r (1r 1) + S2r (g(r

t = 1___________________

D1r + D2r

1)

---, D1r + D2r > 0,

(3)

A D1r + D2r = °.

С помощью (2), (3) вес номинального признака с r SJ определяется как

vr = "kr pr.

Очевидно, что множество чисел, идентифицирующих п градаций номинального признака, всегда можно взаимно однозначно отобразить в множество {1,...,п}. С учётом такого отображения для объекта S = (ah...,an) вклад признака a = j, i SJ , j S{1,.,n} в обобщённую оценку определяется величиной

Ъ (j Н

X

а

2 Л

К Kd,

где aj, а2 - количество значений j-й градации i-го признака соответственно в классах К и К2, vi - вес

i-го признака.

Значение обобщённой оценки bp объекта Sr = {aj }иЕ(1Ш), Sr е E°, по паре xp,xp, 0 < p < n,

i, j е( 1 ^ J), i е j, вычисляется как

bP =

rj

К i (api) + К j ( app), U j е J,

К, (aj ) + tjWj (ap - cj )/(p - cjp ), i е J, j е 1, tj е{-1,1},

П ( ( -(-cp) + twj (aP -c2j)/( -cj)) + +(1 -nj)wp (ajaj -cj)( -cj)

^ j е 1, tj,ti, tj е{-1,1},4j е[0,1],

(4)

где wp,wp, wp - веса признаков, определяемые по (1) соответственно по множеству значений призна-

z J V

ков xp, xp и их произведения xpxp, значения tv ,ti,tj е {-1,1}, nj s[0,1] выбираются по экстремуму функ-

ционала

33

ф(ау)

min b*

Sr eKx r

max bP

Sr eE nJ

max bp

Sr eK2 r

min bP

Sr eE0 3

max

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

tj ,tl J3 e{-l,l},ny e[0,1]

(5)

Значение (5) интерпретируется как отступ между объектами классов К1 и K2.

Обозначим через {zp 1 , p > 0, квадратную матрицу размера (n -p)x(n -p), значение элемента

v 3 h, je(l uJ)

zp которой определяется как

|0,i = j,

[значению (1) по { }"=1,i Ф3,

(6)

через Gn, n > 0, - подмножество номеров признаков из X(n). Пошаговая реализация алгоритма итеративной группировки будет такой:

1- й шаг: n = 1, Gn = 0, p = 0, Ac = 0;

2- й шаг: Вычислить значения элементов матрицы {zp } з ^ j) по (6);

3- й шаг: Вычислить An = max zpv. Выделить Q = {(s,t),s,t e I u J\zvst =An and s < t}. Опреде-

u,ve(uJ) vv ' I )

лить пару {ij},i < j, как

{ij}

0, |0|=1,

{s,t}, (s,t )e 0 and

rn(p,s,t)> max <p(p,u,v);

V ' (u,v)en\(,t) v >

4- й шаг: Если Gn = 0, то Gn = {ij}, Margin = ф^у), идти 8;

5- й шаг: Если Gn П {ij} = 0, то идти 7;

6- й шаг: Если An > Ас или An > Ас и Margin < фф^З), то Gn = GnU{ij}, Margin = ф^,/'j), идти 8;

7- й шаг: n = П + 1, Gn = 0. Идти 4;

8- й шаг: p = p+1, IUJ=(IUJ}\max(ij), I = IU min(ij), k = min(ij), Ac = An. Заменить значения признаков в описании объекта S = {ар~1} ( г), r = 1,...,m на

r Г ru )ue(luJ) ’ ’ ’

P

a

apu \u e (I u J)\k,

bp,, u = k;

9-й шаг: Определить значение

z

p

uv

zp1, u e G {k},v e I,

значению (1) по

u = k ,v e I.

Если n -p>1, то идти 3;

10-й шаг: Конец.

Через конечное число рекурсивных обращений к описанному выше алгоритму все исходные признаки сводятся к одной нелинейной оценке. По практическим соображениям ограничение на число обобщённых оценок для конкретных выборок данных может определяться по результатам вычислительного эксперимента либо исходя из дополнительных критериев выбора.

Рассмотрим пример классификатора на базе обобщённых оценок (4). Пусть {a? } p < n, r e I -

множество значений обобщённой оценки (признака), вычисленной по (4), и по критерию (1) эти значения разбиты на интервалы [с1,с2],(с2,с3]. Для решающего правила нужно выбрать порог, равный

w0 =-

с2 + z

(7)

2

где z - ближайшее к с2 значение из интервала (с2,с3]. Анализ результатов использования порога (7) в дискриминантных функциях приводится в [3].

3. Вычислительный эксперимент

В качестве материала для эксперимента была взята выборка данных из [8], описывающая челюсти 30 собак (класс К1) и 12 волков (класс К2) по следующим 6 количественным признакам:

34

x1 - (CBL) основная длина;

x2 - (LUJ) длина верхней челюсти;

x3 - (WID) ширина верхней челюсти;

x4 - (LUC) длина верхнего карнивора;

x5 - (LFM) длина первого верхнего моляра;

x6 - (WFM) ширина первого верхнего моляра.

Порядок синтеза значений обобщённых оценок (латентных признаков) из комбинаций признаков по критерию (1) и отступов между объектами классов по (5) приведён в табл. 1.

Порядок синтеза обобщённых оценок объектов

Т а б л и ц а 1

Комбинация признаков Значение критерия (1) Отступ между классами (5)

X1, x4 1,0000 0,0403

Х1, Х4, X5 1,0000 0,1060

X1, X4, X5, X3 1,0000 0,1233

X1, X4, X5, X3, X2 1,0000 0,1674

X1, X4, X5, X3, X2, X6 1,0000 0,1778

Аналитический вид решающего правила по значениям обобщённой оценки, полученной при синтезе признаков х1 и х4 (табл. 1) с учётом (7), будет выглядеть так:

d(x) = 0,4(-0,0037(x1-221)-0,09538(x4-22,5))+0,0001(x1X4-5130)+0,01971.

Судя по результатам табл. 1, все комбинации исходных признаков попадают в одну группу, попарное объединение признаков в комбинацию удовлетворяет такому свойству, как монотонность по значениям отступа между объектами классов. Теоретическое обоснование выполнения монотонности при синтезе комбинаций признаков на произвольной двухклассовой обучающей выборке требует отдельного рассмотрения. Возможным вариантом решения проблемы монотонности является обнаружение и исключение из выборки шумовых объектов.

Для демонстрации того, что различные признаки в составе обобщённых оценок (4) компенсируют недостатки друг друга, воспользуемся табл. 2 [1]. Таблица содержит значения границ интервалов

[ С, c2 ],(c2, c3 ] и экстремумы критерия (1) для признаков {хг}, i = 1,...,6.

Результаты оптимизации по критерию (1)

Т а б л и ц а 2

Признак i С1 i С2 i С3 wi

Х1 129,000 221,000 255,000 0,378

Х2 64,000 114,000 126,000 0,389

Х3 52,000 76,000 95,000 0,288

Х4 16,700 22,500 26,500 0,897

Х5 11,200 14,700 16,800 0,625

Х6 13,000 18,300 27,000 0,800

Согласно [1] точность классификации по линейным дискриминантным функциям (дискриминанта Фишера в том числе) напрямую зависит от использования признаков х4 и x6, имеющих наибольшие значения весов (табл. 2), равных соответственно 0,897 и 0,800. Доказано, что корректное разделение линейных проекций объектов обучения на классы с единичным значением критерия (1) возможно лишь на наборах {xi, x2, x3, x4, x5, x6} и {xb x2, x4, x5, x6}. Наилучший результат (см. табл. 1) в смысле разделимости по (1) и отступа между классами (5) по различным парам исходных признаков был достигнут при использовании нелинейного отображения значений из {x1, x4} в описании объектов на числовую ось.

С помощью критерия (1) преобразуем количественные признаки в номинальные. Каждой градации номинального признака поставим в соответствие один из непересекающихся интервалов, полученный по (1). В табл. 3 приведены результаты группировки для случая, когда все признаки номинальные,

35

в табл. 4 представлено два подмножества: {xb x2} - количественных и {x3, x4, x5, x6} - номинальных признаков.

Г руппировка по номинальным признакам

Т а б л и ц а 3

№ группы Состав группы Значение критерия (1)

1 x2, x4, x5, x6 0,8965

2 xpT3 0,3781

Группировка по разнотипным признакам

Т а б л и ц а 4

№ группы Состав группы Значение критерия (1)

1 xb x2, x4, x5 1,0000

2 x3,x6 0,2884

Анализ результатов из табл. 1, 2 и 3 по критерию (1) показывает, что преобразование значений признаков из количественных (сильных) шкал измерений в значения номинальной (слабой) шкалы приводят к снижению точности решающих правил с порогом (7) на базе обобщённых оценок.

Для проверки процедурой кросс-валидации обобщающей способности решающих правил с порогом (7) на базе нелинейных обобщённых оценок с максимальным отступом между классами использовалось разделение выборки на обучение и контроль в соотношении 9:1. Результаты проверки следующие: точность на обучении - 100%, на контроле - 98%.

Заключение

Процесс вычисления обобщённых оценок сводится к формированию нового признакового пространства для описания допустимых объектов в задачах распознавания образов. Практическое применение этих оценок позволяет:

- находить устойчивые логические закономерности в базах (хранилищах) данных, не прибегая к перебору всевозможных вариантов;

- использовать их для реализации дискриминантных функций, решающих списков, решающих деревьев, алгоритмов вычисления оценок.

Теоретический и практический интерес представляет оценка границ допустимых значений латентных признаков на основе обобщённых оценок.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ЛИТЕРАТУРА

1. Игнатьев Н.А. Вычисление обобщённых показателей и интеллектуальный анализ данных // Автоматика и телемеханика.

2011. № 5. С. 183-190.

2. Игнатьев Н.А. О конструировании признакового пространства для поиска логических закономерностей в задачах распозна-

вания образов // Вычислительные технологии. 2012. Т. 17, № 4. С. 56-62.

3. Игнатьев Н.А., Нуржонов Ш.Ю. Выбор параметров регуляризации для повышения обобщающей способности дискрими-

нантных функций // Узбекистан Республикаси Курол Кучлари академиясининг хабарлари. 2014. № 1 (14). C. 81-87.

4. Asuncion A., Newman D.J. UCI Machine Learning Repository // University of California, Irvine. 2007. URL: www.ics.uci.edu/mlearn/MLRepository.html

5. URL: http://www.mathworks.com/help/stats/discriminant-analysis.html

6. ПотаповА.С. Технологии искусственного интеллекта. СПб. : СПбГУ ИТМО, 2010. 218 с.

7. Журавлёв Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики.

М. : Наука, 1978. Т. 33. С. 5-68.

8. ЖамбюМ. Иерархический кластер-анализ и соответствия. М. : Финансы и статистика, 1988. 342 с.

Игнатьев Николай Александрович, д-р физ.-мат. наук, профессор. E-mail: ignatev@rambler.ru Национальный университет Узбекистана

Поступила в редакцию 22 сентября 2015 г.

36

Ignat'ev Nikolai A. (National University of Uzbekistan. Republic of Uzbekistan). Computation generalized estimates of objects and hierarchical clustering of features Keywords: generalized estimates; hierarchical clustering; logical regularity; margin.

DOI: 10.17223/19988605/33/4

We consider the set acceptable objects in T, broken into two disjoint subsets (classes). Representatives of the classes Kb K2 are given by the sample objects E0 = {Sb...,Sm}, E0 = Kx UK2 . Objects of the sample are described by n heterogeneous features

X(n) = (xi,...,xn) the set of acceptable values of E, which measurements are on the interval scale and n - E, are on the nominal.

Given the rule is a sequence of partitions set X(n) into disjoint subsets X1(k1),.,XT(kl:), x>1, ki+...+kx<n at E0. Required for each Xi(ki) algorithm to determine Ai nonlinear display feature values Xi(ki) of the object in the descriptionS, e E0 , j=1,...,m, a value (generalized estimation) on the real axis.

For the identification generalized estimates (new features) in object descriptions on p-th step 0<p<n hierarchical clustering is used {xp }iAIW), where I and J, respectively, the set of indices of nominal and quantitative features. Making a decision to merge pairs of features is based on the interval analysis of the results of non-linear displaying them on the real axis and the margin between classes.

The ordered set feature values of objects in E0 is divided into two intervals [ cj, c2j ],(c2j, cj ]. The criterion for determining the

borders c2p based on hypothesis testing (assertion) that each of the two intervals contains the values of a quantitative feature of only one class objects.

Let u],u2 - the number of characteristic values xp, j ^I class K, i = 1,2 respectively, in the intervals [ c(p, c3P ],(c3P, cf ], jK,j > 1, v - the ordinal number of the element ordered ascending sequence of xp values of E0, determining interval limits as

r, ,..., r, ,..., r, . Criterion

Zu1 (u1 -1)+u<2 (ui ~1 i=1 2 2 / \ ZZu (I - ul) d =1 i=1

Zl Ki|(Ki| -1) V i=1 / 2 Kj K2 V )

^ max

cf<cf <cf

(1)

allows to assess the meaning borders between interval [ c/p, c2 ],(c2, cpP ]. The extremum of the criterion (1) is used as a weight wj

(0 < wp < 1) of feature xp and for a decision by the rule of hierarchical clustering.

i

If Vxt ^x(n)\ U Xd (kd)

d=1

U Xd (kd)

< n nonlinear mapping on the real axis of objects E0 on Xi (ki) U{xt} value (1)

less than or equal to the analogical value (with a less margin between classes) on Xt (kt) U{xt} that is formed new group for the synthesis of the generalized estimation.

Calculation of generalized estimates using hierarchical clustering advisable for several reasons:

- generalized estimates form a new feature space whose dimensions are smaller than the original;

- solves the problem of the use of classification algorithms, the implementation of which was inefficient due to the large dimension of feature space, is possible at any single type measurement scales;

- in the process of clustering occurs consistent selection of informative feature sets;

- nonlinear mapping object description to real axis defined by a combination of features is a means of detection stable patterns of logic (new knowledge) in data warehouses.

REFERENCES

1. Ignat'ev, N.A. (2011) Computing generalized parameters and data mining. Automation and Remote Control. 72 (5). pp. 183-190.

DOI: 10.1134/S0005117911050146

2. Ignat'ev, N.A. (2012) On the construction of the feature space for finding logical regularities in pattern recognition problems. Vychis-

litel'nye tekhnologii - Computational Technologies. 17(4). pp. 56-62. (In Russian).

3. Ignat'ev, N.A. & Nurzhonov, Sh.Yu. (2014) Vybor parametrov regulyarizatsii dlya povysheniya obobshchayushchey sposobnosti

diskriminantnykh funktsiy [The choice of the regularization parameters for improving the generalization ability of the discriminant functions]. Uzbekiston Respublikasi Kurol Kuchlari akademiyasining khabarlari - Bulletin of the Academy of the Armed Forces of the Republic of Uzbekistan. 1(14). pp. 81-87.

4. Asuncion, A. & Newman, D.J. (2007) UCIMachine Learning Repository. University of California, Irvine. [Online] Available from:

www.ics.uci.edu/mlearn/MLRepository.html

5. Mathworks. (n.d.) Discriminant Analysis. [Online] Available from: http://www.mathworks.com/help/stats/discriminant-analysis.html

6. Potapov, A.S. (2010) Tekhnologii iskusstvennogo intellekta [Artificial intelligence technology]. St. Petersburg: SPbGU ITMO.

7. Zhuravlev, Yu.I. (1978) Ob algebraicheskom podkhode k resheniyu zadach raspoznavaniya ili klassifikatsii [On an algebraic ap-

proach to solving the problems of pattern recognition and classification]. In: Girevich., I.B. (ed.) Problemy kibernetiki [Problems of Cybernetics]. Vol. 33. Moscow: Nauka. pp. 5-68.

8. Jambu, M. (1988) Ierarkhicheskiy klaster-analiz i sootvetstviya [Hierarchical cluster analysis and compliance]. Moscow: Finansy i

statistika.

37

Вычисление обобщенных оценок и иерархическая группировка признаков Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Игнатьев Николай Александрович

Похожие темы научных работ по математике , автор научной работы — Игнатьев Николай Александрович

Computation generalized estimates of objects and hierarchical clustering of features

Текст научной работы на тему «Вычисление обобщенных оценок и иерархическая группировка признаков»