О конструировании признакового пространства для поиска логических закономерностей в задачах распознавания образов

Игнатьев Николай Александрович

Вычислительные технологии

Том 17, № 4, 2012

О конструировании признакового пространства для поиска логических закономерностей в задачах распознавания образов

Н. А. Игнатьев Национальный университет Узбекистана, Ташкент, e-mail n_ignatev@rambler.ru

Рассматривается отображение представления объектов классов в разнотипном признаковом пространстве на числовые шкалы. Результаты отображения используются для поиска логических закономерностей в данных.

Ключевые слова: искусственный интеллект, обобщённые оценки, визуализация данных, логические закономерности, интеллектуальный анализ данных.

Введение

Поиск закономерностей в базах данных — одно из важнейших направлений интеллектуального анализа данных. Решение проблемы комбинаторной сложности такого поиска в логических методах обнаружения закономерностей в ранних работах сводилось к проблеме выбора вариантов за приемлемое время. Используемые для этих целей алгоритмы ограниченного перебора производили вычисление частоты комбинаций логических событий в подгруппах данных. Полезность той или иной комбинации определялась на основании анализа этих частот [1]. Рассматривались и альтернативные методы, позволяющие практически отказаться от перебора вариантов при поиске закономерностей.

Причиной отказа от перебора вариантов в [2] было утверждение о том, что в каждой точке (описании объекта) признакового пространства существует своя закономерность. В окрестности объекта конструировалось собственное пространство признаков и определялась индивидуальная мера его сходства с другими объектами. При конструировании использовался геометрический подход, основным видом операций которого являлась операция отображения описаний объектов на числовую шкалу. Для обнаружения логических закономерностей применялись средства линейной алгебры и интерактивной графики. При исследовании структуры множества логических закономерностей на основе геометрических представлений использовались методы визуализации данных.

Понижение размерности признакового пространства методами главных компонент и факторного анализа рассматривалось в [3]. Выбор тех или иных критериев для обоснования используемых методов визуализации многомерных данных основывался на эвристических соображениях. Результаты визуализации в основном применялись для разведочного анализа данных.

В настоящей работе новое признаковое пространство объектов предлагается строить с использованием методов вычисления обобщённых оценок [4]. Обобщённая оценка объекта представляет собой интегрированный количественный показатель по значениям определяемого множества его признаков. Результаты отображения обобщённых оценок

в R1 используются для построения if-then правил с помощью логических закономерностей в форме полуплоскостей. При отображении в R2 по визуальному представлению объектов можно проводить фильтрацию обучающей выборки. Новое (двумерное) признаковое пространство доступно для поиска всех известных форм логических закономерностей.

Существенное отличие предлагаемого метода визуализации от ранее известных [2, 3] заключается в следующем:

— на две числовые шкалы отображаются объекты с описанием в разнотипном признаковом пространстве;

— процесс отображения в новое (двумерное) признаковое пространство реализуется через вычисление обобщённых оценок.

1. Вычисление обобщённых оценок объектов

Рассматривается задача распознавания в стандартной постановке. Считается, что задано множество E0 = {S1,..., Sm} объектов, разделённое на два непересекающихся подмножества (класса) K1, K2. Описание объектов производится с помощью n разнотипных признаков, £ из которых измеряются в интервальных шкалах, (n — £) — в номинальной.

Отображение объектов E0 на числовую шкалу производится функционалом F(S, П), где П — множество параметров, S Е E0. Требуется определить значения параметров П, при которых

min F(S, П) — max F(S, П) —> max.

seK- seK

Обозначим через I, J множество номеров соответственно количественных и номинальных (качественных) признаков X = {x1, ...,xn} в описании допустимых объектов, |I I + IJI = n. Определим веса количественных признаков с учётом разделения объектов на классы K1 и K2.

Упорядоченное множество значений признака Xj, j Е I, разделим на два интервала [c1, c2], (c2, c3], каждый из которых рассматривается как градация номинального признака. Критерий для определения границы c2 основывается на проверке гипотезы (утверждения) о том, что каждый из двух интервалов содержит значения количественного признака объектов только одного класса.

Пусть и1,«2 — количество значений признака Xj, j Е I, класса Ki, i = 1, 2, соответственно в интервалах [c1,c2], (c2,c3], |Ki| > 1, p — порядковый номер элемента упорядоченной по возрастанию последовательности r j1,.... r jp,..., rjm значений Xj из E0, определяющий границы интервалов как c1 = rj-1.

C2 = j, сз = r jm. Критерий

XX(u1 — 1) + u2(u2 — 1)

i=1

V

£ |Ki|(|Ki| — 1)

i=1

/

££ ud (iK3_ii — ud-i)

d=1 i=1

2|K1||K2|

V

max

(1)

/

позволяет вычислять оптимальное значение границы между интервалами [с1, с2], (с2, с3] и использовать её для определения градаций количественного признака в номинальной шкале измерений. Выражение в левых скобках (1) представляет внутриклассовое сходство, в правых — межклассовое различие.

Пусть /Шг — оптимальное значение критерия (1) по г-му (г Е I) признаку (0 < < 1), с1, с2, с3 — соответствующие этому значению концы интервалов разбиения [с1, 4], (с2, Сз]. Для вычисления обобщённой оценки произвольного допустимого объекта Б = (х1, ...,хп), все признаки которого количественные, используется функционал

R(S) = ^ Wjtj(x - c2)/(c3 - ci),

j=1

где значения элементов вектора T = (ti, ...,tn), tj G {-1,1}, определяются из условия

min R(SP) — max R(SP) —max. (2)

speKi speK2

Поиск решения многоэкстремальной задачи по (2) производится алгоритмом стохастической оптимизации. Пошаговая реализация этого алгоритма следующая.

1. Выбор числа итераций k,

n

L2j < k < n, iter = 0, Tmax = (1,..., 1), Zmax = -n.

2. iter = iter + 1. П = {1,..., n}. Выбор начального значения вектора T = (t1,..., tn) для новой (iter-й по счёту) итерации. Вычисление значений R(Sj) (Sj = (xji,... , Xjn)) V Sj G E0 и

Z = min R(S,-) — max R(S,-).

Sj eKi Sj eK

3. V i G П вычисление значения (при условии замены tj на - tj)

Zj = min R*(Sj) - max R*(S7-),

Sj eKi Sj eK

где _

R*(Sj) = R(Sj) - 2tjWj(xjj - c2)/(c3 - cl), j = 1,m.

4. Zp = max Zj. Если Zp > Z, то Z = Zp, П = П\р,

¿en

R(Sj) = R(Sj) - 2tpWp(xjp - cp)/(c33 - c?), j = 1, m, tp = -tp,

и переход на шаг 3.

5. Если Z > Zmax то Zmax = Z, Tmax = T.

6. Если iter < k, то 2.

7. Вывод Zmax, Tmax.

Шаги алгоритма 2 — 4 представляют вычисление локальных максимумов при разных начальных значениях элементов вектора T. Максимальное значение Zmax среди локальных максимумов и соответствующие ему значения элементов вектора Tmax (шаг 5) выбираются в качестве решения задачи по условию (2).

Для вычисления обобщённых оценок объектов с описанием в разнотипном признаковом пространстве дополнительно требуется определять значения весов номинальных признаков и вкладов их градаций.

Введем обозначения: p — число градаций признака r G J, gdr — число значений t-й (1 < t < p) градации r-го признака в описании объектов класса Kd, ldr — число градаций r-го признака в Kd, d = 1, 2. Различие по r-му признаку между классами K1 и K2 определяется как величина

p

g lr g2r

Ar=1 - w. (3)

Степень однородности (мера внутриклассового сходства) вт значений градаций г-го признака по классам К, К2 вычисляется по формулам

Д

вт

1т

4=1

(|К(| - /(т + 1)(|К(| - 1(т),р> 2

|К(|(|К1|- 1),р < 2,

(^1т -1) + ^2т (^2т -1)

Д1т + Д2т

0,Д1т + Д2т = 0.

-, Д1т + Д2т > 0,

(4)

С помощью (3),(4) вес номинального признака г Е 3 определяется как

^т — ^т вт.

Очевидно, что множество чисел, идентифицирующих р градаций номинального признака, всегда можно взаимно однозначно отобразить в множество {1, ...,р}. С учётом такого отображения для объекта S — (х1,..., хп) вклад признака хг — ], i Е 3, Е {1, ...,р}, в обобщённую оценку определяется величиной

^С? )

а

г]

а

г]

К |К2|

(5)

12

где а], а2] — количество значений ]-й градации i-го признака соответственно в классах К1 и К2, уг — вес ^го признака. При наличии показателей, измеряемых в номинальной шкале, обобщённая оценка для каждого объекта 50 Е Е0, 50 — (хо1,..., х0П) будет вычисляться как

Д(5а) — £ ^¿¿г(хаг - с£)/(с3 - ^) + £ ^г(х0г). гет %ез

(6)

1

2

V

2. Представление объектов в новом (двумерном) признаковом пространстве

Целью конструирования нового признакового пространства является визуализация объектов, описываемых разнотипными признаками. В работе [2] максимальное сохранение структурных особенностей размещения объектов при отображении в двумерное признаковое пространство основывалось на применении методов линейной алгебры. В настоящей работе для аналогичных целей используются функционалы, значения параметров которых вычисляются по определяемым локальным областям признакового пространства.

Выбор двух числовых шкал для отображения на них представления объектов в разнотипном признаковом пространстве функционалами Д1, Я2 производится следующим образом. Для вычисления параметров функционалов Д1, Я2 исходное признаковое пространство делится на три локальные области Ь1,Ь2,Ь3, что предусматривает как пропорциональное представительство в них объектов из К1, К2, так и учёт структуры размещения объектов в выборке.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

По обобщённым оценкам (6) строится упорядоченная по убыванию последовательность 5г1, ...,5гт объектов Е0. В область включаются объекты последовательности

с Бг1 по Бг[к /2], в Ь3 с Бгт_[к/2] по Бгт. Объекты, не вошедшие в области Ь1, Ь3, попадают в область Ь2.

Для первой числовой шкалы множество параметров {иг}, {с2}, г Е I, и вкладов градаций )},г Е 3, по (1)-(5) функционала Д1 вычисляется в и Ь3. Аналогичные вычисления для второй числовой шкалы (по функционалу Я2) производятся в Ь2. В целях сохранения масштаба измерений значения {с1}{с3}, г Е I, остаются неизменными при отображении объектов на числовые шкалы всеми функционалами типа (6).

Проверка равносильности числовых шкал для отображения на них объектов Е0 функционалами Д1 и Я2 производится с помощью критерия (1). Под равносильностью понимается сохранение масштаба измерений и стабильности структуры взаимного размещения объектов в новом признаковом пространстве. Выражением (показателем) равносильности служит максимальная близость значений критерия (1) по обобщённым оценкам объектов Е0, полученным по Д1 и Я2.

Новое (двумерное) признаковое пространство является результатом предобработки данных, используя которые можно вычислять обобщённые оценки как описанным выше методом, так и методом с применением интервалов доминирования количественных признаков [4]. Привлекательность последнего метода заключается в гарантированной однозначности значений полученных оценок на Е0. Эти оценки могут быть использованы в качестве значения целевого признака при построении функции регрессии в новом признаковом пространстве.

Рассмотрим выбор интервалов количественного признака в двумерном пространстве, в границах которых доминируют значения из класса К1 или К2. Для этого упорядочим значения с-го признака, с = 1, 2, объектов Е0 по возрастанию

ГС1, ГС2 , ..., гст . (7)

Согласно определяемому ниже критерия последовательность (7) разбивается на тс (тс > 2) непересекающихся интервалов [гСи, г^]г, 1 < и, и < V < т, г = 1,тс.

Пусть V), ^2(и, V) — количество представителей соответственно классов К1,К2 в интервале [гСи, г^]г. Для рекурсивной процедуры выбора значений гСи, тСи используется критерий

К К

^ тах. (8)

Границы первого интервала [гСи, гСщ ]1 на последовательности (7) вычисляются по максимуму критерия (8). Аналогичным образом определяются границы для [гСи, гСщ]р, р > 1, на значениях (7), не вошедших в [гСи, гСщ]1,..., [гСи, гСщ]р-1. Критерием останова процедуры служит покрытие всех значений (7) непересекающимися интервалами.

Обозначим через пн = ——, П2г = —Г77~\— результаты оптимального разбиения

|К1| |К2|

по (8) для каждого интервала [гСи, гСщ]г, г = 1,тс. Значение функции принадлежности с-го признака к К1 по интервалу [гСи, г^ ]г определим как

г Пи

/<

сг .

П1г + П2г

Обобщённая оценка объекта S Е E0, S = (61, b2) вычисляется по формуле

Cv J И Xjc Е [ГСи , J ,

fci | bc x jc |

b^Xjc E [rcu ,rcvJi

Q(S) = щSE

rcu = rc

1 О I Г

cU cv

0 rcu = rcv

где

Sj (xj 1, Xj2 ), Z

Eo П K2, S E Ki Eo П Ki, S E K2.

(9)

3. Вычислительный эксперимент

Для вычислительного эксперимента использовались данные из [5]. Множество E0 представлялось как обучающая выборка из 66 объектов, содержащая значения показателей больных с различными степенями заболевания ишемической болезнью сердца (класс K1) и практически здоровых людей (класс K2). Объекты описывались 24 признаками, 14 из которых измерялись в количественных шкалах, 10 в номинальной.

Отображение выборки на числовую шкалу производилось функционалом R(S), параметры которого вычислялись на E0. Логическая закономерность в форме полуплоскости для первого класса определялась предикатом (S, w) = [R(S) > r2], r2 = max R(S) =

SeK

0.4002, для второго - (S,w) = [R(S) < r1 J, r1 = min R(S) = 0.1016.

SEK 1

Отрицательная величина r1 — r2 = -0.3006 по критерию (2) указывает на то, что точного разделения объектов классов на числовой шкале не произошло. Число ошибок для первого класса по (S, w) было 18 из общего числа объектов 39, для второго класса по <^2(S, w) — соответственно 7 из 27.

Из значений обобщённых оценок 66 объектов по R(S) была построена упорядоченная в порядке убывания последовательность. В локальную область L1 вошли объекты этой последовательности с 1 по 19, в L3 — соответственно с 53 по 66. Все оставшиеся объекты E0 вошли в область L2.

Отображение объектов на плоскость; х — объекты класса К1, ■ — объекты класс К2

Параметры Ri(S) вычислялись по Li U L3, R2(S) по L2. Отображения объектов E0 на две числовые шкалы по оценкам R1 (S) и R2(S) имели значения критерия (1) соответственно 0.461 и 0.458. Результаты отображения показаны на рисунке.

Обобщённые оценки по (9) в двумерном пространстве имели следующие характеристики: min Q(S) - max Q(S) = 0.0191 при max Q(S) = 1.2837 и min Q(S) = 0.2414. Вы-seKi seK2 seKi sGK2

числение оценок по (6) в новом признаковом пространстве не дало хороших результатов. Так, максимальная разность по критерию (2) составила min R(S) — max R(S) = -0.2026.

SGKi SGK

В рамках исследуемой задачи оценки по (9) могут служить значениями табличной функции для построения регрессии в новом признаковом пространстве.

Результаты конструирования признакового пространства описанными в данном исследовании методами востребованы в задачах интеллектуального анализа данных для построения моделей в слабо формализованных предметных областях. В новом признаковом пространстве могут быть использованы методы выделения различных форм логических закономерностей, проводится кластерный и регрессионный анализ данных.

Список литературы

[1] Лвов Г.С. Методы обработки разнотипных экспериментальных данных. Новосибирск, 1981.

[2] Дюк В.А. Формирование знаний в системах искусственного интеллекта: Геометрический подход // Вестник академии техн. творчества. 1996. №2. С. 46-67.

[3] Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. М.: Финансы и статистика, 1989.

[4] Игнатьев Н.А. Вычисление обобщённых показателей и интеллектуальный анализ данных // Автоматика и телемеханика. 2011. №5. С. 183-190.

[5] ЮлдАшов Р.У. Интеллектуальный анализ данных в нейроэкспертных системах и задачи прогнозирования: Дис. ... канд. тех. наук. Ташкент: НУУз, 2011. 107 с.

Поступила в 'редакцию 30 марта 2012 г., с доработки — 22 июня 2012 г.

Аннотация научной статьи по математике, автор научной работы — Игнатьев Николай Александрович

Похожие темы научных работ по математике , автор научной работы — Игнатьев Николай Александрович

On construction of a feature space for finding logical patterns in pattern recognition problems

Текст научной работы на тему «О конструировании признакового пространства для поиска логических закономерностей в задачах распознавания образов»