Научная статья на тему 'Устойчивость и обобщенные оценки классифицированных объектов в разнотипном признаковом пространстве'

Устойчивость и обобщенные оценки классифицированных объектов в разнотипном признаковом пространстве Текст научной статьи по специальности «Математика»

CC BY
178
54
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / ОБОБЩЕННЫЕ ОЦЕНКИ / УСТОЙЧИВОСТЬ / ИНТЕРВАЛЫ ДОМИНИРОВАНИЯ / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / ARTIFICIAL INTELLIGENCE / GENERALIZED RATE / STABILITY / INTERVALS OF DOMINANCES / DATA MINING

Аннотация научной статьи по математике, автор научной работы — Игнатьев Николай Александрович, Мадрахимов Шавкат Файзуллаевич

Рассматривается вычисление структурных характеристик классифицированных объектов в разнотипном признаковом пространстве. Для вычисления используются методы интеллектуального анализа данных

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Stability and generalized estimates of classified objects in heterogeneous features space

A calculation of structured properties for classified objects in heterogeneous features space is considered. Data mining methods were used for the calculations.

Текст научной работы на тему «Устойчивость и обобщенные оценки классифицированных объектов в разнотипном признаковом пространстве»

Вычислительные технологии

Том 16, № 2, 2011

Устойчивость и обобщенные оценки классифицированных объектов в разнотипном признаковом пространстве

H.A. Игнатьев, Ш.Ф. Мадрахимов Национальный университет Узбекистана, Ташкент e-mail: n_ignatev@rambler.ru, mshavkat@yandex.ru

Рассматривается вычисление структурных характеристик классифицированных объектов в разнотипном признаковом пространстве. Для вычисления используются методы интеллектуального анализа данных.

Ключевые слова: искусственный интеллект, обобщенные оценки, устойчивость, интервалы доминирования, интеллектуальный анализ данных.

Введение

Разнотипность признаков в описании объектов не позволяет применять в качестве инструментария для исследования методы статистического разведочного анализа данных. Для решения этой проблемы предлагается использовать методы интеллектуального анализа данных, ориентированные на поиск скрытых закономерностей по базам данных.

Одним из направлений интеллектуального анализа является классификация. Значительный объем информации при решении задач классификации представляет знание о структурном размещении объектов классов и сложности конфигурации границ классов.

Сведения о структурном размещении объектов классов в признаковом пространстве по заданной метрике пытались получить различными способами. Например, о сложности конфигурации границ классов можно было судить по результатам корректного распознавания объектов с помощью линейных и кусочно-линейных решающих функций [1]. Другой используемой структурной характеристикой была устойчивость объектов в непересекающихся классах. Задача вычисления устойчивости как меры структурного разнообразия рассматривалась в рамках непараметрических методов распознавания [2].

Устойчивость отображает локальные свойства объектов классифицированной выборки. Знание этих свойств необходимо для определения аномальных объектов классов, объяснения причин выбора объектов в состав эталонов минимального покрытия обучающей выборки, достаточного для ее корректного распознавания.

Многообразие значений устойчивости объектов классов в [2] напрямую зависело от выбора метрики. Поскольку в разнотипном признаковом пространстве отсутствуют меры близости со свойствами метрики, возникла необходимость в использовании иных подходов. Так, характеристика структурного размещения каждого из объектов-эталонов локально-оптимального покрытия П = {S..., Sp}, p > 1, классов обучающей выборки в искусственных нейронных сетях (ИНС) с минимальной конфигурацией [3]

вычислялась через долю некорректно распознанных объектов при скользящем экзамене на множестве П.,, Решение задачи оценки устойчивости и алгоритмического (без участия экспертов) ранжирования объектов классов по обобщенным оценкам в разнотипном признаковом пространстве ранее не рассматривалось,

В настоящей работе предлагается метод вычисления непересекающихся интервалов количественных признаков, в границах которых доминируют значения тех или иных классов. На базе этого метода стало возможным вычисление как обобщенных оценок объектов в разнотипном признаковом пространстве, так и меры их устойчивости, В моделях ПНС значение меры устойчивости представляет локальный индикатор способности нейронов сети к обобщению в той или иной области разнотипного признакового пространства. Под обобщением понимается корректное (без ошибок) распознавание объектов, которых ИНС "не видела" в процессе обучения,

1. Выбор интервалов доминирования значений количественных признаков классов

Рассматривается множество М допустимых объектов, разбитое па I непересекающихся

I

подмножеств (классов) Кь К2,..., К[, М = Кг. Считается, что представители классов

г=1

заданы через выборку (подмножество М) объектов Е0 = {51,..., 5т}, Объекты выборки описываются с помощью п разнотипных признаков, множества допустимых значений £ из которых измеряются в интервальных шкалах, (п — £) — в номинальной шкале.

Вычисление обобщенных оценок и устойчивости объектов производится относительно отдельных классов. Необходимость сведения решения к двухклаееовой задаче распознавания с объектами из и СК1: = £ = 1,1, связана со следующими факторами:

— любая обобщенная оценка (показатель) относительна. Объекты каждого из классов противопоставляются объектам противоположных классов (например, класс заболевших и умерших от гриппа и класс практически здоровых людей);

— отсутствуют классы аналитических функций для восстановления зависимостей в пространстве разнотипных признаков.

Требуется:

— на множестве допустимых значений каждого из количественных признаков провести разбиение на минимальное число непересекающихся интервалов с доминированием значений из классов или £ = 1,1]

— дать количественную оценку структурного размещения каждого из объектов Е0 относительно класса Ь = 1,1.

Обозначим через 1,7 множество номеров соответственно количественных и номинальных (качественных) признаков X = {х1,..., хп} в описании допустимых объектов, I I I + I 7 1= п. Произведем выбор интервалов для каждого количественного признака, в границах которых доминируют значения классов К^и СК4, Для этого упорядочим значения с-го признака (с € I) по возрастанию

ГС1, ГС2 , ..., Гет . (1)

Согласно данному ниже критерию последовательность (1) разбивается на тс (тс > 2) непересекающихся интервалов [гСи,г^]г, 1 < и, и < V < т, г = 1,тс. Значения,

лежащие в интервале [гСи,гСг] , далее могут рассматриваться как градация номинального признака.

Пусть ¿\(п, у), й\(п, у) — количество представителей соответственно классов К: и СК: в интервале [гСи ,гСг]г, Для рекурсивной процедуры выбора значений гСи, гСиспользуется критерий

¿\{п,у) ¿\(п,у)

Ео П К:

Ео П С К:

^ тах.

(2)

Границы первого интервала [гСи, гСг на последовательности (1) вычисляются по максимуму критерия (2), Аналогичным образом определяются границы для [гСи,гСг ]р, р> 1, на значениях (1), не вошедших в [гСи,гСг..., [гСи,гСг]р-1. Критерием останова процедуры является покрытие всех значений (1) непересекающимися интервалами, _ , . ¿1(п,у) . . ¿\(п,у)

Обозначим через ЩгуЬ) = ---—--, ЩгЩ = --- результаты оптимального

| Ео П Кг I I Ь0 П (, КI I

разбиения по (2) для каждого интервала [гСи,гСь]г, г = 1 ,тс. Значение функции принадлежности с-го признака к К: то ннтервалу [гСи ,гСг ]г определим как

ш

П1г СО

П1г(£) + П2г($'

(3)

Если признак с Е 3, то п1г(^), Щг(£) в (3) рассматриваются как количеетво значений г-й градации у объектов E0 соответственно из классов К: и CKt. Считается, что множество чисел, идентифицирующих тС градаций номинального признака, всегда можно взаимнооднозначно отобразить в множество {1, 2, ...,тС}.

Будем использовать функции принадлежности (3) для отображения значений при-

Ео

отображения можно провести границу между объектами из К а и СКа. Обобщенная оценка объекта Б Е Е0, Б = (Ь1,Ь2,..., Ьга), по классу Ка вычисляется по формуле

Я(Б)

I Т |

Е £

еТ \с€/

С Е [гси , ГСг ] И Х^С Е \ГССи , ГСг]

Iсг(с1) I Ьс - Х^С

0,

1 ГСи - ГСг 1

ГСи = ГС

ГСи ГСг

ЬС, Х]С Е \Тсп , ГСг ]

+

Е

сез

где Бу = (х^1,х^2,...,х^п), Т

1сг($)1 Ьс = Х]с 0,

Ео П СКа, Б Е Ка

(4)

и значения тС градаций, с Е 3,

Ео П Кл, Б Е СКа

{1, 2, ... , тС}

Значения, вычисляемые по (4), являются средством упорядочения объектов по отношению к определяемому классу /\/. I 1,1. Предметом изучения может быть изменение порядка следования объектов в зависимости от разных наборов признаков.

Разбиение на интервалы по (2) эксперты могут использовать при формировании лингвистических правил для баз знаний. Количество интервалов доминирования классов косвенно указывает на статус закономерностей. Чем меньше интервалов доминирования, тем сильнее проявление закономерности на конкретном признаке в классе. Этим

1

свойством можно пользоваться при ранжировании количественных показателей в прикладных задачах. Самые высокие ранги получают те показатели, число интервалов доминирования классов Кг и СК4 которых минимально. Дополнительной альтернативой для ранжирования по классу К при равном количестве интервалов служит показатель

^ 1 ^ //«(*)(« — и + 1), /«(*) > 0.5, дЛч = — > < (5)

т {[РоХ]4} 1(1- Ш)(У -и + 1), Ш < 0.5,

с

ектов из Ка и СКа в границах интервалов доминирования, определяемых по (2),

2. Устойчивость объектов в разнотипном признаковом пространстве

Обозначим через П упорядоченное множество значений с-го признака (с € I), равное (1), Специфика процесса вычисления устойчивости объектов классов с описанием в разнотипном признаковом пространстве такова: требуется определить разбиение на интервалы, в границах которых доминируют представители только одного класса. Этим целям служит критерий

—> max, (6)

Eo П Kt | | Eo П CKt | n"

где ^(и, у), ^(и, у) — количество значений с-го признак а в [гСи, гс^ соответственно из классов Кг и СК^ í = 1,1.

с

ного из классов К1, К2,..., Кг, I > 2, для вычисления устойчивости объектов реализуется следующим образом,

1, Выбор интервалов доминирования {[гСи, гс„]г}, £ = 1,/, каждого класса ^ относительно СК4 по (6). Вычисление = , ,, -

Eo П Kt |' | Eo П CKt |

2, Вычисление значения функции принадлежности к классу Kt по [rCu, rCv]t с помо-

1 / \ ni(t)

щью формулы zAt) = —----—.

ni(t) + n2(t)

3, Если zc(k) = max zC(t), то выбор в качестве интервала [rCu, rCv] = [rCu, rCv]k,

г = 1,2,... и П = n\{rCd | rCd £ [rCu,rCvf}. _

4, Вычисление по (3) значения fCi(t), t = 1,1, функции принадлежности к классу Kt по интервалу [rCu ,rCv ]\

5, Если П = 0, то переход па 1,

Разбиение на интервалы, в границах которых доминируют представители только одного класса и соответствующие им (интервалам) значения функций принадлежности (3), предлагается использовать для вычисления степени компактности (устойчивости) размещения объекта S £ E0 относительно объектов непересекающихся классов Ki,...,Ki.

Устойчивость объекта Бг Е Е0 (Бг = (хг1, хг2,..., хгп)) в классе К: определяется по формуле

7*0%) = п(1 Е П1к . _1} ( Е ишР-1)+ Е ишР-1)\, (7)

0 : 1 ) \се1,Х1се{Тси ,Гсг ]р С£.1,ГНс=р у

где — количество значений с-го признака из класса К: в интервале [гСи ,гСг]р, к—

ХгС = р Ео П К

ний, вычисляемых по (7), принадлежит [0,1] и может быть использовано для интерпретации устойчивости объектов в терминах нечеткой логики. Интерес для экспертов-исследователей представляет и среднее значение по устойчивости объектов классов КъК2,...,Кг.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Имеет смысл проверка утверждения о корреляции между устойчивостью объектов классов и числом объектов-эталонов локально-оптимального покрытия обучающей выборки в моделях ПНС с минимальной конфигурацией [3], Заслуживает внимания изучение наличия связи между устойчивостью и способностью к обобщению нейронной сети. Действительно ли существует закономерность: чем меньше устойчивость объектов в некоторой области разнотипного признакового пространства, тем меньшей способностью к обобщению в этой области обладает нейронная сеть?

3. Вычислительный эксперимент

Для вычислительного эксперимента была взята выборка данных ИРИС Фишера [4], представленная 75 объектами. Выборка разделена на три непересекающихся класса по 25 объектов в каждом. Для описания допустимых объектов используются четыре количественных признака. Число интервалов доминирования значений признаков из классов и ¿=1,3, по (2) представлено в табл. 1,

Порядок следования признаков по их значимости в классах приведен в табл. 2, В скобках указаны альтернативные значения (5) для признаков с равным количеством интервалов по (2), Устойчивость ряда объектов классов по (7) представлена в табл. 3,

Ео

мощью двух схем процедуры последовательного исключения [3] приведен в табл. 4, Каждое из двух полученных множеств объектов-эталонов покрытия позволяет корректно распознавать объекты обучающей выборки.

Из таблиц 3, 4 легко прослеживается коррелированноеть числа объектов-эталонов локально-оптимального покрытия с устойчивостью объектов классов. Число объектов-эталонов покрытия с относительно малой устойчивостью больше аналогичного числа

Таблица 1. Число интервалов по (2) Т а б л и ц а 2. Порядок следования признаков

Номер Номер признака в классах

класса 1 2 3 4 Класс Порядок следования признаков

1 2 2 2 2 1 3 (1.0), 4 (1.0), 1 (0.896), 2 (0.799)

2 3 4 3 3 2 3 (0.979), 4 (0.968), 1 (0.754), 2

3 2 5 2 2 3 4 (0.967), 3 (0.960), 1 (0.787), 2

Таблица 3. Устойчивость объектов классов

Номер Класс Номер Класс

объекта 1 2 3 объекта 1 2 3

1 (1 класс) 0.8579 0.0043 0.0020 50 (2 класс) 0.0052 0.6726 0.0899

25 (1 класс) 0.8579 0.0043 0.0020 54 (3 класс) 0.0000 0.1601 0.6902

27 (2 класс) 0.0032 0.5162 0.1776 57 (3 класс) 0.2005 0.3467 0.3086

29 (2 класс) 0.0052 0.6726 0.0899 70 (3 класс) 0.0052 0.4498 0.3199

44 (2 класс) 0.0052 0.6726 0.0899 72 (3 класс) 0.0052 0.2151 0.5546

45 (2 класс) 0.0052 0.6726 0.0899 74 (3 класс) 0.0000 0.1601 0.6902

46 (2 класс) 0.0084 0.3365 0.2768 75 (3 класс) 0.0032 0.0587 0.6423

Таблица 4. Объекты-эталоны покрытия

Схема Класс

исключения 1 2 3

1.2.... 75 25 44,45,46,50 70,72,74,75

75,74,.., 1 1 27,29,44 54,57,70

для объектов-эталонов с относительно большой устойчивостью, К сожалению, нет формального обоснования для использования устойчивости объектов при решения задачи минимального покрытия в качестве альтернативы полному перебору,

С целью демонстрации вычисления устойчивости объектов, описываемых разнотипными признаками, воспользуемся результатами оптимизации критерия из [3] для отображения значений количественных признаков в номинальные. Идея реализации критерия такова. Упорядоченное множество значений признака х^-, ] € I, разбивается на ряд интервалов (с2к-1,С2к\, С2к-\ < С2к, к = 1,1, каждый из которых считается градацией номинального признака. Определение границ интервалов (с2к-1,с2к] основано на проверке гипотезы (утверждения) о том, что каждый интервал содержит значения количественного признака объектов только одного класса.

Пусть пр — число значений признака х^, ] € I, го масса Кг в иптервале (с2р-1, е2р], А = (ао,..., щ), ао = 0, а^ = т, ар — порядковый помер элемента упорядоченной по возрастанию последовательности ,..., гзначений х^ у объектов из Ео, определяющий правую границу интервала с2р = гар. Критерий

(\1 \ ' ЕЕ ПК -1) х

р=1г=1

I

VI Ео П Кг | (| Ео П Кг | -1)

г=1

X

^¿Е пр(т- I Ео П Кг I - Е пр + прг)^

X

р=1г=1

^=1

V

Е | Ео П Кг I (т- I Ео П Кг |)

г=1

^ тах

{А}

(8)

/

позволяет вычислять оптимальные значения границ интервалов {(с2р-1, с2р]} и использовать их для определения градаций количественного признака в номинальной шкале измерений. Если в границах каждого из I интервалов размещаются значения признака

Таблица 5. Устойчивость объектов, описываемых разнотипными признаками

Номер объекта Класс Номер объекта Класс

1 2 3 1 2 3

1 (1 класс) 0.8579 0.0043 0.0020 50 (2 класс) 0.0173 0.7371 0.2796

25 (1 класс) 0.8579 0.0043 0.0020 54 (3 класс) 0.0173 0.2796 0.7443

27 (2 класс) 0.0173 0.7371 0.2796 57 (3 класс) 0.2154 0.3799 0.3546

29 (2 класс) 0.0148 0.6103 0.1199 70 (3 класс) 0.0173 0.5143 0.5096

44 (2 класс) 0.0173 0.7371 0.2796 72 (3 класс) 0.0173 0.2796 0.7443

45 (2 класс) 0.0173 0.7371 0.2796 74 (3 класс) 0.0173 0.2796 0.7443

46 (2 класс) 0.0173 0.5024 0.5143 75 (3 класс) 0.0025 0.1283 0.6314

Xj, j G I, объектов только одного из классов, то критерий (8) принимает значение, равное единице. Во всех остальных (не идеальных) случаях максимум критерия (8) принимает значение из интервала (0,1),

Устойчивость по (7) ряда объектов классов, описываемых двумя количественными и двумя номинальными признаками, показана в табл. 5, Для 1-го и 2-го признаков в описании объектов использовались номера интервалов (вычисленные по (8)), в границах которых лежали их исходные значения.

Слабое различие между значением устойчивости объекта-эталона покрытия из класса Kt и аналогичными значениями по K1, ...,Kt-1, Kt+1, ...,Kl указывает па ее плохую способность к обобщению в ИНС,

Заключение

Процесс вычисления устойчивости объектов классов является инвариантным относительно масштабов измерений количественных признаков. Свойство инвариантности существенно повышает возможности сравнения результатов на экспериментальных данных, полученных независимыми исследователями. Значения устойчивости, вычисленные по (7), позволяют исследовать структуры размещения объектов при различных сочетаниях разнотипных признаков, используемых для их описания. Такое исследование востребовано для проверки гипотезы о компактности, согласно которой производится разбиение объектов на классы.

Технологию вычисления устойчивости классифицированных объектов можно рекомендовать для моделирования процессов гомеостаза в различных предметных областях (например, медицине, геологии, биологии).

Список литературы

[1] Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности: Справ, изд. М.: Финансы и статистика, 1989.

[2] Ignat'ev N.A., Adilova F.T., Matlatipov G.R., Chernysh P.P. Knowledge discovering from clinical data based on classification tasks solving // MediNFO. Amsterdam: IOS Press, 2001. P. 1354-1358.

[3] Игнатьев Н.А., Мадрахимов Ш.Ф. О некоторых способах повышения прозрачности нейронных сетей // Вычисл. технологии. 2003. Т. 8, № 6. С. 31-37.

[4] Wold S. Pattern recognition by means of disjoint principal components models // Patt. Recognit. 1976. Vol. 8, No. 3. P. 127-139.

Поступила в редакцию 11 января 2010 г., с доработки — 31 января 2011 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.