Научная статья на тему 'Индексирование объектов по индивидуальным наборам информативных признаков'

Индексирование объектов по индивидуальным наборам информативных признаков Текст научной статьи по специальности «Математика»

CC BY
220
43
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ ОБРАЗОВ / ИНДЕКС ОБЪЕКТА / ЛОГИЧЕСКИЕ ЗАКОНОМЕРНОСТИ / ИНФОРМАТИВНЫЕ ПРИЗНАКИ ОБЪЕКТА / PATTERNS RECOGNITION / INDEX OF OBJECT / LOGICAL REGULARITY / INFORMING FEATURES OF OBJECT

Аннотация научной статьи по математике, автор научной работы — Игнатьев Николай Александрович

Рассматриваются критерии для оценивания (индексирования) объекта в задачах распознавания с учителем. Значение оценки вычисляется как экстремум критерия по индивидуальному набору информативных признаков объекта. Проверяется истинность гипотезы, что в окрестности каждого объекта существует устойчивая логическая закономерность.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Indexing of objects on the individual sets of informing features

Criteria are investigated for the estimation (indexing) of object on the individual set of different-type features. It is considered, that a training sets of E0={Si,...,Sm} divided into of disjoint subset (classes) KbK2. The objects of selection are described by a set of different-type features ofX(n), distances between objects are calculated on the metric of Juravlev. The individual set of informing features of possible object allows: to distinguish logical regularities in his neighborhood and calculate their stability; to explain a decision-making process at recognition; to determine belonging to the noise objects of classes; to produce the choice of supporting sets of features in the models of algorithms of recognition. For the search of informing set of features of X(k) с X(n), k 0. The value of estimation of object of SeE0 is calculated as extremum of criterion on the individual set of X(k). A heuristic allowing to decrease combinatory complication of algorithm of extraction of features on an additive criterion offers. The method of synthesis of own space is worked out from latent features for description of object of SeE0 on the basis of hierarchical clustering. Every latent feature is result of nonlinear mapping of group of initial features on the real axis. The sequence of forming of latent feature the algorithm of hierarchical clustering is brought around to an example: x22 = 0,1 (1,6813 (x2 + 0,0175)-0,2426xJ0) +1,7133 (x2x11 0 + 0,0175); x3 = 1,0118 (x2 + 0,0242)-0,2144x72. The estimations of objects can be used for the construction of models in weakly formalizing subject domains. A requirement in using on the individual set of informing features of object for making decision arises up at raising of diagnosis of illness, to development of measures on prevention of technogenic catastrophes on concrete territory. Values of estimations in [0,1] are easily interpreted in terms of fuzzy logic and can be used for verbalization of knowledge.

Текст научной работы на тему «Индексирование объектов по индивидуальным наборам информативных признаков»

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2016 Управление, вычислительная техника и информатика № 4 (37)

УДК 519.95

DOI: 10.17223/19988605/37/3

Н.А. Игнатьев

ИНДЕКСИРОВАНИЕ ОБЪЕКТОВ ПО ИНДИВИДУАЛЬНЫМ НАБОРАМ ИНФОРМАТИВНЫХ ПРИЗНАКОВ

Рассматриваются критерии для оценивания (индексирования) объекта в задачах распознавания с учителем. Значение оценки вычисляется как экстремум критерия по индивидуальному набору информативных признаков объекта. Проверяется истинность гипотезы, что в окрестности каждого объекта существует устойчивая логическая закономерность.

Ключевые слова: распознавание образов; индекс объекта; логические закономерности; информативные признаки объекта.

Потребность в индексировании объектов возникает при принятии решений в различных предметных областях. Значения индексов востребованы для мониторинга рынка купли-продажи ценных бумаг, экологического состояния окружающей среды, уровня террористической угрозы, оценки степени социального благополучия общества, цитируемости научных публикаций и т.д. Вычисление значений, как правило, производится по строго фиксированным наборам показателей.

Информативные признаки (показатели), определяемые для всей обучающей выборки, не отражают специфику закономерностей, присущих той или иной области признакового пространства. В [1] утверждается, что для каждого объекта существует своя логическая закономерность, для обнаружения которой предлагалось использовать локальные метрики. Применение локальных метрик основано на эвристиках, так как чётких критериев их выбора не существует. Интерес представляет разработка методов отбора информативных признаков инвариантных к масштабам измерений данных, комбинаторная сложность реализации которых позволяет получать результаты за приемлемое время.

Самую простую и легко интерпретируемую структуру, задаваемую отношениями на элементах непустого множества, представляет линейный порядок. Как правило, первыми кандидатами для включения в информативный набор являются независимые признаки. Примером использования линейного порядка является отбор наборов признаков с максимально выраженной независимостью, который применялся при синтезе искусственных нейронных сетей с минимальной конфигурацией в [2].

Потребность в использовании индивидуального набора информативных признаков объекта для принятия решений возникает при постановке диагноза болезни, разработке мер по предотвращению техногенных катастроф на конкретной территории. В медицинской практике при одном и том же диагнозе у двух человек причинами (диагностическими признаками) болезни могут быть разные симптомы и синдромы.

Метод отбора индивидуальных информативных наборов признаков с помощью локальных метрик объектов описан в [3]. Для отбора использовался критерий на основе максимальной разницы частот встречаемости представителей (объектов) двух классов K и K2 в последовательности, упорядоченной по локальной метрике объекта. Экстремальное значение критерия, полученное по медицинским данным с описанием состояния больных и практически здоровых индивидуумов, предлагалось интерпретировать как индекс здоровья.

Индивидуальный набор информативных признаков допустимого объекта позволяет:

- выделять логические закономерности в его окрестности;

- объяснять процесс принятия решения при распознавании;

- определять принадлежность к шумовым (аномальным) объектам классов;

- производить выбор опорных множеств признаков в моделях алгоритмов распознавания.

В данной работе для отбора индивидуальных наборов информативных признаков предложено два новых критерия, отличных от описанного в [3]. Также как и в [3], при вычислении значений по этим критериям используются функции близости по определяемым наборам признаков. Упорядочение объектов по значениям функции близости в зависимости от поставленных целей позволяет определять:

- устойчивость логической закономерности относительно исследуемого объекта;

- границу между представителями двух классов, степень истинности гипотезы о компактности при которой максимальна.

Свойство инвариантности к масштабам шкал измерений является атрибутом критерия нелинейного отображения групп исходных (сырых) разнотипных (номинальных и количественных) признаков на числовую ось. По аналогии с методом локальной геометрии [1] начало координат размещается в исследуемом объекте. При нелинейном отображении наряду с синтезом латентных признаков по критерию группировки происходит их упорядочение по степени информативности. Существует вывод аналитического представления (формул) для вычисления значений латентных признаков из исходных [4].

1. Критерии отбора индивидуальных наборов информативных признаков

Рассматривается задача распознавания в стандартной постановке. Объекты обучения заданы через множество Е0 = {«^...Дя}, разделённое на два непересекающихся подмножества (класса) К1 и К2, Е0 = К1иК2. Описание объектов производится с помощью набора из п разнотипных признаков Х(п) = (хь... ,хп), из которых измеряются в интервальных шкалах, п-2, - в номинальной.

Обозначим через I, J множество индексов соответственно количественных и номинальных признаков. Считается, что заданы критерии для отбора информативных признаков объекта «еЕ0. Требуется по каждому критерию для указанного объекта 8е.Е0 определить:

- информативный набор признаков Х(к) = {хг}г£1ц/, к > 1;

- оценку объекта « как экстремальное значение критерия на информативном наборе Х(к).

Описание допустимого объекта в рамках собственного пространства из информативных признаков необходимо для нахождения индивидуальной меры сходства (различия) с другими объектами. Эта мера отражает отношения между объектами и служит средством для принятия решения.

Для унификации масштабов измерений значения количественных признаков дробно-линейным преобразованием отображаются в [0,1]. В качестве меры близости между объектами « = (ха1,...,хап) и «ъ = (хЬ1,. ,хЪп) используется метрика Журавлёва

Р («а, «ъ ) = ЕIха, - хь\ + Е \ 0 ^ Х,

к/ I0, Хаг = ХЫ .

Положим, что для объекта по набору признаков Х(к), к < п, построена

«а,,..., «а, = «а, (1)

упорядоченная последовательность объектов Е0, отношения между которыми определяются неравенствами вида р (, ) < р (1, ) . Для оценки объекта 8аеКр по (1) используется функционал

( <\ <\ \

, X (к))= шах

0<г<т-1

^р ( ) ^3-р ( )

Кр ^ Е0

Кз-р ПЕ0

(2)

где гр(7'),г3-р(7) - число объектов в { ,...,}сЕ0, определяемых по (1) соответственно из класса Кр и

К3-р. Множество допустимых значений (2) принадлежит интервалу (0,1].

Как отдельную задачу можно рассматривать отбор для еКр набора информативных признаков Х(ц), ц < п, на котором

Р &,Х (ц)) = Ж ^&,Х (к)). (3)

Значение (3) для допустимого объекта по набору медицинских показателей Х(ц) в [3] интерпретировалось как индекс здоровья по классу Кр, р = 1,2.

В [3] для нахождения экстремума (3) использовались эвристические пошаговые алгоритмы отбора. Было показано, что различные схемы отбора (последовательным удалением малоинформативных либо последовательным включением наиболее информативных) признаков не давали схожих результатов.

Существенным препятствием для эффективного использования (3) в эвристических алгоритмах отбора является большая размерность признакового пространства. Значения близости между объектами становятся размытыми, экспоненциально растёт сложность вычислений. Для уменьшения комбинаторной сложности вычислений предлагается применять предобработку данных.

Идея использования порядка следования разнотипных признаков по степени их независимости для синтеза моделей искусственных нейронных сетей с минимальной конфигурацией описана в [2]. С этой целью формировалась матрица парных близостей (различий) между признаками. Для унификации шкал измерений использовалось преобразование количественных признаков в номинальные по специальному критерию. Порядок следования признаков определялся по матрице парных близостей (различий).

В отличие от [2] в данной работе предлагается использовать значения матрицы близости для пар признаков (х7, х) с Х(п) по метрике Журавлёва без унификации шкал (сведения к одной шкале) измерений. Элементы матрицы близости В(5) = {Ь7,}пХп объекта 5 е К вычисляются как

1 X Р (5, )- . 1 ^ Р (5, ) х,, х) е Х (п), 7 ф

Ь) =

2|Ц -1

5,.еК,

(4)

2| еКз-,

[0,7 = ) Очевидно, что |Ь)| < 1.

Обозначим через Р множество, значениями элементов которого являются номера исходных признаков. Для выбора по элементам (4) матрицы В(5) = (Ьу}пХп упорядоченного набора Х(к) = (хь...,хк), 2 < к < п, используется рекурсивная процедура построения последовательности признаков

х51, х52 ,..., хя„ . (5)

Положим Р = ^. Из матрицы 5(5) выделяется пара (х7, х) с наибольшим значением Ь, и включается (слева направо) в (5). Номера выделенных признаков фиксируются в Р = РЩ7,)}. Порядок следования в (х7, х) выбирается из условия тахЬ, > тахЬ, . Каждая следующая пара признаков из {1,...,п}\Р

цеР н цеР ^

для (5) по аналогичному принципу определяется из 5(5) после удаления в ней строк и столбцов с номерами 7 и).

С целью сокращения комбинаторной сложности алгоритмов из (5) удаляется (справа налево) определяемое число г (0 < г < п) элементов. Набор х5 , х5 является исходным для начала процесса

отбора информативных признаков по (3).

Предлагается ещё один, отличный от (3), способ использования последовательности (1) для отбора информативных признаков. Пусть и1,и, - количество объектов класса К7, 7 = 1,2, соответственно в интервалах [сьс2],(с2,с3], п - порядковый номер из последовательности (1), с = 0, с2 = р( , ), с3 = Р( , я^).

Критерий для определения границы с2 основывается на проверке гипотезы (утверждения) о том, что каждый из двух интервалов [сьс2], (с2,с3] содержит значения расстояния р(х, у) до объектов только одного класса. Экстремальное значение критерия на наборе Х(к), 2<к<п, вычисляется как

Я(, X (к )) =

¿и,1 (-1)+и,2 (-1) ¿=1_

¿1К ((I-1)

V 2 2

¿¿и/ ((3-71 - и3-,)

2 К1К2

^ тах,

с1<с2 <с3

(6)

а множество его допустимых значений принадлежит (0,1]. Выражение в левых скобках (6) представляет внутриклассовое сходство, в правых - межклассовое различие. Информативный набор признаков Х(ц) по (6) определяется как

7=1

К (, X ))=тахЯ ( ^,Х ( к ))■

Обозначим ^(0 = \iSatK | р^ДНс^Н ^(0 = ^еКз^ р^ДНс^Н 9^) = МО« 62(0 = МО/КЛ, где интервал [сьс2] получен по набору признаков Х(к) по (6). Оценка (устойчивость) объекта SdeKt по набору Х(к) вычисляется как и^, Х(к)) = 0^0(1 - 62(0) и

и (,Х (^)) = тахи (^,Х (k)), (7)

где Х(ц) - информативный набор признаков. Вычисление значения оценки по (7) характеризует вид критерия как мультипликативный, а аналогично (3) - как аддитивный.

Логическая закономерность в форме гипершара с центром Sde.Kp по набору Х(к) определяется множеством

ф№,Х(к)) = {Заекр | р№Д) < р№Д)}, где Sb бК3-р - ближайший к Sd объект из противоположного класса. Для выбора и интерпретации информативного набора признаков объекта Sd и его оценки предлагается использовать экстремум критерия устойчивости логической закономерности в форме гипершара

^ Х()) И^, Х (к))1 (8)

ад, Х(ц))=т(к!1 ' • (8)

2. Выбор латентных признаков для описания объекта

Рассматривается стандартная постановка задачи распознавания, аналогичная описанной в п. 1. Производится выбор собственного признакового пространства объекта Sd еЕ0, а = 1,...,т, с помощью алгоритма иерархической агломеративной группировки [4]. Алгоритм группировки разбивает набор признаков Х(п) на непересекающиеся группы Х(к1),., Х(кт), к1+.+ кт<п. Нелинейное отображение представителей каждой группы на числовую ось образует новый латентный признак в описании объекта. Считается, что задан критерий для проверки истинности гипотезы о компактности по значениям латентного признака через произведение внутриклассового сходства и межклассового различия. Требуется определить признак с максимальным значением критерия.

Для выбора латентных признаков в собственном пространстве объекта Sde.E0, Sd = (ал,...,а^п), произведём предобработку данных следующим образом. Значения признаков объекта S = (Ь1,.,Ьп), SeE0, преобразуем как

Ь =

\аШ - Ь V г е 1,

1, аш = Ь, / е 3, (9)

0, ал * Ьг, г е 3.

Преобразованные по (9) признаки считаются измеренными в количественной шкале измерений, множество номеров которых идентифицируются как 1 = {1,...,п}. Для вычисления значений латентных признаков используются правила иерархической агломеративной группировки. Латентные признаки,

полученные нар-м шаге группировки, обозначаются как хр , уе1, р>0. При р = 0, |1| = п. Упорядоченное множество значений признака хр объектов из Е0 аналогично (6) разделим на два интервала [ с/р, с2р ], (с2р, с3р ], каждый из которых рассматривается как градация номинального признака.

Пусть и1,и2 - количество значений признака хр, уе1, класса Кг, г = 1, 2, соответственно в интервалах [с/р, с2;р ],(с2;р, с3р ], |Кг|>1; V - порядковый номер элемента упорядоченной по возрастанию последовательности г,...,г ,...,г значений хр у объектов из Е0, определяющий границы интервалов как

Л Jv :

с/р = г^,с2р = г ,с3р = г . Аналогичный (6) критерий

X4 ( -l)+M,2-1) 1=1_

¿1 K (-l)

V 2 2

YZud ( - ud-,)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2| Kj| k2

^ max

e/p<e2p <e-3p

позволяет вычислять оптимальное значение границы срР для интервалов [ с), срР ] и (срР, с1Р ].

Экстремум критерия (10) используется в качестве веса wp (0< wp <1) признака хр. При wp=1

значения признака хр у объектов из классов К и К2 не пересекаются между собой.

Значение комбинации ЬрРу по паре признаков (хр , хр), 0< р <п, 7, )е1, 7 Ф у, объекта 5г={ ар }ие/, 5геЕ0, вычисляется как

Ьр = щ^Р ( ар - с2Р ) / (с3Р - с1Р ) + ^Р (ар - с2[ ) / (с^р - с) )) + + (1 - п у )tI]wp (аРар - с|р )/(с|р - с) ),7,) е 1,Х1},х,, Х} е {-1,1},пу е [0,1], где wp , wp, wp - веса признаков, определяемые по (10) соответственно по множеству значений хр , хр

и их произведения xp xp на E0, значения t,j, t,, tj e{-1,1}, Пуе [0,1] выбираются по экстремуму функционала

minbp. - maxbp.

r,j ry

, . .4 Sr eK1 Sr eK,

Ф(Р, ,, j) = Г 1 Г 2

: max .

maxbp. - min bp y, t.e{-1,1}, л, e[0,1]

ri. ri.

(11)

5г еЕ0 5г еЕ0

Экстремум функционала (11) интерпретируется как отступ между объектами классов К и К2 по множеству значений по паре признаков (хр , хр), 0<р<п, 7,у е 1,7 Фу.

Обозначим через {},/, р > 0, квадратную матрицу размера (п-р)х(п-р), значение элемента которой при р = 0 определяется как

zP = <!

у

WP, ,y = j,

{ч m

bp. } , i ^ j,

(12)

через Гп, n > 0, - подмножество номеров признаков из X(n). Пошаговая реализация алгоритма иерархической агломеративной группировки будет такой:

1-й шаг: p = 0, Xe = 0, n = 1. Выполнять Гп = {n}, Marginn = -2, n = n + 1, пока n < n;

2-й шаг: Вычислить значения элементов матрицы { zp },. eI по (12);

3-й шаг: Выделить Ф = { zpv | zpv > max( wp , wp) and u Ф v, u,veI}. Если Ф = то идти 9;

4-й шаг: Вычислить Xn = max zp . Выделить Д = {(s,t),s,t eI | zpt = Xn and s<t}. Определить пару

zp„e<i

{i, j}, i < j, как

с 1=^,' A =1,

^ j |{s,t},(s,t)eA and y(p,s,t)> max ф(u,v);

(u ,v )eA\(s ,t)

5-й шаг: Если Xn > Xe или Xn = Хе и Margin, < ф^,,',/), то Г, = ГиГ, Г = Margin, = ф^у), идти 7;

6-й шаг: Вывод номеров признаков из Г,, Г, = I = I\{i}, идти 3;

7-й шаг: p = p+1, I = I\max(i,y), k = min(i j), Хе = Xn. Заменить значения признаков в описании объ-

екта Sr = {apu 1 }ueI, r = 1,.. на

p lap"1,u e a„, =

I \ {k },

\bpj, u = k;

1=1

8-й шаг: Для каждой пары (u,v), u,v е I, определить значение

^Г1,u е I \ {к},v е I,

zp = •!

uv ] ( p)m

значению (10) на {а^ } ,u = к,v е I.

' ' r=1

Если n-p > 1, то идти 3;

9-й шаг: Конец.

Реализация изложенного выше алгоритма представляет один из способов решения задачи компактного описания (агрегирования) данных через поиск функциональных зависимостей между признаками. Агрегирование данных выражается в формировании нового набора из латентных признаков в описании объекта, позволяющего, не прибегая к перебору, относительно легко обнаруживать устойчивые логические закономерности.

Пусть на базе группы Гг, 1 < r, получен латентный признак z(S) с максимальным значением (10), определены границы его интервалов [cbc2], (c2,c3]. Будем считать элементы Гг номерами информативного набора исходных признаков при выборе нового пространства в описании объекта Sd eKt. Значение оценки объекта Sd е Kt по латентному признаку z(S) вычисляется как

n(z(Sd)) = 01(1-02), (13)

где

|{S е Kt\z(S,.)е [д,c2]}| = |{s,. еK3_t\z(S,.)е[c2]}|

01 = W ' 92 = |K_| ■

3. Вычислительный эксперимент

Для вычислительного эксперимента использовалась выборка данных по пневмококковому и серозному менингиту [5]. Каждый из 64 объектов выборки описывался 3 количественными и 18 номинальными признаками. Первый класс К1 (пневмококковый менингит) представлен 35 объектами, второй класс К2 (серозный менингит) - 29 объектами.

Наборы признаков для ряда объектов выборки Е0, формируемые алгоритмом пошагового включения информативных признаков по аддитивному (3) и мультипликативному (7) критериям, приводятся в табл. 1.

Т а б л и ц а 1

Информативные наборы признаков объектов

№ объекта(класс) Информативные признаки по критерию

аддитивному (3) мультипликативному (7)

1(1) Х3., X4, X12, x15, x20 x3, X4,, Л^ л^ь X15, X16, x17, X20

6(1) ^ x-^ X20 ^ x3, x16, X20

15(1) X4, X5, X14 X1, X6, X7, X19, X21

37(2) X3:, X7-> X12, х-^ X20 X2, X3, X7, X12, X16

54(2) X2, X6, X7, X12 x2, x6, x7, x12

57(2) X2, X3, X4, X6, X7, X12, X20 x6, x7, x8, x12, x16, x20

Как видно из табл. 1, количество признаков в наборах и их состав, определяемые по (3) и (7), сильно не отличаются друг от друга. Насколько значения оценок объектов, полученные по экстремальным значениям трёх критериев (3), (7), (8), близки друг к другу, показано в табл. 2.

Результаты экспериментов наглядно демонстрируют наличие закономерностей, выражаемых через сходство их составов информативных наборов (см. табл. 1) и близость оценок признаков объектов (см. табл. 2). Низкие показатели оценок объекта № 15 указывают на несоответствие (аномальность) значений признаков в его описании относительно представителей класса К1.

Эффект от предобработки данных можно получить путём отказа от просмотра вариантов, не ведущих к оптимальному, с точки зрения используемого критерия, результату. Требуется проверить зави-

симость оценок объекта с учётом предобработки данных по (4). Результаты вычисления оценок по аддитивному критерию (3) на Х(п—г), 0 < г < п-2, после удаления (справа налево) г признаков из (5) демонстрируются в табл. 3.

Т а б л и ц а 2

Оценки объектов по критериям

№ объекта(класс) Критерий

аддитивный (3) мультипликативный (7) устойчивости лог. закономерности (8)

1(1) 0,8512 0,8276 0,8000

6(1) 0,7941 0,8000 0,7143

15(1) 0,3586 0,0985 0,2571

37(2) 0,8798 0,8778 0,6897

54(2) 0,9025 0,9044 0,5172

57(2) 0,9429 0,9103 0,6897

Т а б л и ц а 3

Оценки объектов по (3) с учётом предобработки

№ объекта(класс) Число удаляемых признаков г =

5 10 15

1(1) 0,8571 0,8571 0,8227

6(1) 0,7941 0,7941 0,7941

15(1) 0,3586 0,3586 0,3419

37(2) 0,8798 0,8798 0,8453

54(2) 0,9025 0,9025 0,9143

57(2) 0,9429 0,9429 0,9143

Анализ результатов отбора информативных признаков и соответствующих им оценок по (3) на Х(21) (см. табл. 2) и с учётом предобработки на Х(16), Х(11) (см. табл. 3) показывает целесообразность поиска закономерностей в данных для сокращения комбинаторной сложности алгоритмов. Попытки применить подобный способ предобработки для вычисления информативных наборов признаков и оценок объектов по (7) и (8) оказались неэффективными.

Эффект от использования нелинейных преобразований признаков рассмотрим на примере вычисления оценок по (13). Вычисление проводилось по латентному признаку с максимальным значением (10) и соответствующему ему набору исходных признаков. Результаты представлены в табл. 4.

Та б л и ц а 4

Нелинейные отображения групп признаков на числовую ось

№ объекта(класс) Число групп Латентный признак получен из набора Значение критерия (13)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1(1) 4 х3, Х5, х6, Х7, Х8, Х9,Х12, Х15, Х16, Х20 0,9103

6(1) 6 Х3, Х7, Х16 0,8246

15(1) 5 Х2, Х4, Х5, Х6, Х10 0,8374

37(2) 6 Х4, Х7, Х8, Х12, Х17, Х20 0,8571

54(2) 5 Х2, Х6, Х7, Х10 0,8621

57(2) 5 Х2, Х4, Х5, Х6, Х7, Х12,Х20 0,9429

Неожиданный результат как эффект от использования методов интеллектуального анализа данных получен для объекта № 15. Высокая относительно критериев (3), (7), (8) оценка 0,8374 за объект по (13) свидетельствует о наличии скрытых закономерностей, обнаружить которые удаётся лишь с учётом нелинейности. Существует возможность аналитического описания закономерностей по результатам нелинейного отображения по группе признаков. Последовательность формирования латентного признака алгоритмом агломеративной иерархической группировки на примере объекта № 54 (см. табл. 4) такова:

х2 = 0,3(0,0051(х20 -3)-0,536х60) + 0,007х20х60;

x22 = 0,1(1,6813 (x\ + 0,0175)- 0,2426xJ0) +1,7133( x2 xj0 + 0,0175); x23 = 1,0118( x22 + 0,0242)- 0,2144x72.

Заключение

Предложены критерии для оценки объектов по индивидуальным информативным наборам признаков. С помощью вычислительного эксперимента доказано, что, несмотря на различие по составам наборов признаков, значения оценок по различным критериям оказались близки друг к другу. Результаты вычислений могут быть использованы для наполнения баз знаний и построения информационных моделей в слабоформализованных предметных областях.

1. Дюк В. А. Методология поиска логических закономерностей в предметной области с нечеткой системологией: На примере

клинико-экспериментальных исследований : дис. ... д-ра тех. наук. СПб., 2005. 309 с.

2. Згуральская Е.Н. Выбор информативных признаков для решения задач классификации с помощью искусственных нейрон-

ных сетей // Нейрокомпьютеры: разработка, применение. 2012. № 2. С. 20-27.

3. Ignat'ev N.A., Mirzaev A.I. The Intelligent Health Index Calculation System // Pattern Recognition and Image Analysis. 2016. V. 26,

Ыо. 1. P. 73-77.

4. Игнатьев Н.А. Вычисление обобщённых оценок объектов и иерархическая группировка признаков // Вестник Томского гос-

ударственного университета. Управление, вычислительная техника и информатика. 2015. № 4 (33). С. 31-37.

5. Касымова Р.И. Клинико-лабораторные особенности острых гнойных и серозных менингитов в зависимости от этиологии :

дис. ... канд. мед. наук. Ташкент, 2009. 145 с.

Игнатьев Николай Александрович, д-р физ.-мат. наук, профессор. E-mail: ignatev@rambler.ru Национальный университет Узбекистана. Ташкент.

Ignat'ev Nikolay A. (National University of Uzbekistan. Republic of Uzbekistan). Indexing of objects on the individual sets of informing features.

Keywords: patterns recognition; index of object; logical regularity; informing features of object. DOI: 10.17223/19988605/37/3

Criteria are investigated for the estimation (indexing) of object on the individual set of different-type features. It is considered, that a training sets of E0={Sb... ,Sm} divided into of disjoint subset (classes) K1,K2. The objects of selection are described by a set of different-type features ofX(n), distances between objects are calculated on the metric of Juravlev. The individual set of informing features of possible object allows:

- to distinguish logical regularities in his neighborhood and calculate their stability;

- to explain a decision-making process at recognition;

- to determine belonging to the noise objects of classes;

- to produce the choice of supporting sets of features in the models of algorithms of recognition.

For the search of informing set of features of X(k) c X(n), k <n is used criteria: additive, multiplicative and to stability of logical regularity in the neighborhood of object of SeE0. The value of estimation of object of SeE0 is calculated as extremum of criterion on the individual set of X(k). A heuristic allowing to decrease combinatory complication of algorithm of extraction of features on an additive criterion offers.

The method of synthesis of own space is worked out from latent features for description of object of SeE0 on the basis of hierarchical clustering. Every latent feature is result of nonlinear mapping of group of initial features on the real axis. The sequence of forming of latent feature the algorithm of hierarchical clustering is brought around to an example:

The estimations of objects can be used for the construction of models in weakly formalizing subject domains. A requirement in using on the individual set of informing features of object for making decision arises up at raising of diagnosis of illness, to development of measures on prevention of technogenic catastrophes on concrete territory. Values of estimations in [0,1] are easily interpreted in terms of fuzzy logic and can be used for verbalization of knowledge.

ЛИТЕРАТУРА

Поступила в редакцию 2 июля 2016 г.

x22 = 0,1 (1,6813 (x2 + 0,0175)-0,2426xJ0) +1,7133 (x2x110 + 0,0175); x3 = 1,0118 (x22 + 0,0242)-0,2144x72.

REFERENCES

1. Duyk, V.A. (2005) Metodologiya poiska logicheskikh zakonomernostey v predmetnoy oblasti s nechetkoy sistemologiey: Na primere

kliniko-eksperimental'nykh issledovaniy [Methodology of search of logical regularity in a problem domain with fuzzy systemology: On the example of clinic - experimental researches]. Engineering Doc. Diss. St. Petersburg.

2. Zguralskaya, E.N. (2012) Selecting informative features for solving problems of classification using artificial neural networks. Ney-

rokomp'yutery: razrabotka, primenenie. 2. pp. 20-27. (In Russian).

3. Ignatiev, N.A. & Mirzaev, A.I. (2016) The Intelligent Health Index Calculation System. Pattern Recognition and Image Analysis.

26(1). pp. 73-77. DOI: 10.1134/S1054661816010089

4. Ignatiev, N.A. (2015) Computation generalized estimates of objects and hierarchical clustering of features. Vestnik Tomskogo gosu-

darstvennogo universiteta. Upravlenie, vychislitel'naya tekhnika i informatika - Tomsk State University Journal of Control and Computer Science. 4(33). pp. 31-37. (In Russian).

5. Kasimova, R.I. (2009) Kliniko-laboratornye osobennosti ostrykh gnoynykh i seroznykh meningitov v zavisimosti ot etiologii [Clinic -

laboratorial peculiarities of sharp, festering and serosal meningitises depending on etiology]. Medicine Cand. Diss. Tashkent.

i Надоели баннеры? Вы всегда можете отключить рекламу.