Научная статья на тему 'Отбор признаков в собственное пространство объекта на основе меры его компактности'

Отбор признаков в собственное пространство объекта на основе меры его компактности Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
174
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОТНОШЕНИЕ СВЯЗАННОСТИ ОБЪЕКТОВ / СОБСТВЕННОЕ ПРИЗНАКОВОЕ ПРОСТРАНСТВО / МЕРА КОМПАКТНОСТИ / RELATION OF CONNECTEDNESS OF OBJECTS / OBJECT'S OWN SPACE / MEASURE OF COMPACTNESS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Игнатьев Николай Александрович, Мирзаев Азиз Ибрахимович

Рассматривается использование логических закономерностей в форме гипершаров для поиска собственного признакового пространства объекта выборки из непересекающихся классов. Разработан алгоритм проверки истинности отношения связанности объектов по системе гипершаров на определяемом наборе признаков. Отношение связанности используется для вычисления значения меры компактности объекта при поиске его собственного признакового пространства.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Selection of features into the object's own space based on the measure of its compactness

The use of logical regularities in the form of hyper-spheres to search for the object's own space of a sample from disjoint classes is considered. An algorithm has been developed to verify the truth of the relation of the connectedness of objects by a system of hyper-spheres on a defined set of feature. The connectedness relation is used to calculate the value of the measure of compactness of an object when searching for its own feature space.

Текст научной работы на тему «Отбор признаков в собственное пространство объекта на основе меры его компактности»

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2019 Управление, вычислительная техника и информатика № 49

УДК 519.95

Б01: 10.17223/19988605/49/7

Н.А. Игнатьев, А.И. Мирзаев

ОТБОР ПРИЗНАКОВ В СОБСТВЕННОЕ ПРОСТРАНСТВО ОБЪЕКТА НА ОСНОВЕ МЕРЫ ЕГО КОМПАКТНОСТИ

Рассматривается использование логических закономерностей в форме гипершаров для поиска собственного признакового пространства объекта выборки из непересекающихся классов. Разработан алгоритм проверки истинности отношения связанности объектов по системе гипершаров на определяемом наборе признаков. Отношение связанности используется для вычисления значения меры компактности объекта при поиске его собственного признакового пространства.

Ключевые слова: отношение связанности объектов; собственное признаковое пространство; мера компактности.

Понятие «собственное пространство объекта» связанно с принятием решения. Принятие решения зависит от закономерностей (как правило, скрытых), которые наиболее точно передают особенности объекта. В [1] эти особенности было предложено искать в виде логических закономерностей в окрестности объекта. Аргументом в пользу такого подхода служило отсутствие машинных алгоритмов, позволяющих производить поиск логических закономерностей за приемлемое время.

Отбор информативного набора признаков в окрестности объекта и вычисление индекса здоровья (оценки объекта) по нему рассматривался в [2]. В качестве критерия для отбора использовался поиск максимума разности частоты встречаемости представителей двух классов по системе вложенных гипершаров. Центром гипершаров являлся рассматриваемый объект.

Выбор эвристик для построения алгоритмов распознавания образов основывается на гипотезе о компактности объектов классов. Общепринятого определения меры компактности не существует [3]. Показано [4], что в метрических алгоритмах классификации компактность зависит от многообразия структур отношений между объектами классов. Различаются между собой и численные методы для количественного оценивания компактности. В одномерном случае для оценивания используются интервальные методы, в многомерном - вычисление меры компактности объектов классов и выборки в целом по заданной метрике. Общим для одномерного и многомерного случаев является наличие областей признакового пространства, в границах которых вычисляется мера компактности.

В одномерном случае на числовой оси можно производить сравнение объектов по значениям их исходных и латентных признаков, используя отношения «больше», «меньше» или «равно». При вычислении меры компактности в многомерном случае [4] применялось отношение связанности объектов по подмножеству (оболочке) граничных объектов классов по заданной метрике. Связанность объектов Si, рассматривалось как свойство логических закономерностей в форме гипершаров, центрами которых они являлись. Объекты Si и считались связанными, если в пересечении их гипершаров были объекты оболочки.

Связанность объектов применялась для анализа кластерной структуры классов с помощью меры компактности. Для вычисления меры компактности в (0; 1] использовались число непересекающихся групп и количество объектов, в них входящих.

Отбор информативных признаков на основе методов кластеризации рассматривался в [5]. Использовалось разбиение признаков на группы, и в каждой группе выделялось по одному наиболее типичному представителю. Результаты группировки существенно зависели от вводимой меры расстояния между признаками.

В [6] в качестве критерия информативности признаков применялась функция конкурентного сходства (FRiS-функция). Среднее значение функции конкурентного сходства зависит от того, как близко группы объектов находятся от разделяющей границы. Те объекты, которые располагаются в тесном окружении своих объектов и значительно удалены от объектов других классов, имеют более высокое значение функции, чем периферийные объекты, близкие к другим классам. Отбор информативных признаков позволяет сделать прозрачным способ построения решающих правил и количественно оценить компактность классов.

При реализации алгоритмов отбора информативных наборов признаков объекта необходимо учитывать:

- наличие или отсутствие свойства инвариантности признаков к масштабам измерений;

- выбор меры близости между объектами со свойствами метрики;

- наличие шумовых объектов в выборке и способов их обнаружения;

- истинность отношения связанности объектов классов;

- выбор способа вычисления меры компактности объекта класса.

В работе определяется бинарное отношение связанности объектов одного отдельно взятого класса обучающей выборки. Это отношение используется для вычисления меры компактности объекта класса с целью отбора признаков в его собственное пространство. Мера компактности рассматривается в качестве индекса объекта по определяемому набору признаков и служит средством для поиска скрытых закономерностей в базах данных.

1. Постановка задачи

Одной из целей анализа кластерной структуры данных в [4] через отношение связанности объектов классов было решение задачи о минимальном покрытии обучающей выборки объектами-эталонами. Объекты каждого класса разбивались на непересекающиеся группы. Отношение связанности объектов гарантировало единственность числа групп и их состава. Поиск объектов-эталонов минимального покрытия производился по каждой группе в отдельности. Среднее число объектов выборки, притягиваемых одним эталоном, использовалось как показатель обобщающей способности алгоритма распознавания. В идеале отдельно взятый объект выборки мог быть единственным эталоном всего класса. Научный и практический интерес представляет оценка вклада объекта в обобщающую способность.

Количественная мера компактности объекта зависит от структуры его отношений с другими объектами обучающей выборки. Среди факторов, влияющих на оценку структуры, особое значение имеет размерность признакового пространства [7] и расстояния между объектами по заданной метрике р(х,у). С этими факторами связано такое понятие, как «проклятие размерности пространства» [8].

Задача вычисления меры компактности объекта в рамках его собственного признакового пространства формулируется так. Считается, что задано множество объектов Eo = {Si, ..., Sm}, разделенное на непересекающиеся классы Ki и K2. Описание объектов производится с помощью набора из n разнотипных признаков: X(n) = (x 1, ..., Xn), £ из которых измеряются в интервальных шкалах, (n - £) - в номинальной. На множестве объектов Еo задана метрика р(х, у).

Пусть r = Р (Sd, Su) = min Р (Sd, S- ) - расстояние от Sd е Kt, t = 1, 2, до ближайшего (гранично-

SJ eK3-t

го) объекта Su е Кз-t, ДК, р) - множество граничных объектов класса Кз-t. Обозначим через O(Sd,p) = = {Si е K|p(Si, Sd) < rd} и Z(Sd, р) = {Si е O(Sd, p)|p(S, S) < rd}, S* е Г(К, р).

Объекты Sd, Su е Kt считаются связанными, если O(Su,p) n Z(Sd,p) ф 0. Компактность объекта Sd е Kt на наборе X(k) с X(n), к < n, вычисляется как

е,(X(к)) = |{S, е K, | O(Sj,Р)nZ(Sd,Р) * 0}| /\Kt\. (1)

Очевидно, что 0 < 9d(X(k)) < 1, так как Ki n K2 = 0. Требуется найти такой набор X(u) с X(n), при котором

0, (X (u)) = таХЛ (X (к)). (2)

Определяемый по (2) набор Х(и) применяется для описания собственного признакового пространства объекта Sd £ К а значение 0^(Х(и)) используется как мера его компактности.

2. Отбор признаков в собственное пространство объекта

При отборе набора Х(к) с Х(п), к < п, для описания признакового пространства объекта S £ Ео необходимо:

- произвести выбор метрики в качестве меры расстояния между объектами;

- задать способ нормирования значений количественных признаков для унификации масштабов измерений;

- определить наличие шумовых объектов в окрестности объекта S.

Описание допустимого объекта в рамках его собственного пространства из информативных признаков необходимо для нахождения индивидуальной меры сходства (различия) с другими объектами. Эта мера должна отражать отношения между объектами и служить средством для принятия решения.

Обозначим через ] - множество индексов соответственно количественных и номинальных признаков в наборе Х(п). Для унификации масштабов измерений значения количественных признаков дробно-линейным преобразованием отобразим в [0; 1]. В качестве меры расстояния между объектами Su,Sv £ Ео ^с (@е\, . • •, Мен), с = 1, ..., т) будем использовать метрику Журавлёва

С1, аш ф аш ,

, Л . , Г1,.

р( Su, sv ) = Z\aui - avi\ + Z-!

i^l i^J I 0,

a,,, = a,„

Для выбора информативного набора признаков X(r) с X(n), r < n, из собственного пространства объекта предлагается производить предобработку данных. Смысл предобработки заключается в поиске первой пары признаков (хг-, xj) с X(n), i Ф j, для информативного набора.

Множество расстояний объектов Ео от Sd £ Kt по паре (хг-, Xj), i, j £ {1, ..., n} рассматривается как радиусы вложенных гипершаров, представленных в виде упорядоченной последовательности

р( Sd,Sdi),...,p(Sd,Sd, ),...,p(Sd,Sm), Sd =Sdl, (3)

где ц = |Kt|. Обозначим через nt(i, j)(n3-t(i, j)) число ближайших к Sd объектов по (3) из Kt (K3-) при условии, что n«(i, j) + Пз-tO, j) = Ц. При n3-(i, j) = 0 все объекты класса Kt содержатся в гипершаре с центром в Sd. С помощью значения nt(i, j) решается проблема выбора первого шага при отборе собственного пространства объекта.

В процессе предобработки необходимо исключить появление сходных с Sd £ Kt описаний объектов из Кз-t. Плотность распределения представителей класса Kt в окрестности объекта Sd по наборам из {(хг-, х,)} предлагается определять по значениям

0j = max ,(^ (u)- z3-t (U))'Yj = ^ max (zt (u)- z3-t (u))' (4)

J Huuiti ) ' J 1<u<T\tiiJ ) '

где zt(u)( Z3-t(u)) - число объектов класса Kt (K3-) в гипершаре радиуса р(Sd,Sd ) из последовательности (3).

Пусть р (Sd, ^ ), к > 2 - значение радиуса гипершара из (3), определяемого по расстоянию до первого ближайшего объекта Sd е K3-t. Для выбора первой пары признаков в X(r) с X(n), r < n, из

множества наборов {(хг-, х;)} используется матрица B(Sd) = {byjnxn, значения элементов которой вычисляются как

4 0,P<S'' *) =0' (5)

' [IO(Sd,р)| X0j / yt,p<Sd,S4) > 0. ()

Целью вычисления значений bij Ф 0 является поиск кластеров данных с максимальной плотностью объектов одного с Sd £ Kt класса.

Существует зависимость количества связанных с Sd е К объектов для вычисления (2) от наличия или отсутствия шумовых объектов. Шумовые объекты из Кз- по Х(р), р < п, и метрике р(х, у) для объекта Sd е К предлагается определять следующим образом.

Пусть Г(р) - множество граничных объектов классов по Х(р) с Х(п), р < п, и метрике р(х, у),

G(Р) = {&W(,), где gt = {?. eK3_c |p(S.,S) = mmp(S.,S)}

- число объектов, для которых

Si е Kc П Г(р), c = 1, 2, является граничным. Объект Si е Кз-t П Г(р), t = 1, 2, считается шумовым относительно объекта Sd е Kt если:

1) р,S)= minp(Sd,Sr);

2) gi/|Kt| > |O(Si, p)|/|K3-t|.

Результаты предобработки с использованием (3), (4) в виде пары признаков H(2) = (xi, xj) рассматриваются в качестве начального приближения эвристического алгоритма пошагового отбора информативных признаков объекта Sd е Kt. Последовательность шагов по реализации алгоритма такова. Шаг 1. Ввод H(2). р = 2. X(p) = H(2). count = 0. T = 0.

Шаг 2. По набору X(p) вычислить множество граничных объектов Г(р) и G (p) = jg; ^. Шаг 3. Определить объект Sc е Кз-t П Г(р) с р (Sc, Sd )= min р (Sd, Sr). Если gJK\ > O(Sc, p)/|K3-t|,

Sr пГ(p)

то обновить множество граничных объектов Г(р) по X(p) на Eo\{Sc}.

Шаг 4. Вычислить значения элементов множества Z(Sd, р) и 9d(X(p)) по (1). Если 9d(X(p)) > T, то T = 9d(X(p)), H(p) = X(p), u = р. Если T = 1, то идти 7.

Шаг 5. count = count + 1. Если count = n, то идти 7.

Шаг 6. R = 0. V = 0. Начало цикла: Для всех Xa е X^X^) вычислять значения 9j, уу по (3) и (4) на X^ + 1) = X^) U {xa}. Если |O(Sd,p)| х 9у/уу > R, то R = |O(Sd, р)| х 9y/yy, v = a. Конец цикла. X^ + 1) = X^) U {xv}.р = р + 1. Идти 2. Шаг 7. Вывод T, H(u). Шаг 8. Конец.

Рис. 1. Иллюстрация процесса выбора связанных объектов для Л до и после удаления шумового объекта Si Fig. 1. Illustration of the process of selecting connected objects for S4 before and after removing the Si noise object

Процесс выбора связанных объектов для вычисления меры компактности (1) до и после удаления шумового объекта показан на рис. 1.

3. Вычислительный эксперимент

Для эксперимента была взята выборка данных German из [9]. Выборка представлена 1 000 объектами, разделенными на два класса Ki и Кг. Каждый объект рассматривается как кредитная история

клиента банка. Кредитная история описывается 20 признаками, 7 из которых измеряются в количественных шкалах, 13 - в номинальных. В табл. 1 и 2 представлена последовательность отбора признаков в собственное пространство для объектов Б^л е К\ и £5 е К2 алгоритмом из разд. 2. Количество объектов в гипершаре и связанных получено после удаления шумовых объектов.

Таблица 1

Отбор признаков в собственное пространство объекта £907 е К1

Набор признаков Количество объектов Значение (1)

в гипершаре связанных

Х9, Х20 23 23 0,0000

Х5, Х9, Х20 32 3\ 0,0443

Х5, Х6, Х9, Х20 63 58 0,0829

Х5, Х6, Х9, Х\4, Х20 55 54 0,077!

Х5, Х6, Х9, Х\2, Х\4, Х20 59 90 0Д286

Х5, Х6, Х9, Х\2, Х\4, Х\6, Х20 49 85 0,\2\4

Х5, Х6, Х9, Х\\, Х\2, Х\4, Х\6, Х20 77 96 0,\37\

Х2, Х5, Х6, Х9, Х\\, Х\2, Х\4, Х\6, Х20 72 9\ 0,\300

Х2, Х5, Х6, Х9, Х\\, Х\2, Х\4, Х\5, Х\6, Х20 63 Ш 0,\443

На наборе х% Х20 (см. табл. 1) значение (1) равно 0, так как существует объект из К\, описание которого совпадает (пересекается) с описанием ближайшего к £907 е К\ объекта из К2.

Таблица 2

Отбор признаков в собственное пространство объекта £ е Кг

Набор признаков Количество объектов Значение (1)

в гипершаре связанных

Х8, Х\3 7 \6 0,0000

Х4, Х8, Х\3 \6 23 0,0000

Х4, Х8, Х\3, Х\4 \6 24 0,0000

Х4, Х8, Х\3, Х\4, Х\8 \8 \9 0,0000

Х4, Х8, Х\\, Х\3, Х\4, Х\8 37 4\ 0,0586

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Х4, Х5, Х8, Х\\, Х\3, Х\4, Х\8 42 48 0,0686

Как видно из табл. 1 и 2 количество связанных объектов может быть больше, меньше или равно количеству объектов в гипершаре. Собственные наборы признаков для восьми случайно выбранных объектов из классов К\ и К2 приведены в табл. 3.

Таблица 3

Результаты отбора признаков в собственное пространство восьми объектов из классов К1 и Кг

Номер объекта (класс) Набор признаков Значение (1)

3\0 (\) Х5, Х\0, Х\\, Х\2, Х\4, Х\8, Х20 0,0400

325 (\) Х\, Х5, Х\2 0,087\

460 (\) Х\, Х2, Х5, Х7, Х8, Х9, Х\0, Х\2, Х\3, Х\4, Х\5, Х\6, Х\8, Х\9, Х20 0,\\7\

826 (\) Х2, Х3, Х4, Х5, Х7, Х8, Х\0, Х\\, Х\2, Х\4, Х\5, Х\6, Х\7, Х\8, Х\9, Х20 0,077\

38 (2) Х2, Х4, Х5, Х6, Х7, Х\6, Х\7 0,0\67

\25 (2) Х\, Х5, Х\\, Х\9 0,0\67

707 (2) Х2, Х3, Х5, Х6, Х\0, Х\2, Х\4, Х\5, Х\6, Х\8, Х\9, Х20 0,0300

827 (2) Х\, Х2, Х5, Х6, Х8, Х9, Х\0, Х\\, Х\2, Х\3, Х\7, Х\8, Х20 0,0267

Как видно из табл. 3, свойством собственного пространства объектов класса К2 (плохие клиенты) является относительно низкое значение компактности по отношению связанности объектов (см. значение (1)) по сравнению с К\ (хорошие клиенты).

Для сравнительного анализа рассмотрим формирование собственного признакового пространства объектов из табл. 3 по критерию из [\0]. Устойчивость объекта Sd е К по (3) на наборе Х(к) с Х(п) вычисляется как значение функционала

Е ( ^, X (к )) =

Л

тах

1 < I <т

(1) (')

Л

К

К

(6)

где ^(/), гз-(/) - число объектов в ,...,Ба } с Е0, определяемых по (3), соответственно из классов К

и Кз^. Множество допустимых значений (6) принадлежит интервалу (0; 1]. Условием для поиска набора информативных признаков Х(ц), ц < п, для Sd е К является

р (, X (ц)) = 1шх тах р (^, X (к)). (7)

Выбор первой пары признаков в Х(2) из {(х/, х])}/,]-е{1,.,п} производится по (7). Процесс отбора реализован в виде последовательного (пошагового) добавления признаков в Х(ц), ц = 2, 3,... Существенным отличием отбора информативных признаков для Sd е К по (7) от (1) является «безразличие» к наличию шумовых объектов из класса Кз^. Информативные наборы признаков, получаемые по экстремуму (7), приведены в табл. 4.

Таблица 4

Информативные наборы признаков объектов по критерию (7)

Номер объекта (класс) Набор признаков Значение (7)

310 (1) X2, X5, Х14 0,2238

325 (1) X1, X3, X5 0,3819

460 (1) X1, X2, X5, X14, X16 0,3571

826 (1) X3, X5, X9, X19 0,2481

38 (2) X6, X10, X13, X16, X20 0,2090

125 (2) X1, X2, X7, X15, X20 0,2143

707 (2) X2, X4, X20 0,2338

827 (2) X1, X13, X14, X16, X20 0,3014

Относительно малое различие между оценками по (7) из разных классов (см. табл. 4) объясняется отсутствием учета наличия шумовых объектов и непустого множества объектов из К1 и К2, описания которых на определяемом наборе признаков Х(и) с Х(п) совпадают.

Заключение

Разработан метод отбора признаков в собственное пространство объекта на основе отношения связанности объектов по системе гипершаров. Отношение связанности применяется для вычисления меры компактности объекта относительно своего класса в определяемом подпространстве заданного признакового пространства. Метод может быть использован для поиска скрытых закономерностей в данных в рамках информационных моделей из слабо формализованных предметных областей.

ЛИТЕРАТУРА

1. Дюк В.А. Методология поиска логических закономерностей в предметной области с нечеткой системологией: на примере

клинико-экспериментальных исследований : дис. ... д-ра техн. наук. СПб., 2005. 309 с.

2. Ignat'ev N.A., Mirzaev A.I. The Intelligent Health Index Calculation System // Pattern Recognition and Image Analysis. 2016.

V. 26, No. 1. P. 73-77.

3. Загоруйко Н.Г., Борисова И.А., Дюбанов В.В., Кутненко О.А. Количественная мера компактности и сходства в конку-

рентном пространстве // Сибирский журнал индустриальной математики. 2010. Т. 13, № 1 (41). С. 59-71.

4. Ignatyev N.A. Structure Choice for Relations between Objects in Metric Classification Algorithms // Pattern Recognition and

Image Analysis. 2018. V. 28, No. 4. P. 590-597.

5. Колесникова С.И. Методы анализа информативности разнотипных признаков // Вестник Томского государственного уни-

верситета. Управление, вычислительная техника и информатика. 2009. № 1 (6). С. 69-80.

6. Загоруйко Н.Г., Кутненко О.А., Борисова И.А., Дюбанов В.В., Леванов Д.А., Зырянов О.А. Выбор информативных при-

знаков для диагностики заболеваний по генетическим данным // Вавиловский журнал генетики и селекции. 2014. Т. 18, No. 4/2. С. 898-903.

7. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение раз-

мерности. Мо. : Финансы и статистика, 1989. 607 с.

8. Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение : пер. с англ. М. : ДМК Пресс, 2018. 652 с.

9. The UCI Machine Learning Repository. URL: http://archive.ics.uci.edu/ml/datasets (accessed: 09.04.2019).

10. Игнатьев Н.А. Индексирование объектов по индивидуальным наборам информативных признаков // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2016. № 4 (37). С. 27-35.

Поступила в редакцию 17 апреля 2019 г.

Ignatyev A.N., Mirzaev A.I. (2019) SELECTION OF FEATURES INTO THE OBJECT'S OWN SPACE BASED ON THE MEASURE OF ITS COMPACTNESS. Vestnik Tomskogo gosudarstvennogo universiteta. Upravlenie vychislitelnaja tehnika i informatika [Tomsk State University Journal of Control and Computer Science]. 49. pp. 55-62

DOI: 10.17223/19988605/49/7

Considered using of logical regularities in the form of hyper-sphere for the selection of feature into the own space of the object from sample Eo = {S1,...,Sm}. Sample divided into of disjoint subset (classes) K and K2. The objects are described by means of the set of n diverse featuresX(n) = (x1, ..., xn). On the set Eo, the metric p(x, y) is given.

Let = p(,SB) = min p(,S.) be the distance from Sd e Kt, t = 1, 2 to the nearest (boundary) object Su e K3-t, r(Kt, p) be

Sj eK3-t

the set of boundary objects of the class K3-t. Denote by O(Sd, p) = {Si e K!p(Si,Sd) < rd} and Z(Sd, p) = {Si e O(Sd, p)|p(Si, S*) < rd}, S* e r(Kt, p). The objects Sd, Su e Kt are considered to be connected if O(Su, p) n Z(Sd, p) ^ 0. The compactness of the object Sd e Kt on the setX(k) c X(n), k < n is calculated as

Qd(X(k)) = |{Sj e Kt | O(S,,p) n Z(Sd,p) * 0}| / \Kt\. The object Si e K3-t 0 r(p), t = 1, 2 is called noise relative to the object Sd e Kt if: 1 p(Sd,S,.)= min p(Sd,Sr);

S, eK3_,

2. gJK > |O(^i,p)|/|K3-t|, gi

{S, e Kt|p(SJ,S) = min p(S,,S)}

is the number of objects, where Si e Ki-t П f(p) is the nearest

The set X(u) cX(n), computed on Eo\{Si} as Qd (X(u)) = max (X(k)) is considered informative for the object Sd e Kt,

and the value of Q4X(u)) is considered as a measure of its compactness.

To implement the algorithm of step by step selection of features into an informative set, data preprocessing is performed. The purpose of preprocessing is to select the first pair (xi, xj) into an informative set based on the proposed criterion. The criterion is used to search for a cluster of data with a maximum density of descriptions of objects of one with Sd class Kt by sets of {(xi, xj)}.

The results of the computational experiment are described according to 1 000 bank customers. Customers are divided into 700 good and 300 bad customers. From the results of the experiment, it was concluded that the measure of compactness among good customers is higher than that of bad ones.

one.

Keywords: relation of connectedness of objects; object's own space; measure of compactness.

IGNATEV Nikolay Aleksandrovich (Doctor of Physics and Mathematics, Professor, National University of Uzbekistan, Tashkent, Uzbekistan).

E-mail: ignatev@rambler.ru

MIRZAEV Aziz Ibrakhimovich (National University of Uzbekistan, Tashkent, Uzbekistan). E-mail: mirzaevaziz@gmail.com

REFERENCES

1. Dyuk, V.A. (2005) Metodologiya poiska logicheskikh zakonomernostey v predmetnoy oblasti s nechetkoy sistemologiey: na

primere kliniko-eksperimental'nykh issledovaniy [Methodology of the search for logical patterns in the subject area with fuzzy systemology: clinical and experimental studies]. Engineering Dr. Diss. St. Petersburg.

2. Ignatiev, N.A. & Mirzaev, A.I. (2016) The Intelligent Health Index Calculation System. Pattern Recognition and Image Analysis.

26(1). pp. 73-77. DOI: 10.1134/S1054661816010089

3. Zagoruiko, N.G., Borisova, I.A., Dyubanov, V.V. & Kutnenko, O.A. (2010) A quantitative measure of compactness and similarity

in the competitive space. Sibirskiy zhurnal industrial'noy matematiki - Siberian Journal of Industrial Mathematics. 1(41). pp. 59-71.

4. Ignatyev, N.A. (2018) Structure Choice for Relations between Objects in Metric Classification Algorithms. Pattern Recognition

and Image Analysis. 28(4). pp. 590-597. DOI: 10.1134/S1054661818040132

5. Kolesnikova, S.I. (2009) Methods for analyzing the informativeness of various types of features. Vestnik Tomskogo gosudarstven-

nogo universiteta. Upravlenie, vychislitel'naya tekhnika i informatika - Tomsk State University Journal of Control and Computer Science. 1(6). pp. 69-80.

6. Zagoruiko, N.G., Kutnenko, O.A., Borisova, I.A., Dyubanov, V.V., Levanov, D.A. & Zyryanov, O.A. (2014) Feature selection in

for medical diagnostics on microarray data. Vavilovskiy zhurnal genetiki i selektsii - Vavilov Journal of Genetics and Breeding. 18(4/2). pp. 898-903.

7. Ayvazyan, S.A., Buchstaber, V.M., Enyukov, I.S. & Meshalkin, L.D. (1989) Prikladnaya statistika. Klassifikatsiya i snizhenie

razmernosti [Application statistics. Classification and reduction of dimension]. Moscow: Finansy i statistika.

8. Goodfellow, I., Bengio, Y. & Courville, A. (2016) Deep Learning. Cambridge: MIT Press.

9. UCI. (n.d.) [Online] Available from: http://archive.ics.uci.edu/ml/datasets. (Accessed: 9th April 2019).

10. Ignatiev, N.A. (2016) Indexation of objects according to individual sets of informative feature. Vestnik Tomskogo gosudarstven-nogo universiteta. Upravlenie, vychislitel'naya tekhnika i informatika - Tomsk State University Journal of Control and Computer Science. 4(37). pp. 27-35. DOI: 10.17223/19988605/37/3

i Надоели баннеры? Вы всегда можете отключить рекламу.