Научная статья на тему 'Оценка близости структур отношений объектов обучающей выборки на многообразиях наборов латентных признаков '

Оценка близости структур отношений объектов обучающей выборки на многообразиях наборов латентных признаков Текст научной статьи по специальности «Математика»

CC BY
1
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
латентные признаки / плотность распределения / обобщенные оценки объектов / мера расстояния / latent features / distribution density / generalized estimates of objects / measure of distance

Аннотация научной статьи по математике, автор научной работы — Николай Александрович Игнатьев, Бахриддин Хусниддин Угли Акбаров

Рассматриваются оценки близости структур отношений объектов обучающей выборки в разных признаковых пространствах. Считается, что эти пространства представлены наборами латентных признаков. Многообразия наборов латентных признаков являются результатом применения разных способов формирования непересекающихся групп из исходных признаков для их синтеза. Значения латентных признаков вычисляются как обобщенные оценки объектов по группам. Разработан метод вычисления плотности распределения по множеству граничных объектов классов. Предложена мера расстояния между плотностями распределения в разных признаковых пространствах.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Estimation of the proximity of structures of relations of objects of the training sample on manifolds of sets of latent features

The evaluation of the proximity of the structures of relations between the objects of the training sample in different feature spaces is considered. It is believed that these spaces are represented by sets of latent features. Varieties of sets of latent features are the result of applying different methods of forming non-overlapping groups from initial features for their synthesis. The values of latent features are calculated as generalized estimates of objects by groups. A method for calculating the distribution density over a set of boundary objects of classes has been developed. A measure of the distance between distribution densities in different feature spaces is proposed.

Текст научной работы на тему «Оценка близости структур отношений объектов обучающей выборки на многообразиях наборов латентных признаков »

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2023 Управление, вычислительная техника и информатика № 65

Tomsk: State University Journal of Control and Computer Science

Научная статья УДК 519.95

doi: 10.17223/19988605/65/7

Оценка близости структур отношений объектов обучающей выборки на многообразиях наборов латентных признаков

Николай Александрович Игнатьев1, Бахриддин Хусниддин угли Акбаров2

12Национальный университет Узбекистана, Ташкент, Узбекистан 1 n_ignatev@rambler.ru 2 bahriddin.akbarov@gmail.com

Аннотация. Рассматриваются оценки близости структур отношений объектов обучающей выборки в разных признаковых пространствах. Считается, что эти пространства представлены наборами латентных признаков. Многообразия наборов латентных признаков являются результатом применения разных способов формирования непересекающихся групп из исходных признаков для их синтеза. Значения латентных признаков вычисляются как обобщенные оценки объектов по группам. Разработан метод вычисления плотности распределения по множеству граничных объектов классов. Предложена мера расстояния между плотностями распределения в разных признаковых пространствах.

Ключевые слова: латентные признаки; плотность распределения; обобщенные оценки объектов; мера расстояния.

Для цитирования: Игнатьев Н.А., Акбаров Б.Х. Оценка близости структур отношений объектов обучающей выборки на многообразиях наборов латентных признаков // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2023. № 65. С. 69-78. doi: 10.17223/19988605/65/7

Original article

doi: 10.17223/19988605/65/7

Estimation of the proximity of structures of relations of objects of the training sample on manifolds of sets of latent features

Nikolai A. Ignatev1, Bakhriddin Kh. Akbarov2

12 National University of Uzbekistan, Tashkent, Uzbekistan 1 n_ignatev@rambler.ru 2 bahriddin.akbarov@gmail.com

Abstract. The evaluation of the proximity of the structures of relations between the objects of the training sample in different feature spaces is considered. It is believed that these spaces are represented by sets of latent features. Varieties of sets of latent features are the result of applying different methods of forming non-overlapping groups from initial features for their synthesis. The values of latent features are calculated as generalized estimates of objects by groups. A method for calculating the distribution density over a set of boundary objects of classes has been developed. A measure of the distance between distribution densities in different feature spaces is proposed. Keywords: latent features; distribution density; generalized estimates of objects; measure of distance.

For citation: Ignatev, N.A., Akbarov, B.Kh. (2023) Estimation of the proximity of structures of relations of objects of the training sample on manifolds of sets of latent features. Vestnik Tomskogo gosudarstvennogo universiteta. Upravlenie, vychislitelnaja tehnika i informatika - Tomsk State University Journal of Control and Computer Science. 65. pp. 69-78. doi: 10.17223/19988605/65/7

© Н.А. Игнатьев, Б.Х. Акбаров, 2023

Введение

Формирование наборов латентных признаков рассматривается как один из способов решения проблемы проклятия размерности в задачах интеллектуального анализа данных. Для реализации линейных и нелинейных методов снижения размерности существует ряд условий, ограничивающих их применение. К таким условиям относятся:

- ориентация лишь на количественные признаки;

- чувствительность к проклятию размерности при вычислении меры расстояния между объектами;

- нелинейный рост сложности вычислений.

Одной из альтернатив получить решение проблемы, частично лишенное указанных выше недостатков, является использование линейных и нелинейных методов вычисления обобщенных оценок объектов классов [1, 2]. Относительно анализируемых данных эти методы:

- инвариантны к масштабам измерений признаков;

- адаптированы на использование значений исходных признаков в номинальной и интервальных шкалах измерений;

- применяются для формирования наборов латентных признаков.

Источником многообразия наборов латентных признаков является множество способов группировки исходных признаков, на основе которых происходит их формирование. При исследовании этих наборов использовался анализ изменения структуры отношений близости объектов выборки на разных метриках [3]. Для вычисления меры компактности выборки применялось отношение связанности объектов по системе гипершаров, в пересечении которых имеются граничные объекты классов.

На важность понятия сходства и различия анализируемых объектов в теоретических и практических задачах принятия решений, искусственного интеллекта, распознавания образов, обработки разнородной информации указывалось в [4]. Рассмотрены новые классы метрических пространств конечных, ограниченных, измеримых множеств и мультимножеств. Предложены новые виды метрик для оценивания сходства или различия многопризнаковых объектов, которые присутствуют в нескольких экземплярах с отличающимися значениями признаков.

Разработана мультиметодная технология последовательного агрегирования классифицируемых ситуаций [5], которая обеспечивает агрегирование исходных признаков, снижение размерности признакового пространства, построение иерархических систем составных критериев и интегрального показателя качества, используя разные комбинации нескольких методов принятия решений.

Есть предложение по использованию граничных объектов классов при сравнении плотности распределения объектов в различных признаковых пространствах. Искать различие между двумя пространствами через визуальное представление объектов из них не имеет смысла. Стохастический метод визуализации [6], использующий минимизацию различий по метрике Кульбака-Лейблера между плотностями распределений в исходном пространстве и Л2, не дает полной картины отношений между объектами классов по следующим причинам:

- структура отношений объектов изменяется при понижении размерности признакового пространства;

- меняется статус объектов (граничный, шумовой, эталонный, внутренний).

Одним из количественных показателей обучающей выборки является устойчивость признаков. Через равенство множества допустимых значений устойчивости в [1] показана общность между нелинейным преобразованием признаков в номинальной и интервальных шкалах измерений. Со свойством устойчивости связана предобработка данных с целями:

- удаления неинформативных признаков;

- разбиения на группы исходных признаков;

- формирования баз прецедентов из уникальных объектов [7].

Обобщенные оценки объектов рассматриваются как результат линейного или нелинейного отображения значений признаков из определяемых наборов на числовую ось. В линейном случае оценка - это сумма произведений весов признаков на вклады градаций объекта в номинальной шкале

измерений. С целью унификации шкал измерений применяются отображения значений количественных признаков в градации номинальных. Оптимальное число градаций для каждого признака определяется по критерию при разбиении его значений на непересекающиеся интервалы.

В нелинейном случае вычисление обобщенных оценок реализуется через произведение значений признаков объектов. Используется предобработка данных путем преобразования градаций номинальных признаков в значения функции принадлежности к классам. Формирование значения обобщенной оценки (латентного признака) объекта производится по правилам иерархической агломеративной группировки.

Предлагается оценивать плотность распределения обучающей выборки относительно множества граничных объектов классов. Основанием для использования множества граничных объектов при заданной метрике служит единственность:

- состава и мощности множества;

- значений радиусов гипершаров с центрами в граничных объектах, определяемых через расстояния до ближайших объектов из противоположных классов.

Представление обучающей выборки в разных признаковых пространствах меняет статус объектов с граничных на внутренние и наоборот. Отслеживать такие изменения предлагается через меру расстояния между плотностями распределений. Расстояние вычисляется относительно подмножества объектов, имеющих статус граничных на одном из наборов латентных признаков. Результаты анализа плотностей распределения востребованы при оценке качества эвристических метрик в задачах анализа данных [8], для формирования ансамблей алгоритмов распознавания [9] и объяснения процесса принятия решений на данных с большой размерностью.

1. Постановка задачи

Рассматривается задача распознавания в стандартной постановке. Считается, что задано множество объектов Eo = {З!, ..., Sm}, разделенное на два непересекающихся класса К1, К2. Описание объектов производится с помощью п разнотипных признаковХ(п) = (х1, ..., х„), 2 из которых измеряется в интервальных шкалах, п - 2 - в номинальной.

Считается, что на Х(п) определено два множества алгоритмов, отличающихся принципами формирования непересекающихся групп признаков: - аддитивных; ^2 - мультипликативных.

Алгоритмы А, В 6 используются для формирования непересекающихся групп признаков

Д^(А)) = {О1, ..., Оил)}, А(^(В)) = {О1, ..., О^)} при выборе описания объектов Ео по наборам латентных признаков У(^(А)) = (уь ...,уКл)), У(Г(В)) = (уь ...,у^). По каждой группе О, 6 Д(^(А)) (О, 6 Д(^(В))) производится синтез латентного признака у, 6 У^(А)) (у 6 У^(А))).

Заданы условия выбора подмножеств граничных по метрике р(х, у) объектов классов ©(А, р) и ©(В, р) соответственно на наборах У^(А)) и У(^В)). Требуется:

- вычислить плотности распределения объектов ©(А, р) и ©(В, р) на наборах У(^(А)) и У^(В));

- сравнить близость плотностей распределения ©(А, р) на У^(В)) и ©(В, р) на У(^(А)).

2. Аддитивный принцип вычисления обобщенных оценок объектов

Для вычисления обобщенных оценок используются нелинейные преобразования признаков, которые сводятся к замене исходных значений признаков на значения функции принадлежности объектов к классам.

Пусть для значений количественного признака хс е Х(п) в описании объектов Ео построена упорядоченная по неубыванию последовательность

Г1, ..., А), ..., Гт. (1)

Разбиение (1) на непересекающиеся интервалы основано на проверке утверждения, что существуют интервалы, в границах которых частота встречаемости значений признака у объектов из класса К будет больше, чем частота встречаемости у объектов из класса Кз^, ^ = 1, 2.

Для разбиения (1) на множество из рс (рс > 2) непересекающихся интервалов {[ги; ^]г}, 1 < и, и < V < т, / = 1, ..., рс, предлагается использовать критерий из [1]:

4 ( „ У ) ,с ( „ У )

К ^3-J

■ max, (2)

где dtc(u, V), dз-t,c(u, V) - количество представителей классов Ки, К3- в интервале [ти, л>]г, / е {1, ...,рс}.

Оптимальное значение, определяемое по критерию (2), в целом не является фиксированным на выборках из генеральной совокупности. Значения в границах интервала [ти, при анализе данных рассматриваются как градация номинального признака. Считается, что множество чисел, идентифицирующих рс градаций номинального признака, всегда можно взаимно-однозначно отобразить в множество {1, ..., рс}.

В целях унификации обозначений вместо dtc(u, V), t = 1, 2, для интервала [ти, ^]ц по Хс е Х(п) будем использовать dtc(ц). При вычислении функции принадлежности /с(ц) к классу К по градации ц е {1, 2, ...,рс} в качестве dlc(ц) ^с(ц)) используется число объектов класса К (К2) со значением ц. Значение функции принадлежности /с(ц) к классу К1 по интервалу Л>]ц (градации ц е {1, ..., рс}) определяется как

г (ц)=_ШМ__(3)

/с(ц) ^(ц)/К + ^(ц)/\к2\

Исключим из Х(п) множество признаков нелинейные преобразования для которых по (3) не существуют. Если частоты встречаемости значений количественного признака Хс е Х(п) при разбиении их на интервалы по (2) равны или существует градация ц е {1, ..., рс} с /с(ц) = 0,5 для номинального признака, то хс е

Обозначим через В ={/ | х, е Х(п)\Е} - множество индексов признаков, которые используются для нелинейных преобразований. Замена градаций признака на значения функции принадлежности объектов к классу К1 по (3) при рс > 2 рассматривается как нелинейное преобразование. При такой замене порядки следования исходных и преобразованных значений количественного признака не совпадают. Граница между объектами классов по значениям функции принадлежности (3) для хс е Х(«)\^ определяется как

Ос = (41 + ^2)/2, (4)

где <?1 = шт{Дц)| 1 - /с(ц) < 0,5, ц = 1, ..., рс}, 4 = тах(Дц)| 0,5 - /с(ц) > 0, ц = 1, ..., рс}.

При вычислении значения градации aic е {1, 2}, с е В для объекта & = {хги}иео по (4) используется проверка условия х,с е ^]ц для количественного признака и х,с = ц для номинального. Одно из двух значений градации определяется так:

„ /1,/с №< ^ ,

,с/с (ц)> ^.

Для сравнения разнотипных признаков безотносительно их шкал измерений предлагается использовать значения устойчивости. С учетом (2) формула вычисления устойчивости для количественного признака хс е Х(п)\Е имеет вид:

т(А ^ I /с (г)^,/с (1 )> 0,5; ^

Ф(С)-т {[« ]' }№ - /с (<))/с (< )< 0,5, (5)

где и - число объектов в интервале гу]\

Так как число градаций рс, рс > 2, номинального признака Хс е Х(п)\Е не меняется на выборках из генеральной совокупности и 2 X, - т , то значение устойчивости определяется как

1

Ф( с)-Ы, * ^ (г>0,5; (6)

Ф() т 2 [(1 - / (/)) X,, / (/ )< 0,5. ()

Число непересекающихся интервалов по (2) на выборках из генеральной совокупности не является постоянной величиной. Существование зависимости значений устойчивости (5) от числа интервалов доказывается в теореме

Теорема 1. Значение устойчивости (5) при неограниченном росте числа объектов выборки Ео, разделенных на два непересекающихся класса, стремится к постоянной величине Ф, Ф 6 (0,5; 1].

Доказательство. Число объектов в непересекающихся интервалах {[ги; гу]г}, полученных по (2) на (1), 2 Ь = т . Согласно закону больших чисел оценка сходимости по вероятности при 0 < е < 1

будет иметь вид:

Иш Р

2 /(0+ 2 (1 -/(0)

/с (')>0,5

/с (>)<0,5

т

> £

0.

V У

Вес признака хс 6 Х(п)№ в описании объектов выборки вычисляется через градации из {1, 2} в номинальной шкале. Обозначим через g(c, - количество значений градацииу е {1, 2} признака

хс 6 Х(п)ХЕ в описании объектов соответственно класса К и Кг. Межклассовое различие по признаку хс определяется как величина

2

2 g1cg2c

1 - 4=^—г. (7)

м_

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

К2 I

Степень однородности (мера внутриклассового сходства) рс значений градаций признака по классам К1, Кг вычисляется по формуле

^ (^ -1) + g2c (g2c -1)

в = ^_

с (I -1) + К21(| -1)'

(8)

С помощью (7), (8) вес признака хс 6 Х(п)№ в номинальной шкале определяется как произведение внутриклассового сходства и межклассового различия:

Wс = РДс. (9)

Множество допустимых значений весов признаков, вычисляемых по (9), принадлежит интервалу (0; 1].

Для вычисления обобщенных оценок объектов на Ео используются вклады градаций признаков. Вклад градации у 6 {1,2} признака хс 6 Х(п)\Е определяется как

V,

а

2 Л

КЛ к

VI ^ I 2\У

(10)

где а^., а- количество значений градации у признака хс соответственно в классах К и Кг, Wс - вес

признака хс по (9). Обобщенная оценка объекта 6 Ео по описанию в номинальной шкале измерений = {ай}16о на наборе ТиРЬЛМ с В и вкладам (10) вычисляется как

ад) = 2 ^ (ап )• (11)

геТиРЬЛМ

При разбиении признаков из Х(п)ХЕ на непересекающиеся группы и синтезе наборов латентных признаков из них по аддитивному принципу используются:

- выбор подмножеств исходных признаков по правилам иерархической агломеративной группировки;

- формирование последовательности из упорядоченных по значениям устойчивости (5), (6) исходных признаков и разбиение этой последовательности на заданное число непересекающихся подмножеств;

- определение числа и состава групп по датчикам случайных чисел.

2.1. Алгоритм иерархической агломеративной группировки признаков по аддитивному принципу

Алгоритм иерархической агломеративной группировки [10] реализует жадную стратегию формирования наборов латентных признаков. Количество групп и их состав определяются алгоритмическим путем из Х(п)\р на основе принципа динамического программирования.

Пусть Т (р с Т) - множество признаков, принадлежность которых к непересекающимся группам установлена. При |Т| < п формирование очередной группы О по правилам иерархической агломеративной группировки будет следующим:

- выбор хс 6 Х(п)\Т с максимальным значения веса (9) в качестве первого представителя группы О, Т = Ти{хс};

- включение признака Хр 6Х(п)\Тв группу О = Ои{хр} при условии

Ъ. >Ъ±1. и ^= тах ,

е, е,±, е, е,^

где уг(9г) - внутриклассовое сходство (межклассовое различие) по значениям обобщенных оценок (11)

на О, I = |О|, |Ои{хр}| = I + 1.

3. Мультипликативный принцип вычисления обобщенных оценок объектов

При вычислении обобщенных оценок объектов по мультипликативному принципу используются значения весов признаков и их попарных комбинаций. Веса количественных и номинальных признаков определяются разными методами. Для данных (латентных и исходных) в интервальных шкалах измерений рекомендуется использовать интервальный метод [2], как это сделано при реализации правил иерархического агломеративного алгоритма группировки признаков.

В качестве границ двух непересекающихся интервалов [л1; лг], (пг; пз], определяемых по (1), используются П1 = п, лг = г, 1 <у < т, лз = гт. Интервалы [л1; лг] и (пг; пз] идентифицируются, соответственно, как первый и второй. Вес признака объектов классов по (1) вычисляется как максимум произведения внутриклассового сходства и межклассового различия по критерию

f JL , v 2 2 , ч

XXud (IK3_,\-ui,)

d=1 1=1

XX( ud -1)

ud

XI k\(I Kt\-1)

V 1=1

2 K K2

^ max , (12)

где и* ) - количество значений признака Хс е Х(п) у объектов из класса К (Кз-) в й-м интервале.

Множество допустимых значений критерия (12) принадлежит (0; 1] и используется для оценки компактности объектов классов на числовой оси. Если в каждом интервале содержатся все значения признака объектов из одного класса, то его вес равен 1. Граница (порог) между классами К и Кг для количественного признака Ха е Х(п) определяется как

Г , (13)

где Ь - ближайшее к л2 значение из интервала (л2; л3], вычисляемого по (12).

Замену градаций номинальных признаков на значения функции принадлежности объектов к классам по (3) предлагается использовать при синтезе латентных признаков по правилам иерархической агломеративной группировки. Алгоритм и правила группировки количественных признаков описаны в [2]. Реализация процесса попарного объединения признаков для формирования множества из непересекающихся групп б = {О1, ..., О^ > 1, основана на использовании экстремальных значений критерия (12) и соответствующих ему границ двух непересекающихся интервалов.

Обозначим через У(п - q) набор из латентных и исходных признаков на ^-м шаге иерархической группировки, У(п) = Х(п) при q = 0. Проверке условия включения признака ур 6 У(п - q) в группу О 6 б

предшествует нормирование его значений с использованием границ интервала [п\р, Л2р](п2р; пзр] по формуле

аР = (Ур - П2р)/(пзр - П1р). (14)

Для количественного признака значения границ интервалов [nip; Л2р](п2р; пзр] определяются по критерию (12). После замены градаций номинального признака на значения функции принадлежности (3) выбор границ П1р, пзр аналогичен (12), а в качестве значения Пр используется (4).

Синтез значений латентного признака y 6 Y(n-q-1) с нормированием по (14) для пары (у-, у) с Y(n - q) производится по формуле

У = % (ti wat + tj Wjaj) + (1 - %) tij Wij(ai aj - Л2у)/(язу - я, ti, tj, tj e {-1, 1}, % e [0; 1], (15) где Wi, wj, Wij - веса признаков и значения границ [ль,; Я2у](л2у-; лзу-], определяемые по (12).

При реализации правил иерархической агломеративной группировки используется принцип динамического программирования. Группа G и латентный признак у, полученный на ее основе по (15), считаются сформированными, если не существует пары (у, уг), yi 6 Y(n - q), при объединении которой в у* 6 Y(n - q - 1) веса признаков по (12) w(y*) > w(y).

4. О плотности распределения по множеству граничных объектов классов

Рассматриваются вычисление и анализ плотности распределения в окрестностях граничных по заданной метрике объектов классов. Смена признакового пространства влечет за собой изменение конфигурации граничных объектов выборки. Оценку таких изменений предлагается проводить по парам наборов латентных признаков.

Множество граничных объектов классов по метрике р(х, у) на наборе латентных признаков Ь определим как

В(L) = 15 е Е0 |р(5,,S) mrn^ р(St,)} .

Обозначим через В(Ь\), В(Ьт) множество граничных объектов Ео, полученное на наборах латентных признаков Ь1 и Ь2. Определим множество пар граничных объектов Qu, и = 1, 2, как

Qu

{s,, Sj е В (Lu) ,S, e Kt |р( S, Sj )= mm р( S,, Sd ), t = 1,2}.

При сравнении плотностей распределения на Ь и Ь2 используются множества граничных пар объектов Ql и Q2.

Определим плотность объектов в Ь2 по гипершару с центром в 8 6 Ql П Ц и радиусу р(8-, 5), где 6 Ql П Кз^ и р (5 , ^) = ^ шт р (5 , ^). Обозначим через ъЦ) = р(8-, расстояние между объектами Si 6 К и 6 Кз-4 в Ь2, 0(1) = {8а 6 Ц р(8, Ба) < г2(0}, N0(1) = {8а 6 Кз^| р(8, 5а) < ЫО). Плотность распределения по гипершару с центром в 8 6 Q1 на наборе Ь2 будет вычисляться как

Zch2i ( S. ) =

■ S

Sa eG(i)

l Р( Sa , Si )

r2(i)

/ G (, )|-

s

Sa eNG(i)

l Р(Sa , Si )

r2(j)

/ |NG (i )| ,| NG (i )|>0;

0,1 NG (i )| = 0.

(16)

|g(i)| |NG(i)|

K

K

Аналогично (16) вычисляется ZchuS) относительно Si 6 Q2. Плотность Zchuu(Si) в Lu, u = 1, 2, по Si 6 Qu П Kt определяется как

Zch (S ) ■

uu \ 1 /

1 + z

p(Sa,Si )<p(Sj,Si )

1 _p(S,S)

, p(Sjл ).

/ son (i )

<1 )

С / лЛ son

V W J

где 8вп(}) = |{5'а|р(5,а, X) < р($-, Х)}|.

Расстояние между плотностями распределений объектов Е0 на наборах Ь1, Ь2 вычисляется следующим образом:

ЛБ (Ц, 4 )= I \Zchi, (5)-Zch2i (5 ) / Щ . (17)

Sea

(18)

Аналогично (17) определяется расстояние между плотностями распределений на наборах Ьг, 1,1:

ЛБ (Ь2,4 )= I \Zch22 (Б)-Zchl2 (5 )| / Щ .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Отметим, что расстояние по АБ(ЬЩ Ьз-И) неотрицательно и равно нулю при Ь = Ьг, АБ(Ь1, Ьг) Ф АБ(Ьг, Ь) при Ь Ф Ьг.

5. Вычислительный эксперимент

Анализируются данные по 3-й хромосоме для 2 504 объектов [11], которые содержат информацию по одиночным мутациям в некоторых кодирующих гены участках молекулы ДНК. Возможные значения: 0 (нет мутации); 1 (мутация в одной аллели); 2 (мутация в обеих аллелях). При классификации ДНК по генотипу ELP6-201 в качестве целевого признака использовались данные из молекулы-посредника РНК. В эксперименте рассматривается вариант разбиения объектов на два класса: с одной и двумя мутациями. При формировании выборки для машинного обучения использовались лишь уникальные объекты. Из 52 объектов 27 были с одной мутацией, 25 - с двумя.

Синтез двух наборов латентных признаков Ь и Ьг из 38 исходных для ELP6-201 проводился по правилам иерархических агломеративных алгоритмов группировки соответственно по аддитивному и мультипликативному принципам. Мощность набора, сформированного по аддитивному принципу, |Ь11=9, по мультипликативному - |Ьг|=5. Результаты вычисления меры компактности (12) и точности распознавания по границе (13) для каждого латентного признака приводятся в табл. 1, 2. Номера латентных признаков соответствуют порядку их формирования по правилам иерархических агломера-тивных алгоритмов.

Выводы о возможности применения отдельных латентных признаков для классификации объектов таковы. Использование признака № 1 из табл. 2 с точностью 96,15% явно предпочтительнее выбора признака № 2 из табл. 1 с точностью 71,15%. Между значениями меры компактности (12) и точности распознавания по (13) нет линейной зависимости. Точность распознавания 50,00% получена при компактности 0,1419 (см. табл. 1) и 0,2286 (см. табл. 2).

Таблица 1

Значения меры компактности и точности распознавания по набору ¿1

№ латентного признака Значение

компактности (12) точности в % по (13)

1 0,3197 69,23

2 0,3216 71,15

3 0,2848 65,38

4 0,0743 3,85

5 0,0743 3,85

6 0,0743 3,85

7 0,0743 3,85

8 0,1419 50,00

9 0,1419 50,00

Таблица 2

Значения меры компактности и точности распознавания по набору Li

№ латентного Значение

признака компактности (12) точности в % по (13)

1 0,8550 96,15

2 0,3200 69,23

3 0,2286 50,00

4 0,0744 3,85

5 0,0744 3,85

Проверка свойства симметрии при вычислении расстояния между плотностями распределений на наборах Ь и Ь демонстрируется в табл. 3.

Таблица 3

Расстояния между плотностями распределения на наборах Li и Li

Базовая метрика Расстояние

AS(Li, L2) AS(L2, L1)

Евклида 0,0816 0,0634

Чебышева 0,1079 0,0779

Хэмминга 0,0935 0,0734

Результаты из табл. 3 подтверждают несимметричность расстояний по (17) и (18).

Заключение

Разработан метод вычисления плотности распределения в граничных объектах классов на многообразиях латентных признаков. Предложена мера расстояния по значениям плотностей распределений для оценки различий между структурами отношений объектов в разных признаковых пространствах. Мера расстояния рекомендуется для анализа различных способов редукции данных при машинном обучении.

Список источников

1. Ignatiev N.A. On Nonlinear Transformations of Features Based on the Functions of Objects Belonging to Classes // Pattern

Recognition and Image Analysis. 2021. V. 31 (2). P. 197-204.

2. Saidov D.Y. Data visualization and its proof by compactness criterion of objects of classes // International Journal of Intelligent

Systems and Applications (IJISA). 2017. V. 9 (8). P. 51-58.

3. Ignatyev N.A. Structure Choice for Relations between Objects in Metric Classification Algorithms // Pattern Recognition and

Image Analysis. 2018. V. 28 (4). P. 590-597.

4. Петровский А.Б. Показатели сходства и различия многопризнаковых объектов в метрических пространствах множеств и

мультимножеств // Искусственный интеллект и принятие решений. 2017. № 4. С. 78-94.

5. Петровский А.Б., Лобанов В.Н. Многокритериальный выбор в пространстве признаков большой размерности: мультиме-

тодная технология ПАКС-М // Искусственный интеллект и принятие решений. 2014. № 3. С. 92-104.

6. Sklearn.manifold.TSNE. URL: https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html (accessed: 20.01.2023).

7. Наврузов Э.Р. О формировании баз прецедентов для решения задач информационной безопасности // Вестник РГГУ.

Сер. Информатика. Информационная безопасность. Математика. 2022. № 3. С. 66-84. doi: 10.28995/2686-679X-2022-3-66-84.

8. Рудаков К.В. О некоторых факторизациях полуметрических конусов и оценках качества эвристических метрик в задачах

анализа данных // Доклады Российской академии наук. Математика, информатика, процессы управления. 2020. T. 492. С. 101-103.

9. Mbali K. Ensemble learning methods: Bagging, boosting and stacking. URL: https://www.analyticsvidhya.com/blog/2023/01/

ensemble-learning-methods-bagging-boosting-and-stacking/ (accessed: 20.01.2023).

10. Ignatev N.A., Rahimova M.A. Formation and Analysis of Sets of Informative Features of Objects by Pairs of Classes // Scientific and Technical Information Processing. 2022. V. 49 (6). P. 439-445.

11. Sudmant P.H. et al. An integrated map of structural variation in 2,504 human genomes // Nature. 2015. V. 526. P. 75-81. doi: 10.1038/nature15394

References

1. Ignatiev, N.A. (2021) On nonlinear transformations of features based on the functions of objects belonging to classes. Pattern

Recognition and Image Analysis. 31(2). pp. 197-204.

2. Saidov, D.Y. (2017) Data visualization and its proof by compactness criterion of objects of classes. International Journal of Intel-

ligent Systems and Applications. 9(8). pp. 51-58.

3. Ignatyev, N.A. (2018) Structure Choice for Relations between Objects in Metric Classification Algorithms. Pattern Recognition

and Image Analysis. 28(4). pp. 590-597.

4. Petrovsky, A.B. (2017) Indicators of similarity and dissimilarity of multi-attribute objects in metric spaces of sets and multisets.

Iskusstvennyy intellekt i prinyatie resheniy - Artificial Intelligence and Decision-Making. 4. pp. 78-94.

5. Petrovsky, A.B. & Lobanov, V.N. (2014) Multi-criteria choice in the feature space of high dimension: PAKS-M multi-method

technology. Iskusstvennyy intellekt i prinyatie resheniy - Artificial Intelligence and Decision-Making. 3. pp. 92-104.

6. Scikit. (n.d.) Sklearn.manifold.TSNE. [Online] Available from: https://scikit-learn.org/stable/modules/generated/sklearn.manifold.

TSNE.html (Accessed: 20th January 2023).

7. Navruzov, E.R. (2022) On forming the precedent bases for solving problems of the information security. Vestnik RGGU. Ser. Infor-

matika. Informatsionnaya bezopasnost'. Matematika. 3. pp. 66-84.

8. Rudakov, K.V. (2020) On some factorizations of semi-metric cones and quality estimates of heuristic metrics in data analysis

problems. Doklady Rossiyskoy akademii nauk. Matematika, informatika, protsessy upravleniya - The Russian Academy of Sciences. Mathematics, Informatics, Control Processes. 492. pp. 101-103.

9. Mbali, K. (n.d.) Ensemble learning methods: Bagging, boosting and stacking. [Online] Available from: https://www.analyticsvidhya.

com/blog/2023/01/ensemble-learning-methods-bagging-boosting-and-stacking/ (Accessed: 20th January 2023).

10. Ignatev, N.A. & Rahimova, M.A. (2022) Formation and analysis of sets of informative features of objects by pairs of classes. Scientific and Technical Information Processing. 49(6). pp. 439-445.

11. Sudmant, P.H. et al. (2015) An integrated map of structural variation in 2,504 human genomes. Nature. 526. pp. 75-81. DOI: 10.1038/nature15394.

Информация об авторах:

Игнатьев Николай Александрович - доктор физико-математических наук, профессор кафедры «Искусственный интеллект» Национального университета Узбекистана (Ташкент, Узбекистан). E-mail: n_ignatev@rambler.ru

Акбаров Бахриддин Хусниддин угли - докторант кафедры «Искусственный интеллект» Национального университета Узбекистана (Ташкент, Узбекистан). E-mail: bahriddin.akbarov@gmail.com

Вклад авторов: все авторы сделали эквивалентный вклад в подготовку публикации. Авторы заявляют об отсутствии конфликта интересов.

Information about the authors:

Ignatev Nikolay A. (Doctor of Physical and Mathematical Sciences, Professor, National University of Uzbekistan, Tashkent, Uzbekistan). E-mail: n_ignatev@rambler.ru

Akbarov Bahriddin Kh. (Post-graduate Student, National University of Uzbekistan, Tashkent, Uzbekistan). E-mail: bahrid-din. akbarov@gmail.com

Contribution of the authors: the authors contributed equally to this article. The authors declare no conflicts of interests.

Поступила в редакцию 05.05.2023; принята к публикации 08.12.2023 Received 05.05.2023; accepted for publication 08.12.2023

i Надоели баннеры? Вы всегда можете отключить рекламу.