Научная статья на тему 'Способ оценки прогностической силы бинарного показателя'

Способ оценки прогностической силы бинарного показателя Текст научной статьи по специальности «Математика»

CC BY
232
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИЯ ДАННЫХ / ПРОГНОСТИЧЕСКОЕ ПРАВИЛО / БИНАРНЫЙ ПОКАЗАТЕЛЬ / КЛАСТЕРНАЯ МЕТРИКА / DATA CLASSIFICATION / PROGNOSTIC RULE / BINARY VARIABLE / CLUSTER METRIC

Аннотация научной статьи по математике, автор научной работы — Дронов Сергей Вадимович, Фоменко Анастасия Павловна

В работе рассматривается решение одной из разновидностей задач классификации данных. Допустим, все рассматриваемое множество объектов разбито каким-то образом на две группы (правильное разбиение). Наряду с этим у каждого из рассматриваемых объектом измерен некоторый бинарный показатель у каждого из объектов он принимает значение 0 или 1. Требуется оценить, насколько уверенно знание этого показателя позволяет отнести объект к одной из групп правильного разбиения. Такого рода задача является разновидностью задачи дискриминантного анализа, где правило, относящее объект к одной из групп, называют прогностическим. Поэтому вводимая в работе числовая характеристика степени информативности показателя названа прогностической силой бинарного показателя. Она вводится путем оценки различий правильного разбиения множества и разбиения, построенного по изучаемому бинарному показателю. Величина различия определяется путем расчета кластерной метрики, ранее введенной в работе первого автора. Производится сравнение этой характеристики с традиционно используемыми в этом случае коэффициентами корреляции и коэффициентом относительного риска.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A Method for Estimating the Predictive Power of a Binary Indicator

The paper considers the solution of one of the types of classification problems in data analysis. Let us assume that the set of objects under consideration is in some way divided into two groups (we call this a regular partition). Along with this, each of the objects in view has a certain binary indicator measured for each of the objects it has only values 0 or 1. It is required to estimate the confidence to assign the object to one of the groups of the regular partition using the knowledge of this indicator. This problem is a variant of the so called discriminant analysis problem, where the rule for assigning an object to one of the groups is called prognostic. So, the introduced numerical characteristic of the indicator of the informational content is called the prognostic power of it. The characteristic is introduced by estimating the differences between the regular partition of the set and the partition constructed by the binary indicator being studied. The magnitude of the difference is determined by calculating the cluster metric previously introduced in the work of the first author. This characteristic is compared with the correlation coefficient and the relative risk ratio commonly used in such cases.

Текст научной работы на тему «Способ оценки прогностической силы бинарного показателя»

УДК 519.23

Способ оценки прогностической силы бинарного показателя

С.В. Дронов, А.П. Фоменко

Алтайский государственный университет (Барнаул, Россия)

A Method for Estimating the Predictive Power of a Binary Indicator

S.V. Dronov, A.P. Fom,enko Altai State University (Barnaul, Russia)

В работе рассматривается решение одной из разновидностей задач классификации данных. Допустим, все рассматриваемое множество объектов разбито каким-то образом на две группы (правильное разбиение). Наряду с этим у каждого из рассматриваемых объектом измерен некоторый бинарный показатель - у каждого из объектов он принимает значение 0 или 1. Требуется оценить, насколько уверенно знание этого показателя позволяет отнести объект к одной из групп правильного разбиения. Такого рода задача является разновидностью задачи дискриминантного анализа, где правило, относящее объект к одной из групп, называют прогностическим. Поэтому вводимая в работе числовая характеристика степени информативности показателя названа прогностической силой бинарного показателя. Она вводится путем оценки различий правильного разбиения множества и разбиения, построенного по изучаемому бинарному показателю. Величина различия определяется путем расчета кластерной метрики, ранее введенной в работе первого автора. Производится сравнение этой характеристики с традиционно используемыми в этом случае коэффициентами корреляции и коэффициентом относительного риска.

Ключевые слова: классификация данных, прогностическое правило, бинарный показатель, кластерная метрика.

БМ 10.14258/izvasu(2017)4-15

The paper considers the solution of one of the types of classification problems in data analysis. Let us assume that the set of objects under consideration is in some way divided into two groups (we call this a regular partition). Along with this, each of the objects in view has a certain binary indicator measured - for each of the objects it has only values 0 or 1. It is required to estimate the confidence to assign the object to one of the groups of the regular partition using the knowledge of this indicator. This problem is a variant of the so called discriminant analysis problem, where the rule for assigning an object to one of the groups is called prognostic. So, the introduced numerical characteristic of the indicator of the informational content is called the prognostic power of it. The characteristic is introduced by estimating the differences between the regular partition of the set and the partition constructed by the binary indicator being studied. The magnitude of the difference is determined by calculating the cluster metric previously introduced in the work of the first author. This characteristic is compared with the correlation coefficient and the relative risk ratio commonly used in such cases. Key words: data classification, prognostic rule, binary variable, cluster metric.

1. Обоснование и постановка задачи. Проблема классификации объектов исследования возникает в любой области науки. Инструменты для решения этой задачи весьма разнообразны и достаточно хорошо разработаны (см., например, до сих пор актуальную книгу [1], целиком посвященную этой теме, а также [2]). В частности, когда классы объектов, подлежащих изучению, должным образом определены и описаны, эта проблема сводится к выбору того из имеющихся классов,

к которому должен быть отнесен вновь обнаруженный объект, и получила название дискрими-нантного анализа, методы которого сегодня активно развиваются (см. [3]). Одно из востребованных применений этого аппарата - задачи так называемой доказательной медицины, основы которой изложены в [4, 5]. Речь здесь идет, например, о проблеме дифференциальной диагностики или создании математически обоснованных правил, называемых прогностическими, которые

по данным медицинских исследований позволяют поставить пациенту тот или иной диагноз. При этом часто данные медицинских исследований представлены не в числовой, а в бинарной форме (наблюдается определенный синдром или нет, были ли пройдены определенные лечебные процедуры и т.п.).

При построении прогностических правил традиционными способами, как правило, предполагается, что данные, по которым они строятся, имеют числовой характер, непрерывную шкалу значений. В теоретических обоснованиях эффективности подобных правил (например, [6]) дополнительно вводится предположение, что показатели исследуемых объектов имеют нормальные распределения, что заведомо неверно в предположении их бинарности. Поэтому бинарная ситуация требует отдельного изучения.

Предположим, что исследуемое множество и объектов разбито на два непустых подмножества А\ и А2 (здоровые и больные пациенты). Это разбиение будем обозначать А = А1А2 и называть правильным разбиением. Наряду с этим у каждого из объектов имеется некий бинарный показатель 2. Основная задача работы - ввести числовую характеристику, оценивающую его прогностическую силу, т. е. уровень доверия к возможности определять, в какое из подмножеств правильного разбиения следует отнести объект, зная только значение этого 2.

Для введения требуемой характеристики предлагается построить новое разбиение В = В1В2 того же множества и, относя в одно из подмножеств этого разбиения те объекты, для которых 2 = 1, а в другое те, для которых 2 = 0. Назовем его разбиением по 2 и сравним два полученных разбиения. Прогностическая сила 2 должна быть тем больше, чем в большей степени схожи эти разбиения - правильное и по 2.

Использовать введенную характеристику на практике возможно, например, тогда, когда установлена высокая прогностическая сила 2, а наличие этого синдрома, т.е. условие 2 =1, проверить оказывается проще, чем применять традиционные методы диагностики.

Следует также отметить, что решаемая задача по своей сути близка к так называемой рс«!-Ьое-задаче кластерного анализа, описание которой можно найти, например, в [7], но в силу бинар-ности рассматриваемых показателей не совпадает с ней в ее традиционной постановке.

2. Кластерная метрика и ее диапазон на семействе 2-разбиений. В качестве меры различия двух разбиений одного и того же конечного множества на непустые подмножества (далее будем употреблять термин разбиение) будем использовать кластерную метрику, которая была введена в [8]. Она определяется следующим обра-

зом. Условимся через \А\ обозначать количество элементов конечного множества А. Рассмотрим два разбиения А, В основного множества и. Для каждого х £ и найдутся множества Ах,Вх, его содержащие и являющиеся элементами первого и второго разбиений соответственно. Тогда величина кластерной метрики по определению равна

d(A, В) = ^\АхАВх\,

хеи

где АхАВх = (Ах \ Вх) и (Вх \ Ах) - симметрическая разность множеств.

В цитированной работе была доказана формула, позволяющая вычислять введенную метрику более удобным способом. Конкретизируем состав рассматриваемых разбиений. Пусть А = {А1,..., А3}, В = {В1,..., В} Введем обозначения

П^ = А П В3 \, = \AiABj \.

Тогда справедливо

d(A, В) = £ ^^ Т^. (1)

,j

В [8] доказано также, что максимально возможное значение метрики на семействе всех разбиений множества из п элементов равно п(п — 1) и достигается оно тогда и только тогда, когда s = п^ = 1, или наоборот.

Вернемся к нашей задаче. Мы рассматриваем лишь разбиения, состоящие из двух подмножеств. Будем называть их 2-разбиениями. В этом случае понятно, что, если \и\ = п, то значение d = п(п — 1) не может быть достигнуто. Займемся поиском достижимого максимума в рамках решаемой задачи.

Лемма 1 (основная лемма). Пусть заданы два 2-разбиения А = А1!А2, В = В1!В2 и s = \А1 АВ1 \. Тогда

¿(А, В) = 2s(n — s). (2)

Доказательство. Пусть Wi^ = А-1П Bj. Тогда \ Wi, j \ = П, j во введенных обозначениях. Условимся далее "двойственное значение" индекса i обозначать ^: ^ = 3 — i. Заметим тогда, что

AiABj = Wj иWi>, j, Щ = Wi.j, иWi,j иWi,jj,, а также s = П1 ,2 + П2, 1. Следовательно,

АВГ = Wi,^ и Wi= ААВ3: и, кроме этого,

~А~КЩ = П = Wi,^^ и Wi,,j, = А^АВГ.

Таким образом, из четырех симметрических разностей множеств первого и второго разбиений имеется всего две различных, причем, например,

A1A.B1A2A.B2 одинаковы, а количества элементов А1ДВ1 и А1АВ2 в сумме дают п. Применим формулу (1):

d(A, В) = П1_1в + П12(п - я) + П2дя+ + П2,2 (п - s) = s(nlд + П2,2) + +(п - s)(nl,2 + П21) = 2s(n - s).

Лемма доказана.

Заметим, что (2) не меняется при замене s на п - s. Поэтому без ограничения общности можно считать, что множества в разбиениях пронумерованы таким образом, что s = |А1ДВ1| < [п/2] ([п/2] - целая часть числа п/2).

Лемма 2. Для любого s е {1,2,..., [п/2]} и произвольного 2-разбиения А = А1!А2 существует 2-разбиение В = В1!В2 такое, что величина d(A, В) задается (2).

Доказательство. Пусть множество А1 содержит не меньше элементов, чем А2. Тогда s - 1 < |А1|. Выберем

С = {Х1, ...,Xs-l} С А1,

е А2

произвольно. Положим В1 = (А1 \ С) и{х8}, В2 = и \ В1. Тогда А1ДВ1 = {х1, ...,х3}, и, согласно лемме 1, d(A , В) = 2s(n - я). Лемма доказана.

Теорема 1. Все возможные значения метрики d на семействе 2-разбиений множества и из п элементов исчерпываются возрастающей цепочкой чисел dj, ] = 1, 2,..., [п/2], где

d1 = 2(п - 1) ds+l = ds + 2(п - 2s - 1), s = 1,..., [п/2] - 1;

\и/2]

[п2/2].

Доказательство. Рассмотрим ds = 2s(n - s), где s е {1, 2,..., [п/2]}. Согласно доказанным леммам 1, 2 иных значений метрика принимать не может, и каждое такое значение соответствует некоторой паре 2-разбиений и. Выписанные в утверждении теоремы соотношения легко проверяются непосредственно. Теорема доказана.

3. Прогностическая сила бинарного показателя. Заметим, что, если d фиксировано, то для тех 2-разбиений В = В1В2, которые удалены от данного А = А1!А2 на d, число s = |А1ДВ1| определяется из формулы (2) как

s(d) = 1 (п - /п2 - 2^ . (3)

Знак "-" перед радикалом здесь может быть выбран без ограничения общности в силу замечания после основной леммы. Поэтому всегда s = я(^) < п/2. Преимущество перехода от d к я(^) состоит еще и в том, что при увеличении d к следующему его возможному значению из теоремы,

. просто увеличивается на один, тогда как соседние значения d вычисляются сложнее.

Теорема 2. Пусть в 2-разбиении А = А1!А2 = k < п/2. Тогда количество 2-разбиений этого множества, удаленных от него на величину d из допустимого диапазона, указанного в теореме 1, равно

т(д) = т^))= СП - Х1^,я) - Х2^,я), где я задается формулой (3), х1= 1, если я = k = п/2, иначе 0, а х2(^, я) = С/п"2/2 + 1, если п четное, я = k = п/2, иначе 0.

Доказательство. Построить требуемое разбиение в силу основной леммы возможно путем построения такого В1 С и, чтобы |А1ДВ1| = я. Выберем подмножество С С и, ^ | = я произвольно. Положим

В1 = А1ДС, В2 = ВЦ = А1ДС. (4)

Нетрудно проверить, что А1ДВ1 = С, а значит, требуемое разбиение построено. Таким образом, чтобы построить все такие разбиения, следует перебрать все подмножества и из я элементов и применить (4), что можно сделать СП способами. Описанное построение не даст разбиения только в том случае, когда С = А1 - здесь В1 получится пустым, или С = А2, что приведет к В1 = и, а следовательно, к В2 = 0. Первая ситуация возможна только тогда, когда я = k, и этот единственный способ следует исключить из общего числа. Вторая же ситуация невозможна для k, я < п/2, и только в случае, когда в А оба подмножества одинаковы по величине, подлежат исключению два варианта (С = А1 или С = А2).

Повторяться построенные разбиения могут только в случае, когда в качестве В2 нового разбиения получится В1 одного из построенных ранее разбиений. Заметим, что в силу предложенного алгоритма построения это означало бы, что нашлись бы множества С, С1 , оба содержащие по я элементов, такие, что

А1ДС = А1ДС1 = А1ДС1.

Но это равенство возможно лишь для С1 = С. Поэтому повторения возникают только при четных п, я = п/2, и при этом каждое разбиение окажется учтенным точно два раза. Таким образом, в этом случае число разбиений будет равно СП/2/2, и, как и в предыдущем случае, следует исключить одно разбиение, при котором одно из множеств окажется пустым. Теорема доказана.

Лемма 3. Всего существует 2п-1 - 1 различных 2-разбиений множества из п элементов.

Доказательство. Любое 2-разбиение соответствует цепочке из цифр 0 и 1 длины п, написанных напротив каждого из элементов и: те элементы и, напротив которых будет написана 1, отнесем в первое множество разбиения, остальные -

я

во второе. Поскольку пустые множества в разбиении недопустимы, следует запретить цепочки, состоящие из одинаковых цифр. Получим 2п — 2 вариантов. При этом, если мы все нули поменяем на единицы и наоборот, то разбиение не изменится. Поэтому на самом деле их будет вдвое меньше. Лемма доказана.

Теперь вернемся к основной задаче. Пусть А = А1!А2 - правильное 2-разбиение изучаемого множества объектов и. Если предположить, что статистически значимой связи между некоторым бинарным показателем Z и этим разбиением нет, то разбиение, построенное по Z, может оказаться любым из 2п-1 — 1 возможных 2-разбиений множества и с равными вероятностями. Учитывая это, можно предложить следующий статистический критерий проверки значимости прогностической силы бинарного показателя Z.

Пусть \А1\ = k. Определим в как сумму числа элементов в А1, для которых Z = 0 и числа элементов А2, для которых Z = 1 (в = \А1АВ1\). Если окажется, что в > п/2, то изменим в, вычтя это большое значение из п: в := п — в. Найдем d = 2в(п — в). Выберем достаточно малое е > 0.

Используя формулы теоремы 3 при найденных параметрах, вычислим

N (¿)

[п/2]

Если

N (<!)

можно попробовать произвести сравнение предложенного метода с методами, использующими проверку значимости разного рода характеристик связи между этими показателями. В частности, наиболее распространенными показателями являются коэффициент корреляции Пирсона (или его вариант - коэффициент бисериальной корреляции), а также так называемый коэффициент относительного риска. Он для двух бинарных показателей определяется следующим образом. По значениям пар (У, Z) вычисляют четыре числа: а - количество пар (1, 1), Ь - пар (1,0) и с^ пар (0,1) и (0,0) соответственно. Коэффициент относительного риска полагают равным

RR

с + d

а + Ь

и считают факт связи между У., Z установленным, если RR значимо отличен от 1. Этот коэффициент широко применяют в медицине (многочисленные примеры есть в [9]), математические исследование и обоснование свойств этого коэффициента можно найти в [10].

Например, пусть правильное разбиение множества из 8 элементов задано значениями У во втором (и шестом) столбце таблицы, а другие два разбиения (по синдромам Z, Т) заданы столбцами 3, 7 и 4, 8 этой таблицы.

Три разбиения

близко к 1, то прогностическую силу Z следует признать статистически значимой. Точнее, если оно больше 1 — е, то, в случае отсутствия связи Z с правильным разбиением, получение настолько же или более близкого к правильному разбиению по Z было бы практически невероятно (имело бы вероятность, меньшую е).

4. Обсуждение и выводы. Пусть описанным выше способом установлена статистически значимая прогностическая сила бинарного показателя Z. Для использования этого показателя при практической диагностике следует разобраться, какое из значений (0 или 1) этого показателя должно сопровождаться отнесением объекта в первое множество правильного разбиения. Будем считать, что первые множества обоих разбиений соответствует значениям 1 показателей. Если в = \А1 АВ1\ не больше п/2, то таким значением будет Z =1, иначе Z = 0.

Заметим, что признание наличия значимой прогностической силы означает признание существования значимой статистической связи между бинарными показателями Z и У, который определяет правильное разбиение. Поэтому, введя обозначение для числа прогностической силы

Объект У Z Т Объект У Z Т

1 1 0 0 5 1 0 1

2 1 1 0 6 1 1 1

3 1 1 1 7 1 1 1

4 0 0 1 8 0 0 0

J (У^)

N

2п-1 — 1'

При расчете характеристик связи между У и Z получаем J(У., Z) = 0, 94, коэффициент корреляции р(У., Z) = 0,58, а RR принимает бесконечно большое значение. Все характеристики подтверждают наличие связи между показателями. Это правильно, поскольку по-разному здесь классифицируются только первый и пятый объекты. С другой стороны, J(У, Т) = 0, 71, р(У, Т) = 0,15, RR(У,T) = 1,33. Здесь число прогностической силы указывает на наличие связи между показателями, в то время как остальные характеристики этого не подтверждают. Таким образом, можно сказать, что прогностическая сила бинарного показателя выявляет новый вид связи, не совпадающий с ранее изучавшимися. Тем не менее, если два рассматриваемых разбиения совпадают, результаты оценки степени связи таких бинарных показателей окажутся одинаковыми -J(Х,У) будет равен 1, коэффициент корреляции окажется равным ±1, а коэффициент относительного риска окажется либо 0, либо примет бесконечно большое значение.

а

с

Библиографический список

1. Айвазян С.А., Бухштабер В.М., Еню-ков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. -М., 1989.

2. Mills P. Efficient statistical classification of satellite measurements // International Journal of Remote Sensing. - 2011. - № 32(21). DOI: 10.1080/01431161.2010.507795.

3. Haghighat M., Abdel-Mottaleb M. & Alhalab W. Discriminant Correlation Analysis: Real-Time Feature Level Fusion for Multimodal Biometric Recognition. // IEEE Transactions on Information Forensics and Security. - 2016. - V. 11, № 9. DOI: 10.1109/TIFS.2016.2569061.

4. Straus S., Glasziou P., Scott Richardson W., Brian Haynes R. Evidence Based Medicine. -Elsevier, Churchhill, Livingstone, 2010.

5. Sackett D.L Rosenberg W.M. Gray J.A. Haynes R.B. Richardson W.S. Evidence based

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

medicine: what it is and what it isn't. // BMJ. -1996. - № 312 (7023). D0I:10.1136/bmj.312.7023.71.

6. McLachlan G. Discriminant Analysis and Statistical Pattern Recognition. - Wiley, 2004.

7. Дронов С.В. Методы и задачи многомерной статистики. - Барнаул, 2015.

8. Dronov S.V., Dementjeva E.A. A new approach to post-hoc problem in cluster analysis // Model Assisted Statistics and Applications. - 2012. -Vol. 7, № 1. DOI: 10.3233/MAS-2011-02-01.

9. Crawford-Brown D.J. Theoretical and Mathematical Foundations of Human Health Risk Analysis: Biophysical Theory of Environmental Health Science. - Springer Science & Business Media, 2012.

10. Fleiss J., Levin B. Statistical Methods for Rates and Proportions. - Wiley, 2003.

i Надоели баннеры? Вы всегда можете отключить рекламу.