Научная статья на тему 'Сравнение подходов к оценке степени связи нечисловых факторов в четырехпольных таблицах'

Сравнение подходов к оценке степени связи нечисловых факторов в четырехпольных таблицах Текст научной статьи по специальности «Математика»

CC BY
340
56
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЧЕТЫРЕХПОЛЬНЫЕ ТАБЛИЦЫ / КОЭФФИЦИЕНТ ОТНОСИТЕЛЬНОГО РИСКА / СТАТИСТИКА ХИ-КВАДРАТ / МЕДИЦИНСКИЕ НЕЧИСЛОВЫЕ ДАННЫЕ / FOURFOLD TABLES / RELATIVE RISK / CHI-SQUARED / MEDICAL DATA OF NON-NUMERIC TYPE

Аннотация научной статьи по математике, автор научной работы — Дронов Сергей Вадимович, Шепелев Сергей Анатольевич

Рассмотрен набор статистических данных, оформленных в виде так называемой четырехпольной таблицы. В таком виде довольно часто бывают представлены данные наблюдений, связанные с двумя нечисловыми категорированны-ми факторами, каждый из которых имеет по две категории. Особенно часто подобная форма данных используется в медицине, генетике, психологии. Специалисты-практики в этих нематематических областях знания для оценки силы (степени) связи между факторами такого типа используют так называемый коэффициент относительного риска, тогда как в математической статистике более привычно использование для решения подобных задач коэффициента корреляции Пирсона или статистики хи-квадрат. Изучаются соотношения между описанными практическим и теоретическим подходами к оценке силы связи нечисловых факторов упомянутого типа. Показано, что в наиболее распространенных, типичных случаях результаты, получаемые с помощью обоих подходов, совпадают или очень близки, особенно тогда, когда связь между факторами отсутствует. В некоторых необычных случаях (например, когда исходная таблица содержит нули) указан источник различия результатов подходов. Обсуждаются преимущества теоретического подхода в этих необычных ситуациях.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A Comparison of Approaches to Non-numeric Factors Colligation Evaluation in Fourfold Tables

We consider non-numerical data to be organized in a form of a fourfold table. Such form is usual for two categorized factors, and every factor has two categories. In particular, such form of statistical data is widely used in medical, genetical, or psychological problems. Experts of those non-mathematical fields of science evaluate the factors colligation with the so-called relative risk coefficient. However, mathematical statistics operates with Pearson’s correlation coefficient or chi-squared statistics. In the paper, we investigate relations between theoretical and practical approaches to non-numeric factors colligation evaluation. It is shown that these methods in the most common cases provide the same (or similar) results, especially, in situations when the presumed colligations do not exist. For some uncommon cases (for example, when the table contains zeroes) we demonstrate the source of the differences and discuss advantages of the theoretical approach in such cases.

Текст научной работы на тему «Сравнение подходов к оценке степени связи нечисловых факторов в четырехпольных таблицах»

Сравнение подходов к оценке степени связи нечисловых факторов...

УДК 519.25:51-7

Сравнение подходов к оценке степени связи нечисловых факторов в четырехпольных таблицах

С.В. Дронов, С.А. Шепелев

Алтайский государственный университет (Барнаул, Россия)

A Comparison of Approaches to Non-numeric Factors Colligation Evaluation in Fourfold Tables

S.V.Dronov, S.A.Shepelev

Altai State University (Barnaul, Russia)

Рассмотрен набор статистических данных, оформленных в виде так называемой четырехпольной таблицы. В таком виде довольно часто бывают представлены данные наблюдений, связанные с двумя нечисловыми категорированны-ми факторами, каждый из которых имеет по две категории. Особенно часто подобная форма данных используется в медицине, генетике, психологии. Специалисты-практики в этих нематематических областях знания для оценки силы (степени) связи между факторами такого типа используют так называемый коэффициент относительного риска, тогда как в математической статистике более привычно использование для решения подобных задач коэффициента корреляции Пирсона или статистики хи-квадрат. Изучаются соотношения между описанными практическим и теоретическим подходами к оценке силы связи нечисловых факторов упомянутого типа. Показано, что в наиболее распространенных, типичных случаях результаты, получаемые с помощью обоих подходов, совпадают или очень близки, особенно тогда, когда связь между факторами отсутствует. В некоторых необычных случаях (например, когда исходная таблица содержит нули) указан источник различия результатов подходов. Обсуждаются преимущества теоретического подхода в этих необычных ситуациях.

Ключевые слова: четырехпольные таблицы, коэффициент относительного риска, статистика хи-квадрат, медицинские нечисловые данные.

БОТ 10.14258/^уа8и(2014)1.2-04

We consider non-numerical data to be organized in a form of a fourfold table. Such form is usual for two categorized factors, and every factor has two categories. In particular, such form of statistical data is widely used in medical, genetical, or psychological problems. Experts of those non-mathematical fields of science evaluate the factors colligation with the so-called relative risk coefficient. However, mathematical statistics operates with Pearson's correlation coefficient or chi-squared statistics. In the paper, we investigate relations between theoretical and practical approaches to non-numeric factors colligation evaluation. It is shown that these methods in the most common cases provide the same (or similar) results, especially, in situations when the presumed colligations do not exist. For some uncommon cases (for example, when the table contains zeroes) we demonstrate the source of the differences and discuss advantages of the theoretical approach in such cases.

Key words: fourfold tables, relative risk, chi-squared, medical data of non-numeric type.

Во многих областях науки и практики, особенно в медицине, генетике и психологии [1-4] при изучении взаимодействия двух факторов принято результаты наблюдений представлять в виде

таблицы сопряженности. В каждой клетке такой таблицы помещают количество объектов наблюдения, обладающих соответствующей этой клетке сочетанием категорий факторов. В простейшем

случае каждый из факторов имеет по две категории, и получающиеся здесь таблицы называют четырехпольными.

В работе изучаются распространенные среди практиков методы обработки данных, представленных такими таблицами, в частности, способы оценки степени связи между факторами, заданными этим способом. Целью работы является изучение соотношений между различными подходами к оценке степени связи между переменными, применяемыми в случае их задания в виде четырехпольной таблицы. Также нас будет интересовать возможность перевести методы четырехпольных таблиц на язык привычной практикам корреляционной зависимости.

Начнем с описания способа перевода данных наблюдений из одной формы в другую. Пусть сначала есть два ряда чисел X = (х1, х2,хп) и У = (у1, у2, ■ ■■, Уп), представляющих собой результаты наблюдений за п объектами, при этом ^'-й объект обладает характеристиками (х2- ,у). Построим четырехпольную таблицу, разбив объекты на четыре группы. Для этого возьмем два заданных граничных значения Гх и Гх по х, у соответственно. В первую группу, которую будем обозначать Д1Д, войдут объекты, для которых х2- < Гх, у^ < Гу, во вторую (Д 1,2) те, для которых х2- > Гх уу < Гу, в третью (Д2д) - с условиями х2- < Гх у2 > Гу ив четвертую (Д2,2) -х^ > Гх, у2 > Гу. Полученную таблицу, в клетках которой вписаны количества объектов, попавших в каждую из групп, запишем в виде

а Ь с с!

а + Ь + с + с! = п,

(1)

где на (г, з)-м месте стоит число объектов группы с обозначением Д^-.

Наоборот, если данные изначально имели вид четырехпольной таблицы (1), то можно перевести их в числовую форму, построив ряды X и У следующим образом: сначала поместим в эти ряды а пар (1,1), затем Ь пар (1,0), далее с пар (0,1) и, наконец, с! пар (0,0). Конечно же, нули и единицы здесь можно поменять местами. Принятая система обозначений основана на привычном, например, в медицине, представлении, что первая строка и первый столбец таблицы представляют собой наборы данных о количествах объектов, у которых имеется определенный признак, а вторая строка и столбец - о тех, у которых эти признаки отсутствуют.

Рассмотрим два метода оценки зависимости признаков в четырехпольной таблице (см. [1]). Первый принято называть х2. Математически применение его основывается на том, что частость каждой из четырех клеток таблицы (1) тем более похожа на произведение частости соответствующих ей категорий столбца и строки, чем менее яр-

ко выражена связь соответствующих признаков. Простые преобразования классической формулы критерия х2 (например, [5]) в нашем случае приводят к формуле

х

п(а! — Ьс)2

(а + Ь)(а + с)(! + с)(Ь + !) '

(2)

В качестве второго метода будем применять коэффициент корреляции р, рассчитанный по двум рядам данных, сформированных по четырехпольной таблице описанным выше образом. Для этого способа образования рядов X и У формула расчета коэффициента корреляции примет вид

а+с а+Ь

р=

- т2) • - т2)

(3)

Выбор именно этих двух способов для первоначального исследования объясняется тем, что с точки зрения математической статистики в ее классическом варианте именно они представляются наиболее естественными. При этом мы, конечно же, отчетливо понимаем, что способ с использованием х2 должен давать более достоверные результаты, если только мы не уверены в том, что изучаемая связь может быть только линейной. С другой стороны, при построении этого критерия существенно используется нормальный характер изучаемых переменных, а данные четырехпольной таблицы по сути сводят все к бинарным переменным, поэтому ценность х2 снижается. Попытки же использовать для оценки степени связи коэффициенты Спирмена, бисериаль-ный коэффициент и точечно-бисериальную корреляцию, обычно применяемые практиками, вряд ли могут дать более адекватный результат, чем применение обычного коэффициента р, поскольку внимательный анализ формул всех перечисленных коэффициентов показывает их полную тождественность.

Нам потребуется следующее несложно проверяемое утверждение.

Лемма. Пусть числа р^,а € [0,1], тогда 'результат действия ap+(1—a)q расположен между числами р, С1, в частности, всегда содержится в [0,1]. Если число а не равно ни 0, ни 1, то этот результат не совпадает ни с р, ни с В частности, при таком а в результате не могут быть получены ни 0, ни 1.

Теорема 1. В произвольной четырехпольной таблице вида (1), ни одна строка и ни один столбец которой не состоят целиком из нулей, максимальное значение статистики х2 равно п, причем оно достигается лишь в случае когда а = ! = 0, либо когда Ь = с = 0.

п

п

п

Сравнение подходов к оценке степени связи нечисловых факторов.

Доказательство. Выражение (2), разделив на п, преобразуем к виду

а а I [1 _ а \ Ь .

п а+Ь ' а+с ' \ а+Ь I ' Ь+<1'

I__с_ с I [ 1__С_ \ й _ 1

' с+Л а+с ' ^ с+с1) Ь+а

Далее обозначим ^ = а, ^ = р, ^ = д. По лемме, ар + (1 — а) ц € [0,1].

Ясно, что аналогичное рассуждение можно провести, рассматривая /3 = р = ц =

Отсюда вытекает, что максимальное значение статистики х2/п не превышает 2. Заметим далее, что значение 2 достигается только в том случае, если

а+с 1 ^ ^ 1 Ь+(1

Здесь отметим, что если а, в = 0 и а, в = 1, то выполнение обоих выписанных равенств возможно лишь в случае, когда = = 1. Получаем противоречие, ведь это в данном случае означает с = й = 0, что невозможно в силу условий теоремы. Также проверяется невозможность случая, когДа а+с = ь+1 = Пусть а^ 0, /3 = 0, тогда по-

следняя система выполняется лишь если = 1 и = 1, что при сделанных предположениях вновь невозможно.

ь _

Следовательно, либо а = 0, в = 1 и

ь+а

= 1, откуда вытекает а = Л = 0, либо а = 1, [3 = 0, а следовательно, = = 1 и, окончательно, Ь = с = 0. Теорема доказана.

Заметим, что

ап — (а + с)(а + Ь) = ай — Ьс, п(а + с) — (а + с)2 = (а + с)(Ь + й), п(а + Ь) — (а + Ь)2 = (а + Ь)(с + й),

следовательно, сравнивая формулы (2) и (3), мы приходим к справедливости следующей теоремы.

Теорема 2. х2 = пр2 .

Следствие 1. х2 =0 ^ р = 0; х2 = п ^ р = ±1.

Вторая формула здесь дает независимое подтверждение теореме 1.

Таким образом, при изучении линейных связей есть основания считать два рассмотренных подхода практически эквивалентными, что позволяет объединить их в один, который мы назовем далее теоретическим.

В практических исследованиях, изучающих четырехпольные таблицы, чаще применяется другая характеристика, называемая относительным риском. Вероятно, это связано с простотой ее расчета и понятным смыслом. Формулу для его расчета возьмем из работы [1]:

ЕЕ

а а+Ь

с ' с+с£

(4)

Если считать, что первая строка четырехпольной таблицы содержит количества, например, пациентов с установленным диагнозом, а вторая — аналогичные данные о контрольной группе практически здоровых людей, то в числителе дроби (4) стоит доля пациентов, обладающих изучаемым фактором среди заболевших, а в знаменателе аналогичная доля в контрольной группе. Поэтому, если две этих доли практически равны (ЕЕ — почти единица), то наличие или отсутствие фактора не несет в себе информации о заболевании. Если же коэффициент риска значительно больше или значительно меньше единицы, то фактор либо повышает, либо, соответственно, понижает вероятность заболевания. Подход, связанный с расчетом относительного риска, условимся называть практическим.

Итак, в основе коэффициента относительного риска лежат совсем иные соображения, чем у рассмотренных выше способов. Поэтому прямая зависимость между ними отсутствует. Тем более что в отличие от р (ограниченного ±1) и х2 (значения которой по теореме 1 всегда лежат между 0 и п), его значения ничем сверху не ограничены.

Но все же сравнивая определение ЕЕ с формулами, использованными в рамках теоретического подхода, немедленно получаем теорему.

Теорема 3.

ЕЕ — 1 = р

•у/ (а + Ь)(а + с) (с + ¿)(Ъ + ¿) с(а + Ь)

Следствие 2. ЕЕ =1 ^ р = 0.

Это означает, что в случае отсутствия связи факторов оба подхода дадут одинаковый результат. Рассмотрим крайние по величинам значения относительного риска. Если ЕЕ = 0, то а = 0, откуда

1

р

Если й = 0, то видно, что коэффициент корреляции не может равняться по модулю единице, что соответствовало бы одинаковым выводом обоих подходов в этом случае. Наибольшее различие выводов получается, если й значительно больше, чем оба числа Ь, с, - здесь коэффициент корреляции р оказывается практически нулевым.

Такое резкое различие выводов, очевидно, связано с тем, что в рассматриваемом сейчас случае во второй строке таблицы данных значительно больше, чем в первой, что указывает на недостаточность данных в ней и некоторый перекос в выборке, а следовательно, ставит под сомнение законность вывода, сделанного на основе ЕЕ.

Анализ случая очень большого ЕЕ может быть проведен полностью аналогично. Подводя итог,

видим, что в основной массе рядовых случаев и теоретический, и практический подходы дают фактически одинаковые результаты. В частности, отсутствие связи между факторами одинаково хо-

рошо распознается обоими подходами. Для случаев же редких (например, если в таблице есть нули) более надежные результаты дает теоретический способ.

Библиографический список

1. Sasieni P.D. From Genotypes to Genes: Doubling the Sample Size // Biometrics. — 1997. — № 53.

2. Berkson J. Limitation of the Application of Fourfold Tables Analysis to Hospital Data. // Int.J. Epidemol Advance Access. — 2014. — Vol. 10.

3. Давыдов М.И., Шойхет Я.Н., Лазарев А.Ф., Алексеева И.В. Дронов С.В. Многофакторный анализ при дифференциальной диагности-

ке узловой формы периферического рака легкого. Барнаул, 2011.

4. Петриков А.С., Шойхет Я.Н., Белых В.И., Дронов С.В. Многофакторный анализ в диагностике тромбозов глубоких вен нижних конечностей // Тромбоз, гемостаз и реология. — 2013. — №4 (56).

5. Дронов С.В. Многомерный статистический анализ. — Барнаул, 2006.

i Надоели баннеры? Вы всегда можете отключить рекламу.