УДК 519.235 + 519.237.5
С. В. Дронов, Р. В. Петухова
Один вид связи между номинальной и бинарной переменными
S. V. Dronov, R. V. Petukhova
One Type of Connection between Nominal and Binary Variables
Мы полагаем, что естественный вид связи между переменными «у упомянутых типов имеет вид индикатора некоторого отрезка, т.е. у = 1 тогда и только тогда, когда х лежит между какими-то границами а и Ь. На основе высказанного предположения в работе определен новый коэффициент, характеризующий силу этой связи.
Ключевые слова: дихотомическая переменная, коэффициент корреляции, стохастическая связь.
В последние десятилетия проблема установления и характеризации силы связи бинарной (дихотомической) и номинальной (числовой) переменных приобрела большую актуальность. Это связано прежде всего со все большей востребованностью статистических методов со стороны медицины, в которой многие исследуемые показатели имеют дихотомический характер (человек здоров или болен, анализ проводился или нет, симптом имеется или отсутствует (см., например: [1]). С другой стороны, в решении этой же задачи заинтересовано такое бурно развивающееся направление педагогической науки, как тестология. Наиболее ярко это проявляется при выявлении взаимной зависимости общего балла, набранного испытуемым при прохождении теста и факта верного выполнения им конкретного задания (см.: [2, 3]).
В цитированных работах для исследования рассматриваемого типа зависимости применялись различные виды коэффициентов корреляции. Это коэффициенты Пирсона, бисериаль-ный коэффициент, а также коэффициент у. Между тем любому специалисту, знакомому с теорией вероятностей, известно, что коэффициент корреляции Пирсона адекватно работает лишь для установления линейных связей, а другие два упомянутых вида коэффициентов представляют собой тот же коэффициент Пирсона, формула которого переписана на случай, когда одна или обе исследуемые переменные имеют бинарный тип.
We propose that natural type of connection between variables ^aid y is a dependence having form of some interval indicator, i.e. y = 1 if x lies between some boundaries a and b. From this point of view we define a new dependence coefficient, characterizing a strength of this connection.
Key words: Dychotomous variable, correlation coefficient, stochastic dependence.
Общепринятый способ оценки адекватности предлагаемого описания статистической связи между двумя переменными x и у в гаде y = f(x) состоит в нанесении на поле корреляции этих fx
кой отклонения выборочных точек от этого графика. Но в случае, когда ординаты всех выборочных точек могут принимать значения лишь О или 1, а значения абсцисс достаточно разнообразны, эти точки не могут удовлетворительно группироваться вокруг какой-либо прямой линии - графика линейной зависимости, - а следовательно, ни один из упомянутых выше коэффициентов корреляции не может служить адекватной мерой степени связи между числовой и бинарной переменными. Наша цель - предложить новый коэффициент, который с большей достоверностью позволяет оценивать степень такой связи.
Анализ рассмотренных выше бинарных переменных в медицинской практике наводит на мысль о том, что правильная форма изучаемой зависимости имеет вид индикатора некоторого
x
ленных границах, пациент здоров (у = 1), иначе
- болен. Почти такой же вид имеет зависимость и в тестологии. Действительно, если балл, набранный испытуемым по тесту максимален, то он обязан был правильно выполнить изучаемое задание, и если связь между баллом и заданием существует, то чем больше набранный им балл,
Один вид связи между номинальной и бинарной переменными
тем вероятнее появление признака верного решения напротив номера этого задания. Тем самым и в этом случае мы имеем зависимость в виде индикатора отрезка, но только правая его граница здесь совпадает с максимально возможным числом набранных баллов (правая ступенька).
Перейдем к формулам. Наблюдаются две связанных выборки объема п. В одной из них собраны числовые значения щ , ...,хп - наблюдения над номинальной переменной х, другая (У) содержит в своем составе только числа 0 или 1.
а, Ь
х
у х, а, Ь
1, х е [а, Ь]; О иначе
(1)
х
у
качества зависимости (1) будет служить величина
в(а, Ь) = ^2(уг - у{щи а, Ь))2,
(2)
3=1
М(к, ш)
равная числу ошибок формулы предлагаемой связи среди выборочных данных. Пару (а*,Ь*), на которой достигается минимум рассматриваемого критерия, назовем оптимальной, а значение Б (а*, Ь*) - наименьшим числом ошибок (или числом ошибок наилучшей аппроксимации) для У
Найти наименьшее число ошибок при небольших объемах выборок можно, например, полным перебором. Для ускорения процесса рекомендуется начать с самой длинной цепочки иду-
а, Ь
ницам этого участка и раздвигать его границы до достижения искомого максимума.
Далее предположим, что выборки согласованным образом упорядочены по возрастанию элементов X. Отметим также, что настоящие числовые значения X для нас не имеют значения, поэтому присвоим им порядковые номера по возрастанию и будем далее без ограничения общности считать, что хг = г,г = 1,...,п. После того как наименьшее число ошибок для расУ
с наихудшей возможной ситуацией при фиксированных количествах нулей и единиц. Идея состоит в том, что наилучшее с точки зрения
У
состоит в расположении всех единиц подряд, -тогда число ошибок наилучшей аппроксимации равно нулю. Насколько велико может быть число ошибок при максимально неблагоприятном
У
единиц?
Пусть при наблюдении дихотомической переменной мы получили некоторое расположение кш
ние минимаксным, если самая длинная цепочка единиц, идущих подряд в нем, будет наиболее короткой среди всех возможных расположений. Длину наибольшей цепочки единиц в минимакс-
М к, ш
называть фатально неизбежной длиной. Таким образом, цепочка единиц не меньше, чем фатально неизбежной длины, встретится при лю-кш .г > М(к,ш), то среди всех возможных расположений обязательно найдется такое, что все цепочки единиц в ней имеют длину менее г.
М к, ш
шему натуральному числу, которое больше либо равно дроби Ь = к/(ш-\- 1), т.е.
\Ь, £ целое,
[£] + 1 иначе.
Теорема 2. Минимаксное расположение кш
1...101...10...01...10...О, где более одного нуля подряд может встретиться лишь в конце всей цепочки. При этом длина первой цепочки единиц М к, ш
бо такие же, либо на единицу меньше. Если М к, ш
оканчивается на 1.
Эти теоремы нетрудно доказать методом математической индукции по числу единиц. Займемся теперь поиском такого значения Бк,т, которое является максимальным количеством ошибок наилучшей аппроксимации по всем воз-кш этом сохраним обозначение (2), подразумевая
уг хг
г
Если к < ш + 1, то цепочку назовем ненасыщенной, иначе - насыщенной. Ненасыщенную цепочку назовем наименее благоприятной, если между любыми двумя единицами расположен хотя бы один ноль. Заметим, что цепочка является ненасыщенной в том и только том случае, если М(к,ш) = 1.
Лемма 1. Если цепочка ненасыщена, то Бк,т = к — 1 и достигается на любой из наименее благоприятных цепочек, в частности, на минимаксной.
аЬ
любому из номеров мест, на котором в цепочке находится 1. Тогда, очевидно, Б(а, Ь) = к — 1. Отсюда на любой такой цепочке Б(а*,Ь*) < к — 1,
а значит Бк,т < к — 1. Покажем, что для наименее благоприятной цепочки Б(а*,Ь*) = к — 1.
а, Ь
денной части рассуждения и попытаемся расширить этот отрезок. Поскольку цепочка наименее
а, Ь
единицу и уменьшить тем самым Б, мы будем вынуждены добавить хотя бы один ноль. Это означает, что число ошибок может лишь увеличиться. Поскольку интервалам, вообще не содержащим единиц, очевидно, соответствуют еще большие Б, то утверждение доказано.
Лемма 2. Если цепочка насыщена, то Бк,т = ш и достигается на минимаксной цепочке.
Доказательство. Так же, как при доказательстве леммы 1, убедимся, что Бк,т < ш, поскольку в рассматриваемом случае Б(1,п) = ш. Теперь проверим, что для минимаксной цепочки Б (а* ,Ь*) = ш. Возьмем какие-то а, Ь. Если слева
а, Ь
еще не достигнута и следующим символом является 1, то можно расширить интервал в эту сто-Б
а, Ь
ничен нулями или границами цепочки. В силу структуры минимаксной цепочки за каждым из нулей находится по меньшей мере одна единица. Отсюда следует, что, расширив отрезок на два шага в сторону имеющегося нуля, мы не изме-Б
Б
но, уменьшая ее), до момента достижения границ цепочки. Итак, доказано, что на минимаксной цепочке наименьшее из возможных значе-Б а, Ь а , Ь п
ш
Из доказанных двух лемм следует, что
Теперь все готово для того, чтобы ввести тот коэффициент, который будет характеризовать степень связи (1). Этот коэффициент мы назвали коэффициентом эминентильности, поскольку етшепйа в переводе с латинского означает выступ, что соответствует характеру изучаемой связи. Пусть X, У - выборки объема п = к + т, причем У состоит из к единиц и т нулей. Тогда коэффициентом эминентильности между X и У назовем число
E X, Y
1 -
S(a*,Ь*)
Sk,m
S
k,m
k — 1, k < m + 1;
m, k > m
Утверждение следующей теоремы вытекает из уже проведенных рассуждений.
Теорема 3. О < Е(Х,У) < 1, причем ноль достигается на минимаксной цепочке, а едини-
а, Ь
справедливо уг = у(хг, а, Ь) при всех г = 1, ...,п.
Из определения коэффициента эминентильности следует, что величина этого коэффициента тем больше, чем лучше зависимость (1) описывает имеющиеся данные. Возможность же применения введенного коэффициента на практике была нами проверена на реальных данных рентгенографического обследования пациентов Алтайского пульмонологического центра. В качестве числовой переменной рассматривалось количество лейкоцитов в анализе крови пациентов, в качестве бинарной - наличие или отсутствие заболевания легких. Предложенный коэффициент показал наличие умеренной связи между этими величинами (Е « 0,39), тогда как обычные коэффициенты корреляции дают результат около 0,21, что, согласно общепринятым соглашениям, трактуется как отсутствие связи.
Библиографический список
1. Лазарев А.Ф., Шойхет Я.П., Алексеева И.В., Дронов С.В. Многофакторный анализ при дифференциальной диагностике узловой формы периферического рака легкого // Российский биотерапевтический журнал.
- 2009,- №4.
2. Челышкова М.Б. Теория и практика конструирования педагогических тестов: учеб. пособие. - М., 2002.
Аванесов B.C. Композиция тестовых заданий. - М., 2002.