Научная статья на тему 'СТАТИСТИЧЕСКИЙ АНАЛИЗ ТАБЛИЦ ЧЕТЫРЕХ ПОЛЕЙ'

СТАТИСТИЧЕСКИЙ АНАЛИЗ ТАБЛИЦ ЧЕТЫРЕХ ПОЛЕЙ Текст научной статьи по специальности «Математика»

CC BY
367
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАТИСТИЧЕСКИЙ АНАЛИЗ / ТАБЛИЦА ЧЕТЫРЕХ ПОЛЕЙ / МОДЕЛЬ ПОРОЖДЕНИЯ СТАТИСТИЧЕСКИХ ДАННЫХ / МУЛЬТИНОМИАЛЬНАЯ МОДЕЛЬ / МОДЕЛЬ ДВУХ НЕЗАВИСИМЫХ ВЫБОРОК / ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ / КОЭФФИЦИЕНТ АССОЦИАЦИИ / КОЭФФИЦИЕНТ КОЛЛИГАЦИИ / КОЭФФИЦИЕНТ КОНТИНГЕНЦИИ / ПРОВЕРКА РАВЕНСТВА ДОЛЕЙ / АСИМПТОТИЧЕСКАЯ НОРМАЛЬНОСТЬ

Аннотация научной статьи по математике, автор научной работы — Муравьева Виктория Сергеевна, Орлов Александр Иванович

Таблицу четырех полей строят для описания совместного распределения двух альтернативных признаков. Статья посвящена рассмотрению методов статистического анализа данных таблицы четырех полей в соответствии с традициями отечественной школы теории вероятностей и математической статистики. Такой анализ должен начинаться с выбора модели порождения данных. Применяют мультиномиальную модель и модель двух выборок. Проверяемые гипотезы и правила принятия решений меняются при переходе от одной модели к другой. Нельзя обоснованно судить о наличии связи между признаками только по величине тех или иных коэффициентов. Необходимо применять теорию проверки статистических гипотез. В мультиномиальной модели проверяют гипотезу независимости, а в модели двух выборок - гипотезу однородности долей. Только при отклонении нулевой гипотезы можно говорить о наличии связи между признаками, соответственно, о наличии эффекта при переходе от одной выборки к другой. Применяем метод вычисления асимптотических распределений функций от чисел в клетках таблицы четырех полей, основанный на многомерной центральной предельной теореме и методе линеаризации функций. Проверка статистических гипотез основана на использовании дисперсий коэффициентов ассоциации, коллигации и контингенции в мультиномиальной модели и разности выборочных долей в модели двух выборок. В применении дисперсий проявляется преимущество нашего подхода по сравнению с распространенной традицией. Некорректна встречающаяся в публикациях фраза: "Считается, что если коэффициент ассоциации превосходит 0,5 и коэффициент контингенции больше 0,3, то это свидетельствует о существенной связи между признаками". Говорить о "существенной связи между признаками" можно говорить лишь тогда, когда отклонена гипотеза независимости. Полученные рекомендации основаны на асимптотической нормальности рассматриваемых коэффициентов. Если в клетках таблицы четырех полей стоят сравнительно небольшие числа, то вместо предельных соотношений целесообразно пользоваться таблицами для конечных объемов выборок или соответствующими компьютерными программами

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STATISTICAL ANALYSIS OF FOUR-CELL TABLES

A four-cell table is constructed to describe the joint distribution of two alternative features. The article is devoted to the consideration of methods of statistical analysis of data from a table of four cells in accordance with the traditions of the Russian school of probability theory and mathematical statistics. This analysis should begin with the selection of a data generation model. A multinomial model and a two-sample model are applied. Testable hypotheses and decision rules change as you move from one model to another. It is impossible to reasonably judge the presence of a connection between signs only by the value of certain coefficients. It is necessary to apply the theory of testing statistical hypotheses. In the multinomial model, the hypothesis of independence is tested, and in the model of two samples, the hypothesis of homogeneity of shares. Only if the hypothesis is rejected can we talk about the presence of a connection between the signs, respectively, about the presence of an effect when moving from one sample to another. We apply the method for calculating the asymptotic distributions of functions of numbers in the cells of the table of four cells, based on the multidimensional central limit theorem and the method of linearization of functions. Statistical hypothesis testing is based on the use of variances of the coefficients of association, colligation, and contingency in the multinomial model and the difference in sample shares in the model of two samples. The advantage of our approach over the widespread tradition is manifested in the use of variances. The phrase used in publications is incorrect: "It is believed that if the association coefficient exceeds 0.5 and the contingency coefficient is greater than 0.3, then this indicates a significant relationship between the characteristics." One can speak of an "essential connection between features" only when the hypothesis of independence is rejected. The recommendations obtained are based on the asymptotic normality of the considered coefficients. If the cells of the table of four cells contain relatively small numbers, then instead of limiting ratios, it is advisable to use tables for finite sample sizes or appropriate computer programs

Текст научной работы на тему «СТАТИСТИЧЕСКИЙ АНАЛИЗ ТАБЛИЦ ЧЕТЫРЕХ ПОЛЕЙ»

УДК 519.2:330.43

08.00.13 Математические и инструментальные методы экономики (экономические науки)

СТАТИСТИЧЕСКИЙ АНАЛИЗ ТАБЛИЦ ЧЕТЫРЕХ ПОЛЕЙ

Муравьева Виктория Сергеевна к.э.н., доцент

Орлов Александр Иванович

д.э.н., д.т.н., к.ф.-м.н., профессор

РИНЦ БРШ-код: 4342-4994

Московский государственный технический

университет им. Н.Э. Баумана, Россия, 105005,

Москва, 2-я Бауманская ул., 5, prof-orlov@mail.т

Таблицу четырех полей строят для описания совместного распределения двух альтернативных признаков. Статья посвящена рассмотрению методов статистического анализа данных таблицы четырех полей в соответствии с традициями отечественной школы теории вероятностей и математической статистики. Такой анализ должен начинаться с выбора модели порождения данных. Применяют мультиномиальную модель и модель двух выборок. Проверяемые гипотезы и правила принятия решений меняются при переходе от одной модели к другой. Нельзя обоснованно судить о наличии связи между признаками только по величине тех или иных коэффициентов. Необходимо применять теорию проверки статистических гипотез. В мультиномиальной модели проверяют гипотезу независимости, а в модели двух выборок - гипотезу однородности долей. Только при отклонении нулевой гипотезы можно говорить о наличии связи между признаками, соответственно, о наличии эффекта при переходе от одной выборки к другой. Применяем метод вычисления асимптотических распределений функций от чисел в клетках таблицы четырех полей, основанный на многомерной центральной предельной теореме и методе линеаризации функций. Проверка статистических гипотез основана на использовании дисперсий коэффициентов ассоциации, коллигации и контингенции в мультиномиальной модели и разности выборочных долей в модели двух выборок. В применении дисперсий проявляется преимущество нашего подхода по сравнению с распространенной традицией. Некорректна встречающаяся в публикациях фраза: "Считается, что если коэффициент ассоциации превосходит 0,5 и коэффициент контингенции больше 0,3, то это свидетельствует о существенной связи между признаками". Говорить о "существенной связи между признаками" можно говорить лишь тогда, когда отклонена гипотеза независимости.

UDC 519.2:330.43

08.00.13 Mathematical and instrumental methods of Economics (economic sciences)

STATISTICAL ANALYSIS OF FOUR-CELL TABLES

Muravyeva Victoria Sergeevna Cand.Econ.Sci., associate professor

Orlov Alexander Ivanovich

Dr.Sci.Econ., Dr.Sci.Tech., Cand.Phys-Math.Sci.,

professor

Bauman Moscow State Technical University, Moscow, Russia

A four-cell table is constructed to describe the joint distribution of two alternative features. The article is devoted to the consideration of methods of statistical analysis of data from a table of four cells in accordance with the traditions of the Russian school of probability theory and mathematical statistics. This analysis should begin with the selection of a data generation model. A multinomial model and a two-sample model are applied. Testable hypotheses and decision rules change as you move from one model to another. It is impossible to reasonably judge the presence of a connection between signs only by the value of certain coefficients. It is necessary to apply the theory of testing statistical hypotheses. In the multinomial model, the hypothesis of independence is tested, and in the model of two samples, the hypothesis of homogeneity of shares. Only if the null hypothesis is rejected can we talk about the presence of a connection between the signs, respectively, about the presence of an effect when moving from one sample to another. We apply the method for calculating the asymptotic distributions of functions of numbers in the cells of the table of four cells, based on the multidimensional central limit theorem and the method of linearization of functions. Statistical hypothesis testing is based on the use of variances of the coefficients of association, colligation, and contingency in the multinomial model and the difference in sample shares in the model of two samples. The advantage of our approach over the widespread tradition is manifested in the use of variances. The phrase used in publications is incorrect: "It is believed that if the association coefficient exceeds 0.5 and the contingency coefficient is greater than 0.3, then this indicates a significant relationship between the characteristics." One can speak of an "essential connection between features" only when the hypothesis of independence is rejected. The recommendations obtained are based on the asymptotic normality of the considered coefficients.

Полученные рекомендации основаны на асимптотической нормальности рассматриваемых коэффициентов. Если в клетках таблицы четырех полей стоят сравнительно небольшие числа, то вместо предельных соотношений целесообразно пользоваться таблицами для конечных объемов выборок или соответствующими компьютерными программами

If the cells of the table of four cells contain relatively small numbers, then instead of limiting ratios, it is advisable to use tables for finite sample sizes or appropriate computer programs

Ключевые слова: СТАТИСТИЧЕСКИМ АНАЛИЗ, ТАБЛИЦА ЧЕТЫРЕХ ПОЛЕЙ, МОДЕЛЬ ПОРОЖДЕНИЯ СТАТИСТИЧЕСКИХ ДАННЫХ, МУЛЬТИНОМИАЛЬНАЯ МОДЕЛЬ, МОДЕЛЬ ДВУХ НЕЗАВИСИМЫХ ВЫБОРОК, ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ, КОЭФФИЦИЕНТ АССОЦИАЦИИ, КОЭФФИЦИЕНТ КОЛЛИГАЦИИ, КОЭФФИЦИЕНТ КОНТИНГЕНЦИИ, ПРОВЕРКА РАВЕНСТВА ДОЛЕЙ, АСИМПТОТИЧЕСКАЯ НОРМАЛЬНОСТЬ

Keywords: STATISTICAL ANALYSIS, TABLE OF FOUR FIELDS, MODEL OF PRODUCTION OF STATISTICAL DATA, MULTINOMIAL MODEL, MODEL OF TWO INDEPENDENT SAMPLES, STATISTICAL HYPOTHESIS TESTING, ASSOCIATION COEFFICIENT, COLLIGATION COEFFICIENT, CONTINGENCY COEFFICIENT, EQUALITY TESTING OF PROPORTIONS, ASYMPROTIC NORMALITY

http://dx.doi.org/10.21515/1990-4665-174-022

1. Введение

Работа посвящена современным математико-статистическим методам анализа таблиц четырех полей. Её необходимость основана на наличии некорректностей и ошибок в широко распространенных литературных источниках, как печатных, так и электронных. Работа выполнена в традициях отечественной научной школы в области теории вероятностей и математической статистики, основанной академиком А.Н. Колмогоровым.

2. Основные понятия

Предисловие к учебнику [1] начинается с констатации: "Прикладная статистика - это наука о том, как обрабатывать данные". Под данными понимаем любой вид зарегистрированной информации.

Базовым элементом для анализа является статистическая единица. Их объединение дает статистическую совокупность. Таким образом, в терминах математики статистическая совокупность - это множество, элементами которого являются статистические единицы. Генеральная

совокупность - множество всех объектов, которые имеют качества, свойства, интересующие исследователя. Выборочная совокупность (выборка) - совокупность элементов генеральной совокупности, информация о которых имеется у исследователя. Генеральная совокупность - обычно теоретическая конструкция, о свойствах которой узнаем по выборке. С развитием информационно-коммуникационных технологий анализа "больших данных" появилась возможность непосредственного анализа некоторых генеральных совокупностей, включающих большое количество статистических единиц, т.е. без промежуточного этапа в виде отбора и анализа элементов выборки. Примером является анализ генеральной совокупности научных публикаций, включенных в Российский индекс научного цитирования.

В статистике признаком называется функция, определенная для единиц статистической совокупности. Следовательно, значением признака (для конкретной статистической единицы) является значение этой функции. По утвердившейся традиции разными словами называют одни и те же сущности: совокупность - множество, признак - функция.

Примерами значений признаков (функций) являются числа, градации (элементы некоторого конечного множества), вектора, объекты нечисловой природы, другие математические объекты [2]. Если градации упорядочены, то говорят о порядковых признаках, если не упорядочены -о номинальных признаках. Для признаков, принимающих два возможных значения, используют ряд терминов - альтернативные, дихотомические, бинарные признаки.

В прикладной статистике термин "выборка" используют в двух смыслах. Во-первых, выборка - это часть генеральной совокупности (см. выше). Во вторых, это набор Х1,Х2,...,Хп реализаций (т.е. значений для некоторого полностью определенного элементарного исхода) независимых одинаково распределенных случайных величин. Число реализаций п

называется объемом выборки. Во втором случае, особенно если случайные величины имеют непрерывные функции распределения, термин "генеральная совокупность" обычно не используют, поскольку она должна состоять из бесконечного числа элементов (соответственно бесконечному числу возможных значений случайных величин) и тем самым может рассматривается не как реальный, а как теоретический (математический, условный) объект, для которого используют термин "пространство элементарных событий".

Отметим, что случайная величина - это не число, а функция, определенная на пространстве элементарных событий. Числом может быть реализация случайной величины, т.е. значение функции для определенного элементарного события. Наблюдаем двойственность терминологии. В теории вероятностей и математической статистике часто говорят -рассмотрим выборку Х1,Х2,...,Хп, понимая под этим термином конечную последовательность независимых одинаково случайных распределенных случайных величин. В прикладной статистике при обработке реальных данных выборкой Х1,Х2,...,Хп называют конечную последовательность чисел. Отмеченная двойственность иногда приводи т к недоразумениям.

Здесь и далее определения и термины используем в соответствии со справочником [3].

3. Две вероятностно-статистические модели порождения таблиц четырех полей

Рассмотрим два альтернативных признака Х и У, определенных на одном вероятностном пространстве и принимающих значения 0 и 1. Статистические данные часто представляют в виде таблицы четырех полей (табл.1).

Таблица 1.

Таблица четырёх полей

Значения признаков Х = 0 Х = 1 Сумма

У = 0 а Ь а + Ь

У = 1 с d с + d

Сумма а + с Ь + d п

Этими полями являются ячейки таблицы с числами а, Ь, с, d, равными численности групп, соответствующих комбинациям значений признаков. При этом общий объем данных есть п = а + Ь + с + d.

Пример такой таблицы приведен в табл.2, в которой представлены данные опроса, соответствующие признакам "Возраст" (Х = 0, если возраст опрошенного до 45 лет, Х = 1 в противном случае) и "Желание путешествовать" (У = 0, если опрошенный высказывает такое желание, и У = 1 в противном случае). Отметим, что в табл.2 использованы значения соответствующих градаций альтернативных признаков, а не их условные обозначения в виде условных цифр 0 и 1).

Таблица 2.

Пример таблицы четырёх полей

Возраст Желание\^ путешествовать^^^ До 45 лет После 45 лет Сумма

Есть 300 150 450

Нет 100 380 480

Сумма 400 530 930

Статистический анализ данных должен быть основан на той или иной вероятностно-статистической модели [4]. Для таблицы четырех полей есть две принципиально разные модели - мультиномиальная модель и модель двух независимых выборок.

В мультиномиальной модели предполагается, что пары (Х{, Уг), г = 1,2,..., п, являются независимыми одинаково распределенными

случайными векторами. Их общее распределение задается вероятностями р(а) = Р(Х,. = 0, ¥г = 0), р(Ь) = Р(Хг = 1, ¥г = 0), р(с) = Р(Хг = 0, Уг = 1), р(ё) = Р(Х1 = 1, Уг = 1), г = 1,2,...,п.

Здесь вероятности р(а), р(Ь), р(с), р(ё) положительны и меньше 1, их сумма равна 1, т.е. р(а) + р(Ь) + р(с) + р(ё) = 1, в остальном произвольны. Таким образом, распределение четырехмерного вектора (а, Ь, с, ё) задается тремя независимыми параметрами.

Это распределение является мультиномиальным (см., например, [5, разд. 6.3]). Распределение вектора (а, Ь, с, ё) таково:

п!

р (к, т, г, д) = Р(а = к, Ь = т, с = г, ё = д) =-:— р(а)к р(Ь)тр(с) р(ё )ч,

где к, т, г, д - любые неотрицательные целые числа такие, что к + т + г + д = п.

Для мультиномиальной модели все четыре суммы (по строкам и по столбцам) а + Ь, с + ё, а + с, Ь + ё являются случайными величинами.

В модели двух независимых выборок, наоборот, суммы по строкам зафиксированы: а + Ь = п1, с + ё = п2, где п1 и п2 - заданные натуральные числа (объемы выборок). Альтернативный вариант - суммы по столбцам зафиксированы - переходит в рассматриваемый при симметрии матрицы табл.1 относительно главной диагонали, поэтому нет необходимости его рассматривать. Таблица четырех полей в модели двух выборок переходит в табл.3.

Таблица 3.

Таблица четырёх полей в модели двух независимых выборок

Значения признаков Х = 0 Х = 1 Сумма

У = 0 а Ь = п1 - а пт

У = 1 с ё = п2 - с п?

Сумма а + с Ь + ё = п - а - с п

В модели двух выборок, в отличие от мультиномиальной модели, пары (xi ,Y ), i = 1,2,..., n, не являются независимыми одинаково

распределенными случайными векторами. Их общее распределение

задается вероятностями

p(a) = P(Хг = 0, Y = 0), p(b) = P(Хг = 1, Y = 0) = 1 - p(a),

p(c) = P(Xi = 0, Y = 1), p(d) = P(Xi = 1, Y = 1) = 1 -p(c), i = 1,2,...,n.

Здесь вероятности p(a),p(c) положительны и меньше 1, т.е. в остальном

произвольны. Таким образом, распределение четырехмерного вектора

(a, b, с, d) задается двумя независимыми параметрами.

Случайная величина a имеет биномиальное распределение B(n1,p(a)),

в то время как случайная величина c также имеет биномиальное

распределение B(n2, p(c)), но, вообще говоря, с другими параметрами-

значениями объема выборки и вероятности. Случайные величины a и c

независимы. Следовательно, распределение вектора (a, b, с, d) таково:

p(k, m, t, q) = P(a = k, b = m, с = t, d = q) =—-ПЙ-T7 p(a) * (1 - p(a))n1 (1 - p(c))n

k\(nl - k )!t! (n2 -1 )!

если m = n1 - k, q = n2 - t, и p(k, m, t, q) = P(a = k, b = m, с = t, d = q) = 0 в противном случае, где k, m, t, q - любые неотрицательные целые числа такие, что k < щ, m < щ, t < n2, q < n2.

Поскольку распределения вектора (a, b, с, d) в мультиномиальной модели и в модели двух выборок существенно отличаются, то и статистические выводы зависят от того, какая из двух моделей принята за основу.

Табл. 2 не дает ответа на вопрос о том, какая вероятностно-статистическая модель порождения данных использована. Эта таблица могла быть получена при двух различных схемах сбора данных.

В первой схеме опрашивают n = 930 лиц. Предполагается, что они образуют представительную выборку из рассматриваемой генеральной

2

совокупности. Тогда анализ таблицы четырех полей следует проводить на основе мультиномиальной модели.

Во второй схеме заранее выделены две генеральные совокупности. В первую входят те, у кого есть желание путешествовать, во вторую - те, у кого нет такого желания. Из первой совокупности берется представительная выборка объема п1 = 450, из второй - представительная выборка объема п2 = 480. Тогда анализ таблицы четырех полей следует проводить на основе модели двух независимых выборок.

4. Анализ таблицы четырех полей для мультиномиальной модели

Для упрощения дальнейшего изложения целесообразно несколько изменить обозначения.

В вероятностной модели X = Х(м?) и У = У(у) - случайные величины, принимающие два значения - 0 и 1. Здесь w - элемент пространства элементарных исходов. Пусть р1 = Р(Х^) = 1) и р2 = Р(У^) = 1). Вероятности получения чисел в ячейках таблицы четырех полей четырьмя числами:

р(а) = Р(ХИ = 0, УИ = 0) = Р00, р(Ь) = Р(Х^) = 1, У(w) = 0) = рю, р(с) = Р(Х^) = 0, УИ = 1) = р01, р(ё) = Р(Х^) = 1, УИ = 1) = рп. Очевидно, верны равенства:

р00 + р10 + р01 + р11 = 1, р10 + р11 = Рl, р01 + р11 = р2. В табл.4 сведены вместе введенные выше вероятности.

Таблица 4.

Вероятности в мультиномиальной модели

Значения признаков Х = 0 Х = 1 Всего

У = 0 р00 р10 1 - р2

У = 1 р01 р11 р2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Всего 1 - Л р\ 1

Обычно выделяют три важных частных случая - поглощения, несовместности и независимости признаков. Другими словами, поглощения, несовместности и независимости событий (ж: Х(ж) = 1} и (ж: У(ж) = 1}.

В случае поглощения одно из этих событий содержит другое, а потому

Р00 = 1 - тах(р1 , р2).

Если событие (ж: Х(ж) = 1} содержит событие (ж: У(ж) = 1}, то из У(ж) = 1 следует, что Х(ж) = 1, т.е. событие (ж: Х(ж) = 0, У(ж) = 1} невозможно. В этом случае р(с) = Р(Х(ж) = 0, У (ж) = 1) = 0, а потому с = 0 с вероятностью 1. Обратное неверно - из с = 0 не следует, что обязательно имеем случай поглощения. Но такое предположение напрашивается.

Если, наоборот, событие (ж: У(ж) = 1} содержит событие (ж: Х(ж) = 1}, то из Х(ж) = 1 следует, что У(ж) = 1, т.е. событие (ж: Х(ж) = 1, У(ж) = 0} невозможно. В этом случае р(Ь) = Р(Х(ж) = 1, У(ж) = 0) = 0, а потому Ь = 0 с вероятностью 1. Обратное неверно - из Ь = 0 не следует, что обязательно имеем случай поглощения. Но такое предположение напрашивается.

В случае несовместности

Р00 = 1 - Р1 - Р2.

Несовместность событий (ж: Х(ж) = 1} и (ж: У(ж) = 1} означает, что событие (ж: Х(ж) = 1, У(ж) = 1} невозможно, р(с!) = Р(Х(ж) = 1, У(ж) = 1) = Р11 = 0, а потому С = 0 с вероятностью 1. Обратное неверно - из С = 0 не следует, что обязательно имеем случай несовместности. Но такое предположение напрашивается.

Независимость признаков Х и У - это справедливость равенств Р(Х(ж) = 0, У(ж) = 0) = Р(Х(ж) = 0)Р(У(ж) = 0), Р(Х(ж) = 1, У(ж) = 0) = Р(Х(ж) = 1)Р(У(ж) = 0), Р(Х(ж) = 0, У(ж) = 1) = Р(Х(ж) = 0)Р(У(ж) = 1), Р(Х(ж) = 1, У(ж) = 1) = Р(Х(ж) = 1)Р(У(ж) = 1),

(по определению независимости случайных величин в теории вероятностей [3]). Нетрудно проверить, что все эти равенства вытекают из первого из них. Поэтому независимость признаков имеет место тогда и только тогда, когда

Poo = (1 - Р1)(1 - P2) = 1 - P1 - P2 + PP (1)

Пусть исходные данные - таблица четырех полей, полученная в предположениях мультиномиальной модели. Для проверки признаков X и Y, т.е. равенства (1), следует применить теорию проверки статистических гипотез.

Нулевая гипотеза имеет вид:

Ho : Poo = 1 - P1 - Pi + P1Pi. (2)

В качестве альтернативной гипотезы H1 рассмотрим отрицание нулевой гипотезы Ho:

H1 : Poo Ф 1 - P1 - P2 + PP (3)

(в некоторых прикладных задачах могут быть полезны другие альтернативные гипотезы, например, полученные из (3) заменой ф на < или > ; от выбора альтернативной гипотезы зависит вид критической области [3]).

С помощью равносильных преобразований формулам (1) и (2) можно придать другой вид. Можно говорить о статистической проверке нулевой гипотезы

Ho: P11 = P1P2 (4)

(что эквивалентно проверке равенства poo = (1 - p1)(1 - p2)).

Преобразуем равенство (4):

P11 =(PW + P11)( Po1 + P11) (5)

(см. табл.4). Поскольку сумма всех вероятностей попадания в ячейки таблицы четырех полей равно 1, то из (5) следует, что

P11 (Poo + Po1 + P1o + P11) =(Pw + Pn)( Po1 + P11) (6)

Раскроем скобки в обеих частях соотношения (6):

Р11 Poo + Р11Р01 + Р11Р10 + Р11Р11 = Р10 Р01+ Р11Р01 +P10 P11 + P11P11. (7)

Сокращая равные слагаемые в левой и правой частях равенства (7), получаем, что

Р11Р00 = Р10 Р01. (8)

Следовательно, гипотеза о справедливости равенства (4) эквивалентна гипотезе

Н0 : Р00 Р11 - Р10 Р01 = 0 (9)

при альтернативной гипотезе

Н1 : Р00Р11 -Р10Р01 * (10)

Как уже отмечалось, четырехмерный случайный вектор (a, b, c, d) (см. табл.1) имеет мультиномиальное распределение с числом испытаний n и вектором вероятностей исходов (Р00, Р10, Р01, Р11). Как следует из многомерного закона больших чисел [3], состоятельными оценками этих вероятностей являются дроби a/n, b/n, c/n, d/n соответственно, т.е .

liml a,Ь,C,= (P00, Plo, Pol, P11) (11) n n n n J

(сходимость по вероятности d). Следовательно, критерий проверки гипотезы (9) может быть основан на статистике

Z = ad - bc, (12) поскольку из (10) и теоремы о наследовании сходимости [1] вытекает, что при справедливости этой гипотезы

Hmf-1 Z| = Р00 Р11 - Р10 Р01 = ^ (13)

n J

а при альтернативной гипотезе этот предел не равен 0.

5. Асимптотическое распределение статистики Z

С целью проверки гипотезы (9) найдем асимптотическое распределение статистики Z.

Начнем с асимптотического распределения вектора случайного вектора (а, Ь, с, С). Согласно многомерной центральной предельной теореме (см., например, [1, 3]) вектор

х = ^I а- Pоо,Ь- Р10,с- Ро1,С- Р11 I (14)

^ п п п п )

имеет в асимптотике четырехмерное нормальное распределение с математическим ожиданием (0, 0, 0, 0) (в соответствии с (11)) и ковариационной матрицей

СОУ(£) :

( Poo(1 - Роо) - Р00 Р10 - Р00 P01 - P00 P11 Л

- P00 P10 P10(1 - P10) - P10 P01 - P10 P11

- P00 P01 - P10 P01 P01(1 - P01) - P01P11

V - P00P11 - P10P11 - P01P11 P11(1 - P11)y

(15)

(см., например, в [5, с.153] формулу (6.3.5) для смешанных моментов мультиномиального распределения). Следовательно, ковариационная матрица для частот имеет вид

cov(^,b,С, = icov(X). (16)

V n n n n y n

Для нахождения асимптотического распределения статистики Z

применим метод линеаризации (см., например, [1]). В силу (11) для любой

достаточно гладкой функции g(x, y, t, w) имеем:

( a b c d Л ( \

g -I -g^Pl0,Pol,P11 ) = V n n n n y (17)

Ща_pj+dg(b-pj+dg(c-P011+Ш-p)+... ( )

Эх V n y dy V n У dt V n У dw V n У где частные производные берутся в точке (p00, P10, P01, P11 ), а многоточием обозначены бесконечно малые более высокого порядка, чем бесконечно малые во второй строке формулы (16). Следовательно, асимптотическое распределение приращения функции g(x, y, t, w) (первая строка формулы (16)) определяется главным линейным членом (вторая строка формулы (16)).

Введем в рассмотрение функцию

g(x, y, t, w) = xw - yt. Её частные производные в точке (x, y, t, w) таковы:

^ = w, ^ = -t, ^ = -y, ^ = X .

Эх dy dt Эw

(18)

(19)

При справедливости нулевой гипотезы (9 g (р00, р10, р01, р11 ) = 0.

Из (17) следует, что в точке (х, у, г, ж) = (р(Х),Рю,Р01,Р11)

асимптотическая дисперсия такова:

D(g[ -,-,c,- | - g(Pcc.Pic. Pci.P11 )): I n n n n 1

= D

Поскольку

Piif- -Pec1 - Pcif- - Pic 1 - Pic(c - Pci 1 + Pcef- - P11

(20)

n

n

n

n

1

MI - - Pcc 1 = MfA - Pic 1 = M[ n - Pci I = Mf n - P111 = c,

(21)

то, воспользовавшись (21), получаем:

f

D

P11I - - Pcc I - Pcif - - Pic I - Pic f c - Pci I + Pcc

V

n

n

n

= M

Р11

a

n

-n

n

( d

I- - Pi I

I n

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

( d

PccI P11

1 n

= T Q.

n

где

e = p2D(a) + Ро21^(6) + Р120 D (c) + Ро2о D (d) - 2 p„

p01 cov(a b) — 2p11 p10 to'V^ c) + + 2p„p00 cov(a,d) + 2p01 pwcov(b,c) — 2p01 p00 cov(b,d) — 2pwp00 cov(c,d).

Далее, подставив значения дисперсий и ковариаций из (15), получаем, что

(a b c dЛ 1 D(gI - - - - I — A, V n n n n J n

где

A = Pn Pcc (1 - Pcc) + PmPic (1 - Pic) + Pi2c Pci(1 - Pci) + Pc2c Pi i(1 - Pii) +

+ 2 PiiPciPcc Pic + 2 PiiPic Pcc Pci - 2 PiiPcc Pcc P11 - 2 PciPicPcc Pci + + 2 PciPcc Pic P11 + 2 Pic Pcc Pci Pii-

Приведем подобные члены:

A = Pi2i Pcc + Pc2i Pic + Pi2c Pci + Pc2c P11 - 4 Pi2i P co2-2 Pc2i Pi2 +6 P11 Pci Pcc Pic

(22)

2

c

c

c

Для получения выборочной оценки А* величины достаточно заменить в

1 а Ь с С

формуле (22) вероятности р00,р10,р01,р11 на частоты, т.е. на —,—,—,—

п п п п

соответственно.

Итак, при справедливости гипотезы независимости (9)

-2 гу

асимптотическое распределение величины п 7 - нормальное с нулевым математических ожиданием (см.(13)) и выборочной оценкой дисперсии А*/п (см. (22)). Следовательно, асимптотическое правило принятия решения при проверке гипотезы независимости (9) на уровне значимости а таково: если

171< С(а\ —, т.е. | 7 |<С(а)п^пл[Л* , п V п

то гипотезу независимости (9) принять, в противном случае отклонить. Как обычно при использовании асимптотически нормальных критериев проверки статистических гипотез,

С (а) = ф-(.-а),

где Ф-1 - функция, обратная к функции стандартного нормального распределения [1]. Для наиболее распространенного при анализе статистических данных значения а = 0,05 используем коэффициент С(0,05) = 1,96.

6. Коэффициенты связи альтернативных признаков

Вслед за М.Дж. Кендаллом и А. Стьюартом [6, гл.33] рассмотрим коэффициенты ассоциации и коллигации Юла [7, 8] и коэффициент контингенции Пирсона [9].

Как измерять величину связи между двумя признаками одним коэффициентом - мерой связи? С помощью какого коэффициента это делать? Естественно потребовать, чтобы были известны границы изменения этого коэффициента, а также, чтобы он принимал выделенное

значение - среднее или нижнее - в интервале изменения, если признаки не связаны (т.е. независимы). Выбирая начало отсчета и единицу измерения, можно любой такой коэффициент заставить изменяться в интервале [-1, +1], причем случай независимости будет соответствовать нулевому значению коэффициента. Это удобно тем, что свойства рассматриваемого коэффициента напоминают свойства коэффициентов корреляции К. Пирсона и Спирмена.

Какие значения может принимать коэффициент Z = ad - bc (см. (12))? Для ответа на этот вопрос надо решить две задачи оптимизации:

ad - bc ® max Г ad - bc ® min < a + b + c + d = n, < a + b + c + d = n, a > 0, b > 0, c > 0, d > 0, [a > 0, b > 0, c > 0, d > 0.

В первой из них необходимо минимизировать bc, при этом во второй строке минимизировать b + c. Следовательно, надо положить b = c = 0. Тогда d = n - a и остается максимизировать a(n-a). Как известно, максимум достигается при a = n/2 (для четного n) и равен n /4. Аналогично во второй задаче необходимо минимизировать ad, при этом во второй строке минимизировать a + d. Следовательно, надо положить a = d = 0. Тогда c = n - b и остается минимизировать (-b(n-b)). Как известно, максимум достигается при b = n/2 и равен (-n /4). Для нечетного n увеличивается количество точек, в которых достигается максимум или минимум коэффициента Z.

Следовательно, коэффициент Z принимает значения от (-n /4) до (+n /4). Этот коэффициент не удовлетворяет сформулированному выше требованию, а потому он не может непосредственно применяться для оценки связи между альтернативными признаками. Нормированный

4

коэффициент Z0 =—Z удовлетворяет сформулированному выше условию

n

и может использоваться в качестве меры связи двух альтернативных

признаков. Асимптотическое распределение этого коэффициента найдено в предыдущем разделе 5 настоящей статьи, там же разобраны правила проверки статистической гипотезы независимости.

Однако крайнее значение (-1) достигается (при четном п) лишь в одной точке - при а = С = 0 и Ь = с = п/2, а крайнее значение (+1) тоже лишь в одной точке - при Ь = с = 0 и а = С = п/2. Точки, в которых достигаются крайние значения, не связаны с интуитивным представлением о независимости. При нечетном п экстремальных точек больше, но они не связаны с представлением о независимости. Поэтому важно рассмотреть другие коэффициенты, измеряющие связь между двумя альтернативными признаками.

7. Коэффициент ассоциации

Коэффициент ассоциации введен и изучен английским статистиком Джорджем Одни Юлом (1871-1951) в статьях [7, 8] и ныне носит его имя:

Этот коэффициент близок к 0, если признаки независимы (при безграничном росте объема данных возможна замена частот вероятностями, и тогда 0 = 0 соответствует независимости признаков в мультиномиальной модели). Очевидно, Q = 1 тогда и только тогда, когда Ьс = 0, и Q = (-1) тогда и только тогда, когда аС = 0, следовательно, равенство = 1 соответствует (в асимптотике) условию поглощения.

При справедливости гипотезы (9) независимости признаков и безграничном росте объема п данных коэффициент контингенции Q является асимптотически нормальной случайной величиной с нулевым математическим ожиданием и дисперсией О(О), выборочной оценкой которой является О*(0) следующего вида:

Q =

аС - Ьс 2

(23)

аС + Ьс аС + Ьс

D *(Q) = 1(1 - Q2)211+1+1+-Ц (24)

4 [ a b c d J

(см. [6, п.33.8]). Следовательно, асимптотическое правило принятия решения при проверке гипотезы независимости (9) на уровне значимости a таково: если

IQ £ С(a)VD *(Q), (25)

то гипотезу независимости (9) принять, в противном случае отклонить. Как обычно при использовании асимптотически нормальных критериев проверки статистических гипотез,

С (a) = Ф-1 -aa ],

где Ф-1 - функция, обратная к функции стандартного нормального распределения [1]. Для наиболее распространенного при анализе статистических данных значения a = 0,05 используем коэффициент С(0,05) = 1,96.

Метод получения асимптотического распределения статистики Q -тот же, что и для получения асимптотического распределения статистики Z выше в п.5 настоящей статьи, поэтому выкладки не приводим (см. статьи Юла [7, 8]). Отметим, что согласно (24) асимптотическая дисперсия меняется пропорционально 1/n (поскольку величины в фигурных скобках убывают как 1/n), правая часть неравенства (25) убывает пропорционально 1/Vñ, следовательно, область принятия гипотезы независимости сужается.

Пример 1. Для данных табл. 2 имеем:

^ 300 х 380 -150 х 100 114000 -15000 99

Q =-=-=-= 0,767

300 х 380 +150 х100 114000 +15000 129

и

D *(Q) = ^(1 - 0,7672)2 J — + — + — + — 1 = 4 [300 150 100 380J

= 0,25 х 0,170(0,00333 + 0,00667 + 0,01 + 0,00263} = 0,0424 х 0,02263 = 0,00096. Следовательно, правая часть неравенства (25) равна

1,96^0,00096 = 1,96 х 0,0310 = 0,0607 Поскольку 0,767 > 0,0607, гипотеза независимости отклоняется.

8. Коэффициент коллигации

Второй коэффициент, рассмотренный Юлом в [7, 8] (см. [6, с. 723]), называется коэффициентом коллигации и имеет вид:

Y _4ad-4bc (26)

Пример 2. Для данных табл. 2 имеем:

_ У300х380 -У 150х 100 _ >/114000 -V15000 _ 337,64 -122,47 _ 215,17 _ 0 468 _ У300х380 + у 150х100 _ У114000 + У15000 _ 337,64 +122,47 _ 460,11 _ ,

Согласно [6] нетрудно показать, что

2Y

Q

1 + Y2

Действительно, для данных табл. 2 имеем:

2Y 2х0,468 0,936 ^

-_--—- _--_ 0,768 _ Q

1 + Y2 1 + 0,4682 1,219

(с точностью до 0,001, расхождение из-за погрешностей вычислений).

При справедливости гипотезы (9) независимости признаков и

безграничном росте объема n данных коэффициент коллигации Y является

асимптотически нормальной случайной величиной с нулевым

математическим ожиданием и дисперсией D(Y), выборочной оценкой

которой является D*(Y) следующего вида:

1 ~ 2.2 Г1111

D *(Y) = - (1 - Y2)2+ - + - + - \ (27)

16 [ abc d J

(см. [6, п.33.8]). Как и для коэффициента ассоциации, асимптотическое правило принятия решения при проверке гипотезы независимости (9) на уровне значимости a таково: если

| Y |< С(а)УD *(Y), (28)

то гипотезу независимости (9) принять, в противном случае отклонить. Как и ранее, здесь

где Ф-1 - функция, обратная к функции стандартного нормального распределения [1]. Наиболее распространенному при анализе статистических данных значению уровня значимости a = 0,05 соответствует коэффициент С(0,05) = 1,96.

Метод получения асимптотического распределения статистики Y -тот же, что и для получения асимптотического распределения статистики Z в п.5 настоящей статьи и статистики Q выше, поэтому выкладки не приводим (см. статьи Юла [7, 8]). Отметим, что согласно (27) асимптотическая дисперсия меняется пропорционально 1/n (поскольку величины в фигурных скобках убывают как 1/n), правая часть неравенства (28) убывает пропорционально 1/Vñ, следовательно, область принятия гипотезы независимости сужается.

Пример 3. Для данных табл. 2 имеем:

D *(Y) = — (1 - 0,4682)2J — + — + — + — I = 0,0381 х0,02263 = 0,000862 .

16 [300 150 100 380J

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для уровня значимости a = 0,05 правая часть неравенства (28) равна

1,96^0,0011 = 1,96 х 0,02936 = 0,0575. Поскольку 0,468 > 0,0575, гипотеза (9) независимости признаков отклоняется.

9. Коэффициент контингенции

Используют и третий коэффициент связи между альтернативными признаками - коэффициент контингенции, изученный Э. Пирсоном (18951980) в статье [9]):

V = , аё - Ъс . (29)

у (а + Ъ)(а + с)(Ъ + ё )(с + ё)

Пример 4. Для данных табл. 2 имеем:

V 300x380-150x100 114000 -15000

д/(3 00 +150)(3 00 +100)(150 + 3 80)(100 + 380) ^450 х 400х 530 х 480) 99000 99 99

: 0,462

л/45792000000 л/45792 213,99 При справедливости гипотезы (9) независимости признаков и безграничном росте объема п данных коэффициент контингенции V является асимптотически нормальной случайной величиной с нулевым математическим ожиданием и дисперсией В(У), выборочной оценкой которой является В*( V следующего вида:

,21, 11 I (а - ё)2 - (Ъ - с)2

в *(у) = I (1 - V2)+1 (V+1V2

п п ^ 2 (

п п ^ 2 ) у/(а + Ъ)(а + с)(Ъ + ё)(с + ё)

2 2 (30)

3 V2) (а + Ъ - с - ё)2 (а + с - Ъ - ё)2 [

4п [ (а + Ъ)(с + ё) (а + с)(Ъ + ё) \

(см. [6, п.33.8]). Как и для коэффициентов ассоциации и коллигации, асимптотическое правило принятия решения при проверке гипотезы независимости (9) на уровне значимости а таково: если

| V £ са В *(У), (31)

то гипотезу независимости (9) принять, в противном случае отклонить. Как и ранее, здесь

С (а) = Ф-1 (1 -а 0],

где Ф-1 - функция, обратная к функции стандартного нормального распределения [1]. Наиболее распространенному при анализе статистических данных значению уровня значимости а = 0,05 соответствует коэффициент С(0,05) = 1,96.

Метод получения асимптотического распределения статистики V -тот же, что и для получения асимптотического распределения статистики 2 в п.5 настоящей статьи и статистик Q, У выше, поэтому выкладки не

приводим (см. работу Э. Пирсона [9]). Отметим, что согласно (30) асимптотическая дисперсия меняется пропорционально 1/п, следовательно, правая часть неравенства (31) убывает пропорционально 1/л/й, а потому область принятия гипотезы независимости сужается. Пример 4. Для данных табл. 2 имеем:

Б *(У) = — (1 -0,4622)+—| 0,462 + -^0,462

2)+ _±_Г0462 +1^-21 (300-380)2 - (150-100)2

93^^ ' ; 930 ^ ' 2 ' Ц(300 +150)(300 +100)(150 + 380)(100 + 380) 3х0,4622 [(300 +150 -100 - 380)2 (300 +100 -150 -380)2

4х930 [ (300 +150)(100 + 380) (300 +100)(150 + 380)

1 пс ^ 6400 - 2500 Г 900 16900

=- 0,7866 + 0,5687 х--0,1601-!---

930213990 [216000 212000

= — [0,7866 + 0,5687 х 0,01823 - 0,1601{0,00417 - 0,0797}] = — [0,7866 + 0,0104 + 0,0121] = 930 930

= = 0,00087.

930

Для уровня значимости а = 0,05 правая часть неравенства (31) равна

1,96^0,00087 = 1,96 х 0,0293 = 0,0574. Поскольку 0,462 > 0,0574, гипотеза (9) независимости признаков отклоняется.

10. О свойствах коэффициентов ассоциации, коллигации и контингенции

Отметим, что все три коэффициента ассоциации, коллигации и контингенции принимают значения на отрезке [-1, +1], причем крайние значения достигаются.

В различных материалах, размещенных в Интернете, а также в печатных публикациях имеется некорректная фраза: "Считается, что если Касс > 0,5 и Кконт > 0,3, это свидетельствует о существенной связи между признаками". Здесь в наших обозначениях Касс = Q и Кконт =У. Приведенная фраза некорректна прежде всего потому, что игнорирует возможность получения отрицательных значений коэффициентов ассоциации и контингенции, достаточно больших по абсолютной

величине. Заменив в неравенствах значения коэффициентов на их абсолютные значения, т.е. перейдя к неравенствам \Касс\ >0,5 и \Кконт\ > 0,3, но остается другая. Говорить о "существенной связи между признаками" можно говорить лишь тогда, когда отклонена гипотеза независимости. Если в клетках таблицы четырех полей стоят сравнительно небольшие числа, то может случиться так, что хотя рассматриваемые коэффициенты заметно отличаются от 0, но тем не менее гипотеза независимости отклоняется.

Пример 5. Для данных табл. 5 коэффициент ассоциации Q = 0,5135, т.е. заметно отличается от 0, но при этом правая часть неравенства (25) равна 0,6538, и поскольку 0,5135 < 0,6538, гипотеза независимости принимается.

Таблица 5.

Второй пример таблицы четырёх полей

Значения признаков X = 0 X = 1 Сумма

У = 0 14 3 17

У = 1 6 4 10

Сумма 20 7 27

Приведенные выше рассуждения основаны на асимптотической нормальности рассматриваемых коэффициентов. Если в клетках таблицы четырех полей стоят сравнительно небольшие числа, то вместо предельных соотношений целесообразно пользоваться результатами для конечных объемов выборок. Например, таблицами в классическом сборнике [10, табл. 5.6]. В этой книге, составленной членами-корреспондентами АН СССР Л.Н. Большевым и Н.В. Смирновым, представлены основные расчетные инструменты математической статистики ХХ в. В этой книге - не только подробные таблицы. Пояснительная часть книги представляет собой справочник по

статистическим и вычислительным методам, применяемым при решении задач математической статистики. В современных условиях вместо таблиц могут быть применены соответствующие компьютерные программы, с помощью которых, грубо говоря, могут быть рассчитаны разделы таблиц для конкретных статистических данных, в том числе содержащихся в интересующей исследователя таблице четырех полей.

Анализу таблиц сопряженности, частным случаем которых являются таблиц четырех полей, посвящена монография Г. Аптона [11]. Задачи статистического приемочного контроля, основанные на применении таблиц четырех полей, рассмотрены нами в статье [12].

11. Анализ таблицы четырех полей для модели двух независимых выборок

Примем, что в таблице четырех полей для модели двух независимых выборок заданы суммы по строкам (альтернативный вариант, в котором заданы суммы по столбцам, рассматривается аналогично). Итак, в этой модели суммы по строкам зафиксированы: а + Ь = п1, с + й = п2, где п1 и п2 -заданные натуральные числа (объемы выборок), как показано в табл. 6.

Таблица 6.

Таблица четырёх полей в модели двух независимых выборок

Значения признаков X = 0 X = 1 Сумма

У = 0 а Ь = п1 - а пт

У = 1 с й = п2 - с п?

Сумма а + с Ь + й = п - а - с п

В модели двух независимых выборок имеются две независимые случайные величины а и с. Каждая из них имеет биномиальное распределение, В(п1, д^ и В(п2, д2) соответственно, т.е.

Р(а = к) = СЦд?(1 -Чх)п1~к,к = 0,1,2,...^, Р(с = т) = С^дтг(1 -д^-т,т = 0,1,2,...^.

Методы доверительного оценивания параметров ч1 и q2 представлены в [13, 14].

В рассматриваемой модели двух выборок в качестве центральной проблемы изучения выступает проверка статистической гипотезы о равенстве вероятностей q1 и q2, в отличие от гипотезы независимости признаков в мультиномиальной модели. Обсудим проверку нулевой гипотезы (гипотезы однородности долей)

Н: ql = q2 (32)

при альтернативной гипотезе

Н\; ql Ф q2,

являющейся отрицанием нулевой гипотезы и означающей наличие эффекта при переходе от одной выборки к другой. Гипотезу (32) называют также гипотезой однородности долей, чтобы отметить ее включение в систему моделей и методов проверки однородности двух независимых выборок [15 - 17].

Состоятельные несмещенные оценки вероятностей q1 и q2 таковы;

* а а * с с

ч =—=—г, Ч*

п1 а + Ь п2 с + d

Когда объемы выборок безгранично растут, п1 ®+¥, п2 ®+¥, частоты

* *

сходятся к вероятностям, ч ® ч1, ч* ® q2, а потому

Я - q2* ® 41 -Чг. (33)

При справедливости нулевой гипотезы (32) правая часть соотношения (33) равна 0, а потому проверку (32) естественно проводить на основе величины

* * _ а с _ ас + ad - ас - Ьс _ ad - Ьс _ 2 Ч Ч2 а + Ь с + d (а + Ь)(с + d) (а + Ь)(с + d) (а + Ь)(с + d)'

где статистика 2 уже встречалась нам при изучении мультиномиальной

модели. Однако ее распределение в двух моделях различается.

Поскольку случайные величины а и с независимы и имеют биномиальные распределения, то дисперсия статистики д1 - д* равна

Б(д* - д*) = Б(д*) + Б(д*) = + М--^. (34)

п1 п

При справедливости гипотезы однородности (32) по теореме Муавра-Лапласа статистика

* * д - д* - д*)

является асимптотически нормальной с математическим ожиданием 0 и дисперсией 1. Пусть Б *(д* - д*) - оценка дисперсии Б(д* - д*) такая, что при безграничном росте объемов обеих выборок

Д3'- д*>=1 (35)

п*

11т * *

"1®¥,"2Б(д* - д*)

(сходимость по вероятности). Тогда асимптотическое правило принятия решения при проверке гипотезы однородности (32) на уровне значимости а таково: если

I д*- д* I

<

С (а), (36)

то гипотезу однородности (32) принять, в противном случае отклонить. Как и ранее, здесь

С (а) = Ф-1 -аа ],

где Ф-1 - функция, обратная к функции стандартного нормального распределения [1]. Наиболее распространенному при анализе статистических данных значению уровня значимости а = 0,05 соответствует коэффициент С(0,05) = 1,96.

Статистику Б *(д* - д*) - оценку дисперсии Б(д* - д*) - можно сконструировать разными способами.

В учебниках [] оценку дисперсии получают, заменяя в правой части (34) неизвестные вероятности ч1 и ч2 на их оценки ч* и ч* . В этом случае критерий (36) построен на основе статистики

\ Ч* - Ч*\ _ \ Ч* - Ч*\

*(Ч* - Ч2)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ч1(1 - ЧО + Ч*(1 - Ч2)

(37)

п1 п2

Переходя к величинам в клетках таблицы четырех полей, получаем

\ ad - Ьс \

5 _-

аЬ(с + d )3 + cd (а + Ь)3

(38)

\ (а + Ь)(с + d)

Пример 6. Для данных табл. 2 оценки вероятностей таковы;

* а 300 * с 100

Ч1 = — =-= 0,667, ч* _—_-= 0,208.

п1 450 п2 480

По формуле (37)

\ Ч* - Ч*\ _ \ 0,667 - 0,208 \ _

5 — ■

V

Ч*(1 - Ч*) Ч*(1 - ч*) 0,667(1 - 0,667) + 0,208(1 - 0,208) п1 + п2 V 450 480

0,459 0,459 0,459

_ 15,89

У0,000494 + 0,000343 ^0,000837 0,0289 Гипотеза однородности отклоняется как на уровне значимости а _ 0,05, так и на любом другом используемом в практических расчетах уровне значимости.

Пример 7. Для данных табл.5 оценки вероятностей таковы;

* а 14 „ „„ „ * с 6

Ч1 —-— — _ 0,824, ч* —-— — _ 0,6.

а + Ь 17 с + d 10

По формуле (38)

5 _ \14 X 4 - 3 X 6\ _ 38 _ 38 _ 38 _ 1239

14 Х 3 Х103 + 6 Х 4 Х173 /42000 +117912 д/940,659 30,6702

17 Х10 V 170

Гипотеза однородности принимается.

Приведенные в настоящем разделе правила проверки гипотезы однородности двух биномиальных распределений основаны на

асимптотической нормальности рассматриваемых статистик. Если в клетках таблицы четырех полей стоят сравнительно небольшие числа, то вместо предельных соотношений целесообразно пользоваться результатами для конечных объемов выборок. Например, таблицами и рекомендациями по их использованию в классическом сборнике [10, табл. 5.6].

12. Выводы

Таблицу четырех полей строят для описания совместного распределения двух альтернативных (бинарных, дихотомических) признаков. Она является одной из простейших объектов изучения в статистике нечисловых данных [18, 19]. Однако методы статистического анализа данных, собранных в таблице четырех полей, в литературе (включая Интернет-источники) не всегда представлены адекватно, их рассматривают неполно или с ошибками. Настоящая статья посвящена рассмотрению таких методов в соответствии с традициями отечественной школы теории вероятностей и математической статистики, основанной А.Н. Колмогоровым.

Статистический анализ таблиц четырех полей должен начинаться с выбора модели порождения данных. Применяют мультиномиальную модель и модель двух выборок. Проверяемые гипотезы и правила принятия решений меняются при переходе от одной модели к другой.

Нельзя обоснованно судить о наличии связи между признаками только по величине тех или иных коэффициентов. Необходимо применять подходы теории проверки статистических гипотез. В мультиномиальной модели проверяют гипотезу независимости, а в модели двух выборок -гипотезу однородности долей. Только при отклонении нулевой гипотезы можно говорить о наличии связи между признаками, соответственно, о наличии эффекта при переходе от одной выборки к другой.

В настоящей статье разработан метод вычисления асимптотических распределений функций от чисел в клетках таблицы четырех полей. Он состоит в применении многомерной центральной предельной теоремы теории вероятностей и метода линеаризации функций, который на основе состоятельности оценок вероятностей с помощью частот позволяет выделить распределение главного члена как основной составляющей функций от чисел в клетках таблицы четырех полей [1].

Проверка статистических гипотез основана на использовании дисперсий коэффициентов ассоциации, коллигации и контингенции в мультиномиальной модели и разности выборочных долей в модели двух выборок. В применении дисперсий проявляется преимущество нашего подхода по сравнению с распространенной традицией.

В различных материалах, размещенных в Интернете, а также в печатных публикациях имеется некорректная фраза: "Считается, что если коэффициент ассоциации превосходит 0,5 и коэффициент контингенции больше 0,3, то это свидетельствует о существенной связи между признаками". Приведенная фраза некорректна прежде всего потому, что игнорирует возможность получения отрицательных значений коэффициентов ассоциации и контингенции, достаточно больших по абсолютной величине. От этой некорректности легко избавиться, заменив в приведенных выше неравенствах значения коэффициентов на их абсолютные значения. Более существенно, что говорить о "существенной связи между признаками" можно говорить лишь тогда, когда отклонена гипотеза независимости. В случаях, когда в клетках таблицы четырех полей стоят сравнительно небольшие числа, может случиться так, что хотя рассматриваемые коэффициенты заметно отличаются от 0, но тем не менее гипотеза независимости отклоняется.

Рекомендации, полученные в настоящей статье, основаны на асимптотической нормальности рассматриваемых коэффициентов. Если в

клетках таблицы четырех полей стоят сравнительно небольшие числа, то вместо предельных соотношений целесообразно пользоваться результатами для конечных объемов выборок, в частности, таблицами в классическом сборнике "Таблицы математической статистики" Л.Н. Большева и Н.В. Смирнова [10, табл. 5.6] или соответствующими компьютерными программами.

Литература

1. Орлов А.И. Прикладная статистика. — М.: Экзамен, 2006. — 671 с.

2. Орлов А.И. Статистика нечисловых данных - центральная часть современной прикладной статистики // Научный журнал КубГАУ. 2020. № 156. С. 111— 142.

3. Орлов А.И. Вероятность и прикладная статистика: основные факты: справочник. — М.: КноРус, 2015. — 190 с.

4. Орлов А.И. Вероятностно-статистические модели данных - основа методов прикладной статистики // Заводская лаборатория. Диагностика материалов. 2020. Т.86. № 7. С. 5-6.

5. Уилкс С. Математическая статистика. - М.: Мир, 1967. -632 с.

6. Кендалл М.Дж., Стьюарт А. Статистические выводы и связи / Пер. с англ. Л.И. Гальчука, А.Т. Терехина ; Под ред. А. Н. Колмогорова. - Москва : Наука, 1973. -899 с.

7. Yule G.U. On the association of attributes in statistics // Philosophical Transactions of the Royal Society of London. Series A. 1900. V. 194. Pp. 257-319.

8. Yule G.U. On the methods of measuring association between two attributes // Journal of the Royal Statistical Society. 1912. V. 75. No. 6. Pp. 579-652.

9. Pearson E.S. The choice of statistical tests illustrated on the interpretation of data classed in a 2x2 table // Biometrika. 1947. V. 34. Pp. 139-167.

10. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука. Главная редакция физико-математическом литературы, 1983. —416 с.

11. Аптон Г. Анализ таблиц сопряженности. - М. : Финансы и статистика, 1982. - 143 c.

12. Орлов А.И. Метод проверки гипотез по совокупности малых выборок и его применение в теории статистического контроля // Научный журнал КубГАУ. 2014. №104. С. 38-52.

13. Орлов А.И. Эконометрика. Учебник для вузов. Изд. 3-е, исправленное и дополненное. - М.: Экзамен, 2004. - 576 с.

14. Орлов А.И. Организационно-экономическое моделирование : учебник : в 3 ч. Ч.3. Статистические методы анализа данных. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2012. - 624 с.

15. Орлов А.И. Многообразие критериев проверки однородности двух независимых выборок / Статистические методы оценивания и проверки гипотез: межвуз. сб. науч. тр. Вып.29. - Пермь: Перм. гос. нац. иссл. ун-т, 2019. - С. 64-83.

16. Орлов А.И. О методах проверки однородности двух независимых выборок // Заводская лаборатория. Диагностика материалов. 2020. Т.86. № 3. С. 67-76.

17. Орлов А.И. Система моделей и методов проверки однородности двух независимых выборок / Научный журнал КубГАУ. 2020. №157. С. 145 - 169.

18. Орлов А.И. Организационно-экономическое моделирование: : учебник : в 3 ч. Ч.1: Нечисловая статистика. — М.: Изд-во МГТУ им. Н. Э. Баумана, 2009. — 542 с.

19. Орлов А.И. Статистика нечисловых данных - центральная часть современной прикладной статистики // Научный журнал КубГАУ. 2020. № 156. С. 111— 142.

References

1. Orlov A.I. Prikladnaya statistika. — M.: Ekzamen, 2006. — 671 s.

2. Orlov A.I. Statistika nechislovyh dannyh - central'naya chast' sovremennoj prikladnoj statistiki // Nauchnyj zhurnal KubGAU. 2020. № 156. S. 111—142.

3. Orlov A.I. Veroyatnost' i prikladnaya statistika: osnovnye fakty: spravochnik.

— M.: KnoRus, 2015. — 190 s.

4. Orlov A.I. Veroyatnostno-statisticheskie modeli dannyh - osnova metodov prikladnoj statistiki // Zavodskaya laboratoriya. Diagnostika materialov. 2020. T.86. № 7. S. 5-6.

5. Uilks S. Matematicheskaya statistika. - M.: Mir, 1967. -632 s.

6. Kendall M.Dzh., St'yuart A. Statisticheskie vyvody i svyazi / Per. s angl. L.I. Gal'chuka, A.T. Terekhina ; Pod red. A. N. Kolmogorova. - Moskva : Nauka, 1973. - 899 s.

7. Yule G.U. On the association of attributes in statistics // Philosophical Transactions of the Royal Society of London. Series A. 1900. V. 194. Pp. 257—319.

8. Yule G.U. On the methods of measuring association between two attributes // Journal of the Royal Statistical Society. 1912. V. 75. No. 6. Pp. 579-652.

9. Pearson E.S. The choice of statistical tests illustrated on the interpretation of data classed in a 2x2 table // Biometrika. 1947. V. 34. Rp. 139-167.

10. Bol'shev L.N., Smirnov N.V. Tablicy matematicheskoj statistiki. - M.: Nauka. Glavnaya redakciya fiziko-matematicheskom literatury, 1983. —416 s.

11. Apton G. Analiz tablic sopryazhennosti. - M. : Finansy i statistika, 1982. - 143

c.

12. Orlov A.I. Metod proverki gipotez po sovokupnosti malyh vyborok i ego primenenie v teorii statisticheskogo kontrolya // Nauchnyj zhurnal KubGAU. 2014. №104. S. 38—52.

13. Orlov A.I. Ekonometrika. Uchebnik dlya vuzov. Izd. 3-e, ispravlennoe i dopolnennoe. — M.: Ekzamen, 2004. — 576 s.

14. Orlov A.I. Organizacionno-ekonomicheskoe modelirovanie : uchebnik : v 3 ch. CH.3. Statisticheskie metody analiza dannyh. — M.: Izd-vo MGTU im. N.E. Baumana, 2012.

— 624 s.

15. Orlov A.I. Mnogoobrazie kriteriev proverki odnorodnosti dvuh nezavisimyh vyborok / Statisticheskie metody ocenivaniya i proverki gipotez: mezhvuz. sb. nauch. tr. Vyp.29. - Perm': Perm. gos. nac. issl. un-t, 2019. - S. 64-83.

16. Orlov A.I. O metodah proverki odnorodnosti dvuh nezavisimyh vyborok // Zavodskaya laboratoriya. Diagnostika materialov. 2020. T.86. № 3. S. 67-76.

17. Orlov A.I. Sistema modelej i metodov proverki odnorodnosti dvuh nezavisimyh vyborok / Nauchnyj zhurnal KubGAU. 2020. №157. S. 145 — 169.

18. Orlov A.I. Organizacionno-ekonomicheskoe modelirovanie: : uchebnik : v 3 ch. CH.1: Nechislovaya statistika. — M.: Izd-vo MGTU im. N. E. Baumana, 2009. — 542 s.

19. Orlov A.I. Statistika nechislovyh dannyh - central'naya chast' sovremennoj prikladnoj statistiki // Nauchnyj zhurnal KubGAU. 2020. № 156. S. 111—142.

i Надоели баннеры? Вы всегда можете отключить рекламу.