УДК 378.147.88:519.2
Об особенностях применения критерия согласия Пирсона х2
Л. М. Гафарова, И. Г. Завьялова, Н. Н. Мустафин
Национальный исследовательский университет «МИЭТ»
Рассматриваются особенности и анализируются причины некорректности применения критерия согласия Пирсона, или критерия согласия х2 (хи-квадрат), наиболее часто используемого для проверки гипотезы о принадлежности наблюдаемой выборки X, X,..., Xn объема n некоторому теоретическому закону распределения F(x, 9). Дается теоретическое обоснование названного критерия и приводится подробное описание выполнения в пакете Microsoft Excel заданий посвященной ему лабораторной работы по курсу математической статистики в Национальном исследовательском университете «МИЭТ».
Ключевые слова: критерий согласия Пирсона; критерий согласия х2; теоретическое обоснование; преподавание математической статистики; лабораторная работа; Microsoft Excel.
Критерий согласия х2 чаще других статистических критериев используется в экономических и социологических исследованиях. Широкое распространение является причиной некорректности его применения в некоторых случаях. Нами предпринята попытка заострить внимание на особенностях использования критерия х2. Работа с ним требует использования программного обеспечения, например, специализированных пакетов Statgraphics, STATISTICA (см.: [1]) или MATLAB. Рассмотрим лабораторную работу по изучению и применению критерия х2 в общедоступном пакете MS Excel.
Начнем с описания критерия. Пусть дана выборка X1, X2, ..., Xn наблюдений за случайной величиной X с распределением F.
Определение 1. Гипотезой H называется любое предположение о законе распределения случайной величины X:
H = {F = F1} или H = {F 6 {F}}.
Гипотеза Hназывается простой, если она однозначно определяет закон распределения: H = {F = F1}. В противном
© Гафарова Л. М., Завьялова И. Г., Мустафин Н. Н.
случае гипотеза называется сложной. Сложная гипотеза указывает лишь на принадлежность распределения F некоторому классу распределений {Т }.
Если есть две взаимоисключающие гипотезы, то одну из них называют основной, а другую — альтернативной.
С помощью критерия х2 по выборке X, ..., Хп из распределения Тпроверяется простая основная гипотеза Щ = (Т = = против сложной альтернативной И = (Т * Т}
Название критерия обусловлено названием непрерывного распределения, к которому сходится статистика критерия по распределению.
Определение 2 [2, с. 95]. «Распределение суммы квадратов к независимых стандартных нормальных случайных величин называют распределением х 2 с к степенями свободы и обозначают Ик.
На графике (см. рис. 1) изображены плотности распределения Ик при к, равном 1, 2, 4 и 8 .
Мы будем обозначать через хк случайную величину с распределением Ик.
Рис. 1. Вид плотности распределения х2 в зависимости от числа степеней свободы»
Для вычисления статистики критерия х2 область значений предполагаемого распределения делят на к, к = 2, 3, ..., интервалов группировки. Статистика критерия — это функция отклонения наблюдаемых частот попадания в интервалы группировки от теоретических вероятностей попадания в эти интервалы.
Обозначим через V. (у = 1, ..., к) число элементов выборки, попавших в у-й интервал группировки А.:
V. = {число X Е А.} =2 1(Х. Е А),
(1, если X ё А, где ДХе А ) = ' ' / 4 ' 10, если Х.&А..
Обозначим через р. > 0 теоретическую вероятность РН1(Х1 Е А) попадания в интервал А случайной величины с распределением F1(P1 + ... + Рк = 1).
Пусть
к (V. - Пр )2
р(Х) =2 ^—е±-.
у = 1 Щ
Замечание 1. «Если распределение выборки ^ имеет такие же, как у
вероятности р. попадания в каждый из интервалов А , то по данной функции р эти распределения различить невозможно» [1, с. 140] — поэтому на самом деле р предназначена для проверки другой, сложной гипотезы
Н = {распределение Х1 обладает свойством: Р(Х1 Е А) = р. для всех у = 1, ..., к}
против сложной альтернативной гипотезы
И2 = {хотя бы для одного из интервалов вероятность Р(Х1 £ А.) отличается отр.}.
Теорема Пирсона. Если верна гипотеза и,, то при фиксированном к и при п ^ ^
к (V. — Пр )2
р(Х) =2 _=> Н
}= 1 пр.
к— 1'
где Ик — 1 есть х2-распределение с к — 1 степенью свободы.
Докажем теорему Пирсона при к = 2. В этом случае v2 = п — v1, р2 = 1 — р1, и
(Vl — пр,)2 (V2 — пр 2)
р(Х) = 1 „_ 1 + ■ 2 2
пр1
пр2
(Vl — пр1)2_ + (п — Vl — п(1 — рх))2
пр1 п(1 — р1)
(V, — пр,)2 (—Vl + пр1)2
пр1 (Vl — пр1)2
п(1 — р1)
V,-
щ
пР,(1 — Р,) \ ^пР](\-Р]) /
Но величина v1 есть сумма п независимых случайных величин с одинаковым распределением, и по центральной предельной теореме
2
ГафароваЛ. М., Завьялова И. Г., Мустафин Н. Н.
■у] ПР^-Р^
где имеет стандартное нормальное распределение, поэтому
р(Х)
У] - щ пр^-р^
х21
Величина х21 имеет храспределе-ние И1 с одной степенью свободы. При к > 2 утверждение теоремы проверяется по индукции.
Определение 3. Квантилью порядка р непрерывного распределения Т называется такое число т , при котором Р(Тр) = р.
Используя квантиль распределения Ик _ 1 порядка 1 — а, 0 < а < 1, критерий согласия х2 можно сформулировать следующим образом:
И р(Х„ . %) < х к - 1, 1 -
оХ Х„) =
1И2, РХ X.) > х к - 1, 1 - а.
Определение 4. В случае, когда есть только две взаимоисключающие гипотезы, говорят, что произошла ошибка первого рода, если основная гипотеза отвергнута критерием, тогда как она верна. Вероятность ошибки первого рода называется уровнем значимости критерия.
В лабораторной работе задан уровень значимости а = 0,05. Если величина р(Х) больше квантили распределения Ик - 1 порядка 0,95 - хк - 1; 0 95, то основная
0,2
гипотеза отклоняется. При этом с вероятностью 0,05 возможна ошибка первого рода (отклоняется верная гипотеза).
Замечание 2. «На самом деле критерий х2 применяют и для решения первоначальной задачи о проверке гипотезы И1 = (Т = Т1}. Необходимо только помнить, что этот критерий не подходит для альтернатив с теми же вероятностями попадания в интервалы разбиения, что и у Т1. Поэтому берут достаточно большое число интервалов разбиения, чтобы "уменьшить" число альтернатив, неразличимых с предполагаемым распределением» [2, с. 142].
Замечание 3. Сходимость по распределению в теореме Пирсона р => Ик - 1 обеспечивается теоремой Муавра — Лапласа, поскольку число наблюдений, попадающих в у'-й интервал группировки V., если верна основная гипотеза, имеет биномиальное распределение с вероятностью успеха р ,' = 1, 2, ..., к. Если р. мало, то биномиальное распределение близко к пуассоновскому, в котором среднее число наблюдений X = пр. Для X > 5 пуассоновское распределение близко к нормальному N (т = X, о = Х1/2), а распределение нормированных величин V,-щ
^щ(\-р¡) к стандартному нормальному.
Ряд 1
12 13
Рис. 2. График функции вероятности пуассоновского распределения при X = 5
С целью обеспечить нужную точность при замене распределения р(Х) на Ик — 1 требуют, чтобы пр1, ..., прк были не менее 5.
Замечание 4. При проверке сложных гипотез, когда параметры закона Д(х, 9) неизвестны и оцениваются по той же самой выборке, р(Х) подчиняется х2" распределению с г степенями свободы, где г < к — 1. Точное число степеней свободы неизвестно. Известно лишь, что оно удовлетворяет неравенству [3]
к — 1 — число оцениваемых параметров < г < к — 1,
поэтому необходимо сравнивать р(Х) с квантилями распределений х2, вычисленными во всем этом диапазоне г.
В лабораторной работе студентам предлагается смоделировать выборки объема п = 100 из генеральных совокупностей с нормальным, экспоненциальным и равномерным распределением. Рассчитаем параметры распределений для трех случайных величин Хр Х2, Х3 для варианта V.
<Х имеет равномерное распределение Я(а,Ь). Параметры а и Ь определяются по формулам:
а = (Кшоё10) — 9, Ь = а + 10.
Х2 имеет экспоненциальное распределение ехр(а), где
а__, если V* 10 и V* 20;
а =10
а = 0,1, если V = 10;
а = 0,5, если V = 20.
Х3 имеет нормальное распределение #(т,а). Значения параметров определяются по формулам:
т = (*Шоё10) — 5;
а2 = (ИшоаЗ) + 1» [1, с. 18].
Для генерации первой и третьей выборок в меню Пакет анализа — подменю Генерация случайных чисел выбираем нужный закон распределения.
Выборку из экспоненциального распределения строим на основании теоремы: если случайная величина Х имеет распределение Д(х), то случайная величина Д(Х) имеет равномерное распределение на интервале (0;1), т. е. У = Д(Х) = = 1 — е—аХ имеет распределение Л(0;1), если Х имеет распределение ехр(а).
Функцию
Х = 1п(1 — У) —а
от элементов выборки наблюдений за случайной величиной У можно считать выборкой из экспоненциального распределения.
В целях визуального сравнения полученных выборок с предполагаемыми законами распределения строим гистограммы частот (Пакет анализа — Гистограмма), на которые накладываем теоретические плотности распределений (например, Функции — НОРМ. РАСП (х, среднее, стандартное откл., ЛОЖЬ)).
Проверяем принадлежность выборок предполагаемым законам распределения с помощью критерия х2. Для каждой из трех полученных выборок рассчитываем функции р(Х). Чтобы были выполнены условия пру > 5, при расчете р(Х) интервалы группировки, на которых пру < 5, объединяем с соседними. При этом число интервалов группировки к уменьшается.
Теоретические вероятности ру попадания в у-й интервал группировки предполагаемых распределений (/' = 1, 2, ..., к) вычисляются как разности между значениями функций распределения в конце и в начале интервала (например, Функции — НОРМ.РАСП (х, среднее, стандартное откл., ИСТИНА)).
Значения р(Х) сравниваются с квантилями распределения х2, которые можно найти с помощью встроенной функции ХИ20БР (вероятность, степени свободы). Аргумент «вероятность» —
ГафароваЛ. М, Завьялова И. Г., Мустафин Н. Н.
это единица минус уровень значимости (1 — а = 0,95), а число степеней свободы равняется к — 1.
Вывод: с применением доступного для всех программного обеспечения — пакета MS Excel — возможно корректное использование критерия х2 исследователями любого уровня, от студентов до квалифицированных специалистов.
Литература
1. Вуколов Э. А. Лабораторный практикум по теории вероятностей и статистическим методам с использованием пакета STATISTICA. М.: МИЭТ, 2005. 208 с.
2. Чернова Н. И. Лекции по математической статистике. Новосибирск: НГУ, 2003. 179 с.
3. Пятницкий А. М. Расстояние Пирсона х2 // Биоинформатика, программирование и анализ данных [Электронный ресурс] / Ад-мин.: М. Пятницкий. Обновл.: 28.10.2008. URL: http://bioinformatics.ru/Data-Analysis/Pear-son_chisquare_distance.html (дата обращения: 30.11.2015).
Гафарова Любовь Михайловна — старший преподаватель кафедры высшей математики № 2 (ВМ-2) МИЭТ. E-mail: hm2@miet.ru
Завьялова Ирина Геннадьевна — кандидат физико-математических наук, доцент кафедры ВМ-2 МИЭТ. E-mail: irinazavialova@gmail.com
Мустафин Наиль Нухович — старший преподаватель кафедры ВМ-2. E-mail: hm2@miet.ru