Научная статья на тему 'Об особенностях применения критерия согласия Пирсона χ2'

Об особенностях применения критерия согласия Пирсона χ2 Текст научной статьи по специальности «Математика»

CC BY
2051
378
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
критерий согласия Пирсона / критерий согласия χ2 / теоретическое обоснование / преподавание математической статистики / лабораторная работа / Microsoft Excel / Pearson’s goodness-of-fit test / χ2-test for goodness of fit / theoretical justification / mathematical statistics teaching / laboratory class / Microsoft Excel

Аннотация научной статьи по математике, автор научной работы — Гафарова Любовь Михайловна, Завьялова Ирина Геннадьевна, Мустафин Наиль Нухович

Рассматриваются особенности и анализируются причины некорректности примене-ния критерия согласия Пирсона, или критерия согласия χ2 (хи-квадрат), наиболее часто ис-пользуемого для проверки гипотезы о принадлежности наблюдаемой выборки X1, X2, …, Xnобъема n некоторому теоретическому закону распределения F(x, θ). Дается теоретическоеобоснование названного критерия и приводится подробное описание выполнения в паке-те MicrosoftMicrosoft ExcelExcel заданий посвященной ему лабораторной работы по курсу математиче-ской статистики в Национальном исследовательском университете «МИЭТ».

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Гафарова Любовь Михайловна, Завьялова Ирина Геннадьевна, Мустафин Наиль Нухович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On Pearson’s Chi-Square Test Application Features

The authors consider the features and analyze the causes of incorrect application of Pearson’s goodness-of-fit test, or chi-square test (χ2-test) for goodness of fit, the most often used in testing of a hypothesis for the observed X1, X2, …, Xn sample of n size membership in some theoretical law F(x, θ). The authors provide theoretical justification for the said criterion and describe in detail the laboratory class dedicated to it, included in a course in mathematical statistics at National Research University of Electronic Technology, and using Microsoft Excel.

Текст научной работы на тему «Об особенностях применения критерия согласия Пирсона χ2»

УДК 378.147.88:519.2

Об особенностях применения критерия согласия Пирсона х2

Л. М. Гафарова, И. Г. Завьялова, Н. Н. Мустафин

Национальный исследовательский университет «МИЭТ»

Рассматриваются особенности и анализируются причины некорректности применения критерия согласия Пирсона, или критерия согласия х2 (хи-квадрат), наиболее часто используемого для проверки гипотезы о принадлежности наблюдаемой выборки X, X,..., Xn объема n некоторому теоретическому закону распределения F(x, 9). Дается теоретическое обоснование названного критерия и приводится подробное описание выполнения в пакете Microsoft Excel заданий посвященной ему лабораторной работы по курсу математической статистики в Национальном исследовательском университете «МИЭТ».

Ключевые слова: критерий согласия Пирсона; критерий согласия х2; теоретическое обоснование; преподавание математической статистики; лабораторная работа; Microsoft Excel.

Критерий согласия х2 чаще других статистических критериев используется в экономических и социологических исследованиях. Широкое распространение является причиной некорректности его применения в некоторых случаях. Нами предпринята попытка заострить внимание на особенностях использования критерия х2. Работа с ним требует использования программного обеспечения, например, специализированных пакетов Statgraphics, STATISTICA (см.: [1]) или MATLAB. Рассмотрим лабораторную работу по изучению и применению критерия х2 в общедоступном пакете MS Excel.

Начнем с описания критерия. Пусть дана выборка X1, X2, ..., Xn наблюдений за случайной величиной X с распределением F.

Определение 1. Гипотезой H называется любое предположение о законе распределения случайной величины X:

H = {F = F1} или H = {F 6 {F}}.

Гипотеза Hназывается простой, если она однозначно определяет закон распределения: H = {F = F1}. В противном

© Гафарова Л. М., Завьялова И. Г., Мустафин Н. Н.

случае гипотеза называется сложной. Сложная гипотеза указывает лишь на принадлежность распределения F некоторому классу распределений {Т }.

Если есть две взаимоисключающие гипотезы, то одну из них называют основной, а другую — альтернативной.

С помощью критерия х2 по выборке X, ..., Хп из распределения Тпроверяется простая основная гипотеза Щ = (Т = = против сложной альтернативной И = (Т * Т}

Название критерия обусловлено названием непрерывного распределения, к которому сходится статистика критерия по распределению.

Определение 2 [2, с. 95]. «Распределение суммы квадратов к независимых стандартных нормальных случайных величин называют распределением х 2 с к степенями свободы и обозначают Ик.

На графике (см. рис. 1) изображены плотности распределения Ик при к, равном 1, 2, 4 и 8 .

Мы будем обозначать через хк случайную величину с распределением Ик.

Рис. 1. Вид плотности распределения х2 в зависимости от числа степеней свободы»

Для вычисления статистики критерия х2 область значений предполагаемого распределения делят на к, к = 2, 3, ..., интервалов группировки. Статистика критерия — это функция отклонения наблюдаемых частот попадания в интервалы группировки от теоретических вероятностей попадания в эти интервалы.

Обозначим через V. (у = 1, ..., к) число элементов выборки, попавших в у-й интервал группировки А.:

V. = {число X Е А.} =2 1(Х. Е А),

(1, если X ё А, где ДХе А ) = ' ' / 4 ' 10, если Х.&А..

Обозначим через р. > 0 теоретическую вероятность РН1(Х1 Е А) попадания в интервал А случайной величины с распределением F1(P1 + ... + Рк = 1).

Пусть

к (V. - Пр )2

р(Х) =2 ^—е±-.

у = 1 Щ

Замечание 1. «Если распределение выборки ^ имеет такие же, как у

вероятности р. попадания в каждый из интервалов А , то по данной функции р эти распределения различить невозможно» [1, с. 140] — поэтому на самом деле р предназначена для проверки другой, сложной гипотезы

Н = {распределение Х1 обладает свойством: Р(Х1 Е А) = р. для всех у = 1, ..., к}

против сложной альтернативной гипотезы

И2 = {хотя бы для одного из интервалов вероятность Р(Х1 £ А.) отличается отр.}.

Теорема Пирсона. Если верна гипотеза и,, то при фиксированном к и при п ^ ^

к (V. — Пр )2

р(Х) =2 _=> Н

}= 1 пр.

к— 1'

где Ик — 1 есть х2-распределение с к — 1 степенью свободы.

Докажем теорему Пирсона при к = 2. В этом случае v2 = п — v1, р2 = 1 — р1, и

(Vl — пр,)2 (V2 — пр 2)

р(Х) = 1 „_ 1 + ■ 2 2

пр1

пр2

(Vl — пр1)2_ + (п — Vl — п(1 — рх))2

пр1 п(1 — р1)

(V, — пр,)2 (—Vl + пр1)2

пр1 (Vl — пр1)2

п(1 — р1)

V,-

щ

пР,(1 — Р,) \ ^пР](\-Р]) /

Но величина v1 есть сумма п независимых случайных величин с одинаковым распределением, и по центральной предельной теореме

2

ГафароваЛ. М., Завьялова И. Г., Мустафин Н. Н.

■у] ПР^-Р^

где имеет стандартное нормальное распределение, поэтому

р(Х)

У] - щ пр^-р^

х21

Величина х21 имеет храспределе-ние И1 с одной степенью свободы. При к > 2 утверждение теоремы проверяется по индукции.

Определение 3. Квантилью порядка р непрерывного распределения Т называется такое число т , при котором Р(Тр) = р.

Используя квантиль распределения Ик _ 1 порядка 1 — а, 0 < а < 1, критерий согласия х2 можно сформулировать следующим образом:

И р(Х„ . %) < х к - 1, 1 -

оХ Х„) =

1И2, РХ X.) > х к - 1, 1 - а.

Определение 4. В случае, когда есть только две взаимоисключающие гипотезы, говорят, что произошла ошибка первого рода, если основная гипотеза отвергнута критерием, тогда как она верна. Вероятность ошибки первого рода называется уровнем значимости критерия.

В лабораторной работе задан уровень значимости а = 0,05. Если величина р(Х) больше квантили распределения Ик - 1 порядка 0,95 - хк - 1; 0 95, то основная

0,2

гипотеза отклоняется. При этом с вероятностью 0,05 возможна ошибка первого рода (отклоняется верная гипотеза).

Замечание 2. «На самом деле критерий х2 применяют и для решения первоначальной задачи о проверке гипотезы И1 = (Т = Т1}. Необходимо только помнить, что этот критерий не подходит для альтернатив с теми же вероятностями попадания в интервалы разбиения, что и у Т1. Поэтому берут достаточно большое число интервалов разбиения, чтобы "уменьшить" число альтернатив, неразличимых с предполагаемым распределением» [2, с. 142].

Замечание 3. Сходимость по распределению в теореме Пирсона р => Ик - 1 обеспечивается теоремой Муавра — Лапласа, поскольку число наблюдений, попадающих в у'-й интервал группировки V., если верна основная гипотеза, имеет биномиальное распределение с вероятностью успеха р ,' = 1, 2, ..., к. Если р. мало, то биномиальное распределение близко к пуассоновскому, в котором среднее число наблюдений X = пр. Для X > 5 пуассоновское распределение близко к нормальному N (т = X, о = Х1/2), а распределение нормированных величин V,-щ

^щ(\-р¡) к стандартному нормальному.

Ряд 1

12 13

Рис. 2. График функции вероятности пуассоновского распределения при X = 5

С целью обеспечить нужную точность при замене распределения р(Х) на Ик — 1 требуют, чтобы пр1, ..., прк были не менее 5.

Замечание 4. При проверке сложных гипотез, когда параметры закона Д(х, 9) неизвестны и оцениваются по той же самой выборке, р(Х) подчиняется х2" распределению с г степенями свободы, где г < к — 1. Точное число степеней свободы неизвестно. Известно лишь, что оно удовлетворяет неравенству [3]

к — 1 — число оцениваемых параметров < г < к — 1,

поэтому необходимо сравнивать р(Х) с квантилями распределений х2, вычисленными во всем этом диапазоне г.

В лабораторной работе студентам предлагается смоделировать выборки объема п = 100 из генеральных совокупностей с нормальным, экспоненциальным и равномерным распределением. Рассчитаем параметры распределений для трех случайных величин Хр Х2, Х3 для варианта V.

<Х имеет равномерное распределение Я(а,Ь). Параметры а и Ь определяются по формулам:

а = (Кшоё10) — 9, Ь = а + 10.

Х2 имеет экспоненциальное распределение ехр(а), где

а__, если V* 10 и V* 20;

а =10

а = 0,1, если V = 10;

а = 0,5, если V = 20.

Х3 имеет нормальное распределение #(т,а). Значения параметров определяются по формулам:

т = (*Шоё10) — 5;

а2 = (ИшоаЗ) + 1» [1, с. 18].

Для генерации первой и третьей выборок в меню Пакет анализа — подменю Генерация случайных чисел выбираем нужный закон распределения.

Выборку из экспоненциального распределения строим на основании теоремы: если случайная величина Х имеет распределение Д(х), то случайная величина Д(Х) имеет равномерное распределение на интервале (0;1), т. е. У = Д(Х) = = 1 — е—аХ имеет распределение Л(0;1), если Х имеет распределение ехр(а).

Функцию

Х = 1п(1 — У) —а

от элементов выборки наблюдений за случайной величиной У можно считать выборкой из экспоненциального распределения.

В целях визуального сравнения полученных выборок с предполагаемыми законами распределения строим гистограммы частот (Пакет анализа — Гистограмма), на которые накладываем теоретические плотности распределений (например, Функции — НОРМ. РАСП (х, среднее, стандартное откл., ЛОЖЬ)).

Проверяем принадлежность выборок предполагаемым законам распределения с помощью критерия х2. Для каждой из трех полученных выборок рассчитываем функции р(Х). Чтобы были выполнены условия пру > 5, при расчете р(Х) интервалы группировки, на которых пру < 5, объединяем с соседними. При этом число интервалов группировки к уменьшается.

Теоретические вероятности ру попадания в у-й интервал группировки предполагаемых распределений (/' = 1, 2, ..., к) вычисляются как разности между значениями функций распределения в конце и в начале интервала (например, Функции — НОРМ.РАСП (х, среднее, стандартное откл., ИСТИНА)).

Значения р(Х) сравниваются с квантилями распределения х2, которые можно найти с помощью встроенной функции ХИ20БР (вероятность, степени свободы). Аргумент «вероятность» —

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ГафароваЛ. М, Завьялова И. Г., Мустафин Н. Н.

это единица минус уровень значимости (1 — а = 0,95), а число степеней свободы равняется к — 1.

Вывод: с применением доступного для всех программного обеспечения — пакета MS Excel — возможно корректное использование критерия х2 исследователями любого уровня, от студентов до квалифицированных специалистов.

Литература

1. Вуколов Э. А. Лабораторный практикум по теории вероятностей и статистическим методам с использованием пакета STATISTICA. М.: МИЭТ, 2005. 208 с.

2. Чернова Н. И. Лекции по математической статистике. Новосибирск: НГУ, 2003. 179 с.

3. Пятницкий А. М. Расстояние Пирсона х2 // Биоинформатика, программирование и анализ данных [Электронный ресурс] / Ад-мин.: М. Пятницкий. Обновл.: 28.10.2008. URL: http://bioinformatics.ru/Data-Analysis/Pear-son_chisquare_distance.html (дата обращения: 30.11.2015).

Гафарова Любовь Михайловна — старший преподаватель кафедры высшей математики № 2 (ВМ-2) МИЭТ. E-mail: hm2@miet.ru

Завьялова Ирина Геннадьевна — кандидат физико-математических наук, доцент кафедры ВМ-2 МИЭТ. E-mail: irinazavialova@gmail.com

Мустафин Наиль Нухович — старший преподаватель кафедры ВМ-2. E-mail: hm2@miet.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.