Научная статья на тему 'Статистическое обоснование критерия Пирсона для проверки сложной гипотезы о равномерном распределении генеральной совокупности'

Статистическое обоснование критерия Пирсона для проверки сложной гипотезы о равномерном распределении генеральной совокупности Текст научной статьи по специальности «Математика»

CC BY
555
59
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОЦЕНКИ ПАРАМЕТРОВ / РАВНОМЕРНЫЙ ЗАКОН РАСПРЕДЕЛЕНИЯ / СЛОЖНАЯ ГИПОТЕЗА / КРИТЕРИЙ ХИ-КВАДРАТ ПИРСОНА

Аннотация научной статьи по математике, автор научной работы — Облакова Т.В.

В работе изучается корректность применения критерия Пирсона для проверки сложной гипотезы о равномерности закона распределения генеральной совокупности. Предложен и осуществлен статистический эксперимент, позволяющий установить закон распределения статистики Пирсона в рассматриваемом случае. Также показано, что использование оценок максимального правдоподобия параметров равномерного закона не требует корректировки числа степеней свободы при определении порога принятия основной гипотезы.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Облакова Т.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Statistical Justification of Pearson''s Criterion for Testing a Complex Hypothesis on the Uniform Distribution

The paper is studying the justification of the Pearson criterion for checking the hypothesis on the uniform distribution of the general totality. If the distribution parameters are unknown, then estimates of the theoretical frequencies are used [1, 2, 3]. In this case the quantile of the chi-square distribution with the number of degrees of freedom, reduced by the number of parameters evaluated, is used to determine the upper threshold of the main hypothesis acceptance [7]. However, in the case of a uniform law, the application of Pearson's criterion does not extend to complex hypotheses, since the likelihood function does not allow differentiation with respect to parameters, which is used in the proof of the theorem mentioned

Текст научной работы на тему «Статистическое обоснование критерия Пирсона для проверки сложной гипотезы о равномерном распределении генеральной совокупности»

Машиностроение U компьютерные технологии

Сетевое научное издание

http://www.technomagelpub.ru ISSN 2587-9278 УДК 519.22

Статистическое обоснование критерия Пирсона для проверки сложной гипотезы о равномерном распределении генеральной совокупности

Облакова Т.В. ' oblrv'igitiboxjiii

1МГТУ им. Н.Э. Баумана, Москва, Россия

Ссылка на статью:

// Машиностроение и компьютерные технологии. 2018. № 04. С. 45-53.

Б01: 10.24108/0418.0001392

Представлена в редакцию: 29.03.2018

© НП «НЭИКОН»

В работе изучается корректность применения критерия Пирсона для проверки сложной

гипотезы о равномерности закона распределения генеральной совокупности.

Предложен и осуществлен статистический эксперимент, позволяющий установить закон

распределения статистики Пирсона в рассматриваемом случае. Также показано, что

использование оценок максимального правдоподобия параметров равномерного закона не

требует корректировки числа степеней свободы при определении порога принятия основной

гипотезы.

Ключевые слова: оценки максимального правдоподобия, равномерный закон распределения, сложная гипотеза, критерий хи-квадрат Пирсона

Введение

Одномерный равномерный закон распределения на первый взгляд относится к наиболее простым, в силу чего обычно включается в курсы теории вероятностей и математической статистики самого разного уровня [1, 2, 3]. На всех этапах изучения этих дисциплин равномерный закон является очень простой и удобной моделью, позволяющей проиллюстрировать определяемые понятия и изучаемые методы.

Так, в задаче точечного оценивания параметров этот закон служит примером несовпадения оценок по методу моментов и методу максимального правдоподобия [ 1,8] ) . А именно, для распределения с плотностью, зависящей от двух параметров

р (х)=/ (х)={^,хе[а,й ] (1)

I 0, х <£ [а, Ь]

оценки этих параметров по методу моментов и по самой сути метода выражаются через эмпирические моменты первого и второго порядков и имеют вид:

ат=Х-л13 а2 — ЗХ2 Ът = X + ^ 3 а2— ЗХ, (2)

где

п п

к=1 к=1

Первое неудобство здесь состоит даже не в громоздкости выражения (2) , затрудняющего изучение свойств, а в том, что эти оценки оказываются абсурдными в том смысле, что часто наблюдения выходят за границы полученного интервала [ат, Ь— , что противоречит здравому смыслу.

Оценки максимального правдоподобия

аI = Х( 1) , Ъ I = Х(п) (3)

по своей сути не обладают этим недостатком, поскольку выражаются через достаточные статистики X (1) и X (п), представляющие собой минимальный и максимальный члены вариационного ряда соответственно. Оценки максимального правдоподобия (ОМП), легко модифицируются к несмещенному виду и в силу простого вида законов распределения порядковых статистик Х(и Х(п) по всему предпочтительнее ( [ 5 ] ) .

1. Постановка задачи

Однако и с ОМП возникают интересные коллизии в задаче проверки непараметрических гипотез. Чаще всего в курсах излагается непараметрический критерий хи-квадрат Пирсона.

Если проверяется простая гипотеза о том, что выборка Х1 ,Х2,... ,Хп подчиняется однозначно определенному закону распределения F (х) , то согласно теореме Пирсона статистика

= И (4)

в пределе распределена по закону хи-квадрат с ( Ь — 1) степенью свободы (см. [7 ]) . В формуле (4) Vj- эмпирические, а пр1 -теоретические частоты попадания в 1-й интервал группировки, вычисленные в предположении справедливости основной гипотезы.

Если же закон зависит от параметров, то есть проверяется уже сложная гипотеза, то при вычислении вероятностей используются оценки этих параметров, и в этом случае статистика (в пределе подчиняется закону хи-квадрат с (Ь — 1 — г) степенями свободы, где г - число оцениваемых по выборке параметров. Доказательство соответствующей теоремы использует оценивание по методу минимума хи-квадрат, тесно связанному с исследованием производной функции правдоподобия (см. ). Однако функция правдоподобия для равномерного закона (1) имеет следующий вид

£(Х1,Х *.....Хп,а,Ь) = П п=1^Га1 (а <Хк<Ъ)= —^—Пп= 11(а < Хк < Ъ) (5)

и не допускает дифференцирования по параметрам а и Ъ , поскольку в этих точках индикаторы / ( а < Хд < Ъ ) разрывны. Поэтому эта модификация критерия Пирсон не распространяется на равномерный закон (1).

Тем не менее мировая сеть выдает по запросу множество методических указаний, примеров лабораторных работ, студенческих рефератов, применяющих критерий Пирсона к проверке сложной гипотезы о равномерности закона распределения генеральной совокупности. Качество ресурсов самое разное, в части работ используются даже оценки (2). Однако в серьезных работах по применению критерия Пирсона , как правило, авто-

ры применительно к равномерному закону (1) останавливаются на проверке только простых гипотез, или применяют более сложные критерии .

Данная работа ставит своей целью статистически проверить корректность применения критерия Пирсона для проверки сложных гипотез и уточнить формулировку задачи. По сути ищется обоснованный ответ на вопрос студента, а нужно ли уменьшать количество степеней свободы на число оцениваемых параметров в случае равномерного закона.

Поскольку поиск теоретического ответа привел к серьезным и пока не преодоленным трудностям, связанным с необходимостью минимизации статистики , сравнивающей эмпирические и теоретические частоты попадания в -й интервал группировки, / = 1, Ь , возникла идея проверить закон распределения этой статистики экспериментально.

2. Описание статистического эксперимента

С помощью встроенного датчика случайных чисел моделируем статистически значимое количество N независимых выборок объёма п из заданного равномерного закона (см. соответствующие колонки в таблице 1). Для каждой выборки

^ , Х^ ^ ,. . ., Х^ ^ ,_/' = 1 , N

вычисляем статистику

2 ^

= Хв, _/ = ^ Ь=1 21 , (6)

ы

где - количество интервалов группировки, зависящее только от и вычисляемое в описываемом эксперименте по правилу Стёрджеса, , - количество наблю-

п

дений ]-ой выборки, попавших в 1-ый интервал группировки. Теоретические частоты — в

формуле (6) вычислены в предположении, что а = Х^ Ъ = Х^, то есть по сути используются ОПМ (3).

На следующем этапе мы интересуемся законом распределения выборки (статистики) У1 ,Ув ,. ■ вычисленной по формуле (6). После группировки, количество интервалов которой определяется по формуле , строим гистограмму второго уровня, и подбираем закон распределения переменных который ожидаемо оказывается похожим на распределение х в.

3. Результаты эксперимента

Итак, на первом этапе проверяем сложную гипотезу Н0 о том, что выборка У1, У2, распределена по закону х2-

Используем тот же критерий Пирсона, то есть находим выборочное значение статистики

,2 _ \1Ь2 (Л~Мрд2

ХвО ~ £¿=1'

(7)

В формуле (7) - число элементов выборки У1, У2, ...,УМ, попавших в попавших в /-ый интервал группировки, р1 - теоретическая вероятность попадания в этот интервал, вычисленная в соответствии с законом х2 (т) , где число степеней свободы принято равным

т = У = 1^мк=1Ук.

Было проведено 9 экспериментов для различных значений параметров а и Ъ и объемов выборок (см. таблицу 1). Моделирование и обработка выборок производились в пакете МаШсаё 15.

Во всех экспериментах значения статистики (7) оказались меньше верхнего порога принятия гипотезы Н0 для уровня доверия 0.9В, то есть можно считать, что переменные У1,У2,...,Ум распределены по закону х2. На рисунке 1 приведена типичная гистограмма второго уровня (строка 7 в таблице 1), совмещенная с плотностью, соответствующей гипотезе Н0 с числом степеней свободы т.

Рис. 1. Проверка гипотезы Н0

Таблица 1

Кол-во ин- Кол-во ин- Статисти- Порог принятия гипотезы а = 0.05

Номер эксперимента Моделированный закон Объёмы выборок тервалов группировки на первом уровне 11 Кол-во выборок тервалов группировки на втором уровне 12 ка Хво для основной гипотезы Н0

1 Д [2,20] 200 8 100 7 0.925 5.991

2 Д [—8,16] 200 8 100 7 3.586 9.488

3 Д[—4.5,11.2] 200 8 100 7 6.144 9.488

4 Д[—4.5,11.2] 200 8 200 8 7.149 11.07

5 Д[—5,15] 200 8 100 7 3.592 9.488

6 Д[0,10] 300 9 200 8 2.593 7.815

7 Д [1.1,12.5] 200 8 300 9 1.45 7.815

8 Д [2,20] 200 8 200 8 10.753 12.592

9 Д [—18,22] 200 8 300 9 1.084 9.488

4. Определение числа степеней свободы

На втором этапе эксперимента будем искать ответ на вопрос о числе степеней свободы.

Для этого вычислим статистику л2 для следующих основных гипотез:

1. Основная гипотеза Я0 1 : выборка У1, У2 ,. .., У№ распределена по закону л 2 ( Ь 1 — 1 ) .

Если эта гипотеза принимается, то число степеней свободы при определении порога принятия сложной гипотезы о равномерности не нужно уменьшать, мы должны игнорировать то факт, что теоретические частоты в формуле (4) неявно используют ОМП параметров закона (1).

2. Основная гипотеза Я0 2 : выборка У1 , У2 ,. .., У№ распределена по закону л 2 (Ь 1 — 3 ) .

Если эта гипотеза принимается, то мы действуем при применении критерия и в случае равномерного закона по общему правилу: если по выборке оцениваются параметры, то число степеней свободы уменьшается на число этих параметров.

Для проверки (простых) гипотез Я0 1 и Я0 2 вычисляем статистики вида (7), а именно

,2 _ V" 01-Ыр1д2 2 _ ^12 {т-Кр2{)2

Л в 1 ЬI=1 ± . и Л в 2 ЬI=1 2 I '

в которых ?7 ¿— количество элементов выборки У1 , У2 ,. ..,Удг, попавших в /-ый интервал группировки, р 1 £ и р 2 £ - теоретические частоты попадания в этот интервал, вычисленные при гипотезах и .

Данные эксперимента сведены в таблицу 2. Для справки приведены пороги принятия проверяемых гипотез на уровне значимости . На рисунке 2 на гистограмму второ-

го уровня наложены плотности, соответствующие (простым) гипотезам и .

Таблица 2.

№ экспе ри-мента Моделированный закон Объём выборок п Кол-во интервалов группировки 11 Кол-во выборок N Кол-во интервалов группировки на втором уровне Ь2 Статистика xl для основной гипотезы Н 01 Порог принятия гипотезы Н01 а = 0.05 Статистика х1 для основной гипотезы #02 Порог принятия гипотезы Н02 а = 0.05

1 Д [2,20] 200 8 100 7 4.66 7.815 58.267 5.991

2 Д [—8,16] 200 8 100 7 3.633 11.07 42.941 9.488

3 Д[—4.5,11.2] 200 8 100 7 5.309 11.07 42.378 9.488

4 Д[—4.5,11.2] 200 8 200 8 7.339 14.067 57.844 11.07

5 Д [—5,15] 200 8 100 7 3.493 11.07 38.503 7.815

6 Д[0,10] 300 9 200 8 2.361 9.448 58.783 7.815

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7 Д [1.1,12.5] 200 8 300 9 1.68 11.07 99.559 9.488

8 Д [2,20] 200 8 200 8 9.479 14.067 81.027 12.592

9 Д[—18,22] 200 8 300 9 1.2 11.07 116.357 9.488

Рис. 2. Проверка гипотез Н01 и Н02

Как видно из таблицы 2 во всех экспериментах гипотеза Н01 принимается на уровне доверия 0.9В, в то время, как гипотеза Н02 убедительно отклоняется.

Заключение

Полученные результаты позволяют сформулировать следующие выводы.

Во первых, критерий Пирсона можно использовать для проверки сложной гипотезы Я: выборка Х1,Х2, ...,Хп получена из равномерного закона распределения (1), поскольку статистика (7) подчиняется закону у2.

Во вторых, при определении порога принятия гипотезы Я надо считать, что оценки

,,2 _ v£i (v'~n)

параметров не используются, то есть статистику ув ~ ^i=i-п-сравнивать с кван-

L1

тилью закона у2 с числом степеней свободы L1 — 1. Другими словами, надо игнорировать тот факт, что проверяемая гипотеза Я сложная и вычислять порог принятия как для простой гипотезы.

Список литературы

1. Печинкин А.В., Тескин О.И., Цветкова Г.М. и др. Теория вероятностей. -М.: Изд-во МГТУ им. Н. Э. Баумана, 2006. - 456 с.

2. Энатская Н.Ю., Хакимуллин Е.Р. Теория вероятностей и математическая статистика для инженерно-технических направлений: учебник и практикум для прикладного бакалавриата. -М.: Издательство Юрайт, 2015. -399.

3. Боровков А.А. Теория вероятностей. -М.: Книжный дом «ЛИБРОКОМ», 2017. - 656с.

4. Джонсон Н.Л., Коц С., Балакришнан Н. Одномерные непрерывные распределения в двух частях, часть 2. -М.:БИНОМ, Лаборатория знаний, 2012. - 600с.

5. Джонсон Н.Л., Коц С., Балакришнан Н. Одномерные непрерывные распределения в двух частях, часть 1. -М.:БИНОМ, Лаборатория знаний, 2017. - 703с.

6. Кендалл М., Стьюарт А. Статистические выводы и связи. -М.: Наука,1973. - 800с

7. Крамер Г. Математические методы статистики. - Регулярная и хаотическая динамика, 2003. - 648с.

8. Сидняев Н.И., Мельникова Ю.С. Оценки статистических параметров распределений. Методические рекомендации к домашнему заданию по дисциплине «Математическая статистика». Электронное учебное издпние. -Москва, МГТУ им. Н.Э. Баумана, 2012. -40с.

9. Greenwood P. E. A guide to chi-squared testing / P. E. Greenwood, M. S. Nikulin. - New York : John Wiley & Sons, 1996. - 280 p.

10. Денисов В. И. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Ч. I. Критерии типа х2 : метод. реком. / В. И. Денисов, Б. Ю. Лемешко, С. Н. Постовалов. - Новосибирск : Изд-во НГТУ, 1998. - 126 с.

11. Лемешко Б. Ю., Блинов П.Ю. Критерии проверки отклонения распределения от равномерного закона. Руководство по применению. - Новосибирск : Изд-во НГТУ, 2015. - 182 с.

Mechanical Engineering and Computer Science, 2018, no. 04, pp. 45-53.

DOI: 10.24108/0418.0001392

Received: 29.03.2018

Mechanical Engineering & Computer Science

Electronic journal

http://www.technomagelpub.ru ISSN 2587-9278 © NP "NEICON"

Statistical Justification of Pearson's Criterion for Testing a Complex Hypothesis on the Uniform Distribution

T.V. Oblakova ' obltvi&inboxju

1Bauman Moscow State Technical University, Moscow, Russia

Keywords: maximum likelihood estimates, uniform distribution law, complex hypothesis, Pearson chi-square test

The paper is studying the justification of the Pearson criterion for checking the hypothesis on the uniform distribution of the general totality. If the distribution parameters are unknown, then estimates of the theoretical frequencies are used [1, 2, 3]. In this case the quantile of the chi-square distribution with the number of degrees of freedom, reduced by the number of parameters evaluated, is used to determine the upper threshold of the main hypothesis acceptance [7]. However, in the case of a uniform law, the application of Pearson's criterion does not extend to complex hypotheses, since the likelihood function does not allow differentiation with respect to parameters, which is used in the proof of the theorem mentioned [7, 10, 11].

A statistical experiment is proposed in order to study the distribution of Pearson statistics for samples from a uniform law. The essence of the experiment is that at first a statistically significant number of one-type samples from a given uniform distribution is modeled, then for each sample Pearson statistics are calculated, and then the law of distribution of the totality of these statistics is studied. Modeling and processing of samples were performed in the Mathcad 15 package using the built-in random number generator and array processing facilities.

In all the experiments carried out, the hypothesis that the Pearson statistics conform to the chi-square law was unambiguously accepted (confidence level 0.95). It is also statistically proved that the number of degrees of freedom in the case of a complex hypothesis need not be corrected. That is, the maximum likelihood estimates of the uniform law parameters implicitly used in calculating Pearson statistics do not affect the number of degrees of freedom, which is thus determined by the number of grouping intervals only.

References

1. Pechinkin A.V, Teskin O.I, Tsvetkova G.M. Theory of Probability. -M .:. BMSTU publ., 2006. - 456 p. (in Russian).

2. Enatskaya N.Yu., Hakimullin E.R. Theory of Probability and Mathematical Statistics for Engineering and Technical Directions: A Textbook and a Workshop for Applied Bachelor Degree. -M .: Publishing House Yurayt, 2015. -399. (in Russian).

3. Borovkov A.A. Probability theory. -M .: The book house "LIBROKOM", 2017. - 656 p. (in Russian).

4. Johnson NL, Kots S., Balakrishnan N. Continuous Univariate Distributions, volume 2.-M.: BINOM, Laboratory of Knowledge, 2012. - 600s.

5. Johnson NL, Koc S., Balakrishnan N. Continuous Univariate Distributions, volume 1.-M.: BINOM, Laboratory of Knowledge, 2017. - 703p.

6. Kendall M., Stewart A. Statistical conclusions and connections. -M .: Science, 1973. - 800 p.

7. Kramer G. Mathematical methods of statistics. - Regular and chaotic dynamics, 2003.

- 648p.

8. Sidnyaev N.I, Melnikova Yu.S. Estimates of statistical parameters of distributions. Methodical recommendations for homework on the discipline "Mathematical Statistics". Electronic educational publishing. -Moscow, MSTU them. N.E. Bauman, 2012. - 40s. (in Russian)

9. Greenwood P. E. A guide to chi-squared testing / P. E. Greenwood, M. S. Nikulin. - New York: John Wiley & Sons, 1996. - 280 p.

10. Denisov, VI Applied statistics. Rules for verifying the agreement of the experimental distribution with the theoretical distribution. I. Criteria of the type x2: guidelines. / VI Denisov, B. Yu. Lemeshko, S.N Postovalov. - Novosibirsk: Publishing house of NSTU, 1998. - 126 p. (in Russian).

11. Lemeshko B. Yu., Blinov P.Yu. Criteria for checking the deviation of the distribution from the uniform law. Application guide. - Novosibirsk: Publishing house of the NSTU, 2015.

- 182 p. (in Russian).

i Надоели баннеры? Вы всегда можете отключить рекламу.