УДК 519.2
ОБ ОСОБЕННОСТЯХ ПРИМЕНЕНИЯ НЕКОТОРЫХ РАНГОВЫХ НЕПАРАМЕТРИЧЕСКИХ КРИТЕРИЕВ ПРОВЕРКИ ГИПОТЕЗ
© С. А. Парыгина
Череповецкий государственный университет 162600 г. Череповец, ул. Луначарского, 5.
Тел.: +7 (8202) 51 73 44.
Email: psv-05@mail. ru
В статье рассматриваются вопросы, связанные с систематизацией, проведением сравнительного анализа и выявлением особенностей применения ранговых непараметрических критериев проверки гипотез, основанных на эмпирических функциях распределения. Эти критерии имеют более широкую область применения и менее жесткие ограничения в использовании, чем параметрические. Для сравнительного анализа выбраны достаточно широко распространенные и сравнительно просто реализуемые на практике непараметрические методы -критерий Смирнова и медианный критерий. Практическая реализация критериев проведена на экспериментальных данных медицинского характера, так как именно они требуют более тщательного и точного статистического анализа. В результате выявлены возможности и ограничения ранговых непараметрических критериев, основанных на эмпирических функциях распределения, в зависимости от объема выборок и типа измерительных шкал.
Ключевые слова: проверка статистических гипотез, ранговые непараметрические критерии, эмпирическая функция распределения, объем выборки, измерительная шкала.
Одной из важных задач математической статистики является проверка статистических гипотез, она осуществляется с помощью того или иного статистического критерия. Проблема анализа особенностей применения на практике тех или иных статистических критериев не теряет своей актуальности, так как вместе с широким распространением этих методов растет и количество ошибок, неточностей и случаев некорректного применения статистических критериев. В данной статье предпринята попытка систематизации, проведения сравнительного анализа и обобщения непараметрических критериев как методов, имеющих более широкую область применения и менее жесткие ограничения в использовании, чем параметрические. Для сравнительного анализа выбраны достаточно широко распространенные и сравнительно просто реализуемые на практике непараметрические методы: критерий Смирнова и медианный критерий. Практическая реализация критериев проведена на экспериментальных данных медицинского характера, так как именно они требуют более тщательного и точного статистического анализа.
Классические параметрические критерии, распространенные в начале XX века, требуют выполнения предположения о нормальном распределении генеральных совокупностей, из которых извлечены выборки. Однако на практике такие генеральные совокупности встречаются достаточно редко. Так, в обзоре [19], при исследовании 440 выборок, отмечается, что «...никакие распределения среди исследованных не прошли все тесты на нормальность, и очень немногие оказались даже приближенно нормальными» [19, С. 248].
Непараметрические методы расширяют область приложения статистических методов по сравнению с параметрическими методами, так как
«...не предназначены специально для какого -нибудь параметрического семейства распределений и не используют его свойства» [18, С. 6].
В основе любого непараметрического критерия лежит определенная непараметрическая статистика.
Рассмотрим выборочный вектор х = (x1, ..., хи) из генеральной совокупности, характеризуемой случайной величиной Х = (X1, ..., X,,). Пусть Fo -функция распределения случайной величины Х.
Определение 1. Статистика £(Х) называется непараметрической, если распределение £(Х) не зависит от Fo [1, С.70] .
С целью систематизации и выявления особенностей применения на практике соответствующих критериев, нами разработана классификация непараметрических статистик [11], в основу которой положен способ их вычисления.
Все непараметрические статистики разделены на две группы:
Ранговые непараметрические статистики.
Неранговые непараметрические статистики.
Рассмотрим первую группу классификации -«Ранговые непараметрические статистики». Вычисление статистик данной группы базируется на понятии ранга, поэтому введем необходимые определения.
Определение 2. Пусть о,(х) есть значение 1-й по величине координаты вектора х = (XI, ..., хи), так что о:(х) - наименьшее значение, оп(х) - наибольшее. Полагая х® = о^х), имеем
х(1) < х(2) < ... < х(,) (1).
Статистика Х{) = о^Х) будет называться 1-й порядковой статистикой, и вектор порядковых статистик (Х(1),.,Х(п)) будет кратко обозначаться Х() [2, С. 45].
Определение 3. Для вектора х = (х1, ..., хи), у которого никакие 2 координаты не совпадают, обо-
значим гг(х) - число координат, не превосходящих хг, то есть номер хг в последовательности (1), тогда статистику
Яг = г(Х), г = 1, ..., П
будем называть рангом элемента Хг. Вектор Я = (Я1, ..., Яп) будет обозначать вектор рангов [2, С. 45].
Очевидно, что по определению 3 числа гг(х) образуют перестановку порядка п.
Определение 4. Статистику Т, являющуюся функцией от Я, Т = /(Я), будем называть ранговой статистикой [2, С. 71].
Первую группу «Ранговые непараметрические статистики» мы разделяем еще на две подгруппы:
1.1 Непараметрические статистики, основанные на эмпирических функциях распределения.
1.2 Собственно ранговые непараметрические статистики.
Подгруппа «Собственно ранговые непараметрические статистики» включает в себя статистики, вычисление которых основано на рангах, метках и отношении порядка. Особенности применения соответствующих критериев рассмотрены в статье [11].
Остановимся более подробно на статистиках, составляющих подгруппу 1.1 «Непараметрические статистики, основанные на эмпирических функциях распределения» из первой группы классификации.
Определение 5. Статистики типа Колмогорова-Смирнова будем называть статистиками, основанными на эмпирических функциях распределения.
Подгруппа 1.1 включает в себя статистику Колмогорова, статистику Смирнова, Реньи, статистику Крамера-Мизеса и другие. Покажем на примере статистики Смирнова, что статистики этой подгруппы действительно являются ранговыми.
Определение 6. Пусть ..., йП) - обратная перестановка по отношению к (п, ..., гп), то есть Га. = йп = 1,1 = 1,... ,п.
Пусть Б = (А, ..., Бп) обратна в этом смысле к Я = (Я\, ..., Яп), тогда статистики А, ..., Бп будем называть антирангами [2, с. 77].
Пусть XI, ..., хт - первая выборка объема т; х\, ... , хп - вторая выборка объема п; Б1, ..., Бп+т - антиранги для объединенной выборки х1, ..., хп+т. Из определений 1 и 3 ясно, что Бк = ] тогда и только тогда, когда х(к) = х^. Обозначим ^,т(х) и ^2,п(х) -эмпирические функции распределения для первой и второй выборок соответственно. Положим _ г 1,1 = 1, ...,т;
1 {0,1 = т + 1, ...,т + п.
Предложение 1. Статистику Смирнова
О (^тМ^пМ) = ^Г^З
(2) Ж6Й
можно представить в виде:
D
d (
=- тах (
тп V
к-
т
1 <к<т+п
т + п
-dk
где d - наибольший общий делитель п и т.
Подробное доказательство приводится в [20, С. 64].
На основе статистик данной подгруппы разработаны широко известные критерии Колмогорова, Смирнова, Реньи, Крамера-Мизеса и др. В частности, критерий Колмогорова предназначен для проверки гипотез согласия. Критерии Смирнова, Реньи и Крамера-Мизеса предназначены для проверки гипотез однородности двух независимых выборок, причем альтернативы могут быть как широкими, так и более узкими [2], например, о сдвиге функции плотности одной выборки относительно функции плотности другой или о различии параметров масштаба в двух выборках.
Наиболее широко на практике используются критерии Колмогорова и Смирнова. В результате анализа литературы [2, 4, 10, 13, 16, 17, 18, 19] и собственных наблюдений, выявлено, что при применении данных критериев следует учитывать ряд особенностей:
1. Критерий Смирнова допускает использование данных, измеренных по шкале не ниже порядковой, однако для порядковых измерений таблицы точных критических значений составлены, в основном, для выборок малого объема.
2. В случае выборок большого объема необходимо использовать таблицы критических значений предельного распределения Колмогорова.
3. Переход к предельному распределению возможен только в том случае, когда экспериментальные данные представляют собой измерения по интервальной шкале.
4. Как отмечается в обзоре [19] минимальный объем каждой из выборок, при переходе к предельному распределению Колмогорова, должен быть не менее 150 значений.
Сравним критерий Смирнова с одним из традиционных критериев - медианным; оба критерия двусторонние, служат для проверки нулевой гипотезы об идентичности функций плотности двух независимых выборок против альтернативы сдвига одной функции плотности относительно другой на величину Д. Выбор критериев обусловлен их широкой распространенностью и сравнительно простой реализацией.
Пример. В табл. 1 приведены значения средней концентрации гормонов роста в плазме крови человека для людей, склонных к сердечно -сосудистым заболеваниям (модель поведения типа А) и для людей, относительно устойчивых к сердечно-сосудистым заболеваниям (модель поведения типа В). Тип А характеризуется постоянным острым дефицитом времени (живет в «цейтноте»), напористостью и склонностью к соперничеству; тип В - ведет себя наоборот.
d
1
С помощью критерия Смирнова и медианного критерия проверим нулевую гипотезу о том, что у людей с различными типами поведения (А и В) не наблюдается существенных различий в склонности к сердечно-сосудистым заболеваниям против альтернативы сдвига, о том, что склонность к сердечно-сосудистым заболеваниям у людей с разными типами поведения различается на величину Д (для уровня значимости а = 0.01).
Таблица 1
Значения средней концентрации гормонов роста в плазме крови человека для людей с разными моделями поведения
Номер испытуемого Тип А Тип В
1 3.6 16.2
2 2.6 8.5
3 4.7 15.6
4 8 5.4
5 3.1 9.8
6 8.8 14.9
7 4.6 16.6
8
9
10
5.8 4
15.9 5.3 10.5
1 способ. Для реализации критерия Смирнова вычислим величину уклонения Б между эмпирическими функциями распределения исходных выборок по формуле (2). По условию п = 9, т = 10 и ё = 1, вычисления приведены в табл. 2.
Таблица 2
Вычисление эмпирических функций распределения ^(х), С10(х) и модулей их разностей для критерия Смирнова
X! У, СМУ;) №) — С10(у;)|
2.6 - 1/9 0 1/9
3.1 - 2/9 0 2/9
3.6 - 3/9 0 3/9
4 - 4/9 0 4/9
4.6 - 5/9 0 5/9
4.7 - 6/9 0 6/9
- 5.3 6/9 1/10 51/90
- 5.4 6/9 2/10 42/90
5.8 - 7/9 2/10 52/90
8 - 8/9 2/10 62/90
- 8.5 1 3/10 53/90
8.8 - 1 3/10 7/10
- 9.8 1 4/10 6/10
- 10.5 1 5/10 5/10
- 14.9 1 6/10 4/10
- 15.6 1 7/10 3/10
- 15.9 1 8/10 2/10
- 16.2 1 9/10 1/10
- 16.6 1 1 0
Из табл. 2 видно, что максимальное абсолют-
ное значение разности и С10(х) равно 0.7.
Тогда значение уклонения Б по формуле (2) равно: Д(^*(х); Сх*0(х)) = 9 X 10 X 0.7 = 63.
Сравнивая найденное значение Б с критическим значением критерия Смирнова для п = 9, т = 10 - ^001 = 62: D> ^001, мы отклоняем нулевую гипотезу на уровне значимости а = 0.01. Заметим, что наименьший уровень значимости, на котором мы можем отклонить нулевую гипотезу, используя двусторонний критерий Смирнова, равен 0.007, так как ^0.007 = 63.
2 способ. Применим для проверки нулевой гипотезы двусторонний медианный критерий, использующий таблицу сопряженностей. Он основан на следующей статистике:
/ 2
Т = ■
т, (3)
(Л+В)(С+0)(Л+С)(В+0)
где N = п + т - объем объединенной выборки; Мё - медиана объединенной выборки; А - количество элементов первой выборки, больших Мё; В -количество элементов второй выборки, больших Мё; С - количество элементов первой выборки, меньших или равных Мё; Б - количество элементов второй выборки, меньших или равных Мё.
Для исходных данных N = 19. Составим таблицу сопряженности признаков:
А = 1 В = 8
С = 8 Б = 2
Тогда по формуле (3) значение статистики Т равно:
19(62 — 9.5)2
Т =
6.47.
8100
Сравнивая найденное значение статистики Т с критическим значением медианного критерия для а = 0.01 - /0.О1 = 6.635: Т < /0.О1, мы принимаем нулевую гипотезу на уровне значимости а = 0.01. Наименьший уровень значимости, на котором мы можем отклонить нулевую гипотезу, используя двусторонний медианный критерий, примерно равен 0.014, так как /О.014 ~ 6.47.
Таким образом, пример показывает, что даже для узких альтернатив критерий Смирнова более чувствителен, чем медианный критерий, так как он позволяет отклонить нулевую гипотезу на более низком уровне значимости, чем медианный критерий.
Итак, можно сформулировать следующие выводы:
1. Ранговые непараметрические критерии, основанные на эмпирических функциях распределения, имеют ряд преимуществ по сравнению с традиционными непараметрическими критериями. Они более чувствительны и допускают использование данных, измеренных по шкале не ниже порядковой.
2. В случае применения ранговых непараметрических критериев, основанных на эмпирических функциях распределения, для анализа экспериментальных данных, измеренных в порядковых шкалах, следует использовать выборки малого объема.
3. Для анализа выборок большого объема (не менее 150 значений) необходимо использовать таб-
лицы критических значений предельного распределения Колмогорова, но экспериментальные данные должны быть измерены в шкалах не ниже интервальных.
ЛИТЕРАТУРА
1. Боровков А. А. Математическая статистика. Новосибирск: Наука. Изд-во Института математики, 1997. 772 с.
2. Гаек Я., Шидак З. Теория ранговых критериев. М.: Наука, 1971. 371с.
3. Гласс Дж., Стенли Дж. Статистические методы в педагогике и психологии. М.: Прогресс, 1976. 463 с.
4. Грабарь М. И., Краснянская К. А. Применение математической статистики в педагогических исследованиях. Непараметрические методы. М.: Педагогика, 1977. 136 с.
5. Гублер Е. В., Генкин А. А. Применение критериев непараметрической статистики для оценки различий двух групп наблюдений в медико-биологических исследованиях. М.: Медицина, 1969. 30 с.
6. Деврой Л., Дьерфи Л. Непараметрическое оценивание плотности. L1 подход. М.: Мир, 1988. 408 с.
7. Добровидов А. В., Кошкин Г. М. Непараметрическое оценивание сигналов. - М.: Наука. Физматлит, 1997. 336 с.
8. Лапко А. В., Ченцов С. В. Многоуровневые непараметрические системы принятия решений. Новосибирск: Наука. Сиб. предприятие РАН, 1997. 192 с.
9. Никитин Я. Ю. Асимптотическая эффективность непараметрических критериев. М.: Наука: Физматлит, 1995. 238 с.
10. Нискина Н. Непараметрические методы статистики, основанные на рангах и их применения. М.: ВНИИСИ: ВИНИТИ, 1986. 60 с.
11. Парыгина С. А. Сравнительная характеристика ранговых непараметрических критериев проверки гипотез и особенности их применения к обработке данных различной природы / Естественные и технические науки. №6, М., 2015 с. 44-48.
12. Рунион Р. П. Справочник по непараметрической статистике: Современный подход / Пер. с англ. Е. З. Демиден-ко. М.: Финансы и статистика, 1982. 198 с.
13. Сидоренко Е. В. Методы математической обработки в психологии. СПб.: Соц.-пс. центр, 1996. 349 с.
14. Справочник по вычислительным методам статистики / Под. ред. Полларда Дж. - М.: Финансы и статистика,
1982. 344 с.
15. Справочник по прикладной статистике. В 2-х т. Т. 2: Пер. с англ. / Под. ред. Ллойда Э., Ледермана У., Айвазяна С. А., Тюрина Ю. Н. М.: Финансы и статистика, 1990. 526 с.
16. Турчин В. Н. Непараметрические критерии: Уч. пособие. Днепропетровск: ДГУ, 1990. 56 с.
17. Хеттманспергер Т. Статистические выводы, основанные на рангах / Пер. с англ.; Предисл. Ю. Н. Тюрина и Д. С. Шмерлинга. М.: Финансы и статистика, 1987. 334 с.
18. Холлендер М., Вулф Д. Непараметрические методы статистики / Пер. с англ. Д. С. Шмерлинга; Науч. ред. Ю. П. Адлера, Ю. Н. Тюрина. М.: Финансы и статистика,
1983. 518 с.
19. Gail F. Fahoome Twenty Nonparametric Statistics And Their Large Sample Approximations / Journal of Modern Applied Statistical Methods. №2, Wayne State University, 2002. p. 248-268.
20. Hajek J. Nonparametric Statistics. Holden-Day, San Francisco, 1969.
Поступила в редакцию 29.02.2016 г. После доработки - 25.03.2016 г.
ON THE FEATURES OF APPLICATION OF SOME RANK NONPARAMETRIC CRITERIA FOR VERIFYING THE HYPOTHESES
© S. A. Parygina
Cherepovets State University 5 Lunacharsky St., 162600 Cherepovets, Vologda region, Russia.
Phone: +7 (8202) 51 73 44.
Email: psv-05@mail. ru
In the article the issues related to applications of rank-based nonparametric criteria of the hypothesis verifying, based on empirical functions of distribution, are discussed. These criteria belong to one of the groups of previously compiled classification of rank nonparametric criteria for verifying hypotheses. A unified terminology for the problem of nonparametric statistics, combining studies of different authors was presented. Based on the analysis of literature and own observations, opportunities and constraints of rank-based nonpar-ametric criteria based on empirical distribution functions, depending on the volume of samples and type of measuring scales, were identified. It was found that when using the Kol-mogorov and Smirnov to analyze General sets with large number of samples, the corresponding values must be measured by interval scales, the number of the samples must be no less than 150 values. In addition, as a result of comparison of the Smirnov criterion with the more traditional median criterion when testing a null hypothesis about the similarity of the density functions of two independent General population against the alternative of shifting one of the density function with respect to another identified greater sensitivity of the Smirnov criterion. In this example we used the experimental data of a medical nature.
Keywords: testing statistical hypotheses, non-parametric rank-order criteria, empirical distribution function, sample size, measurement scale.
Published in Russian. Do not hesitate to contact us at bulletin_bsu@mail.ru if you need translation of the article.
REFERENCES
1. Borovkov A. A. Matematicheskaya statistika [Mathematical statistics]. Novosibirsk: Nauka. Izd-vo Instituta matematiki, 1997.
2. Gaek Ya., Shidak Z. Teoriya rangovykh kriteriev [The theory of rank criteria]. Moscow: Nauka, 1971.
3. Glass Dzh., Stenli Dzh. Statisticheskie metody v pedagogike i psikhologii [Statistical methods in pedagogy and psychology]. Moscow: Progress, 1976.
4. Grabar' M. I., Krasnyanskaya K. A. Primenenie matematicheskoi statistiki v pedagogicheskikh issledovaniyakh. Neparametricheskie metody [Application of mathematical statistics in educational studies. Non-parametric methods]. Moscow: Pedagogika, 1977.
5. Gubler E. V., Genkin A. A. Primenenie kriteriev neparametricheskoi statistiki dlya otsenki razlichii dvukh grupp nablyudenii v mediko-biologicheskikh issledovaniyakh [Application of the criteria of non-parametric statistics to assess differences between two groups of observations in bio-medical studies]. Moscow: Meditsina, 1969.
6. Devroi L., D'erfi L. Neparametricheskoe otsenivanie plotnosti. L1 podkhod [Non-parametric estimation of density. Approach L1]. Moscow: Mir, 1988.
7. Dobrovidov A. V., Koshkin G. M. Neparametricheskoe otsenivanie signalov [Non-parametric estimation of signals]. - Moscow: Nauka. Fizmatlit, 1997.
8. Lapko A. V., Chentsov S. V. Mnogourovnevye neparametricheskie sistemy prinyatiya reshenii [Multilevel non-parametric decisionmaking systems]. Novosibirsk: Nauka. Sib. predpriyatie RAN, 1997.
9. Nikitin Ya. Yu. Asimptoticheskaya effektivnost' neparametricheskikh kriteriev [Asymptotic efficiency of non-parametric criteria]. Moscow: Nauka: Fizmatlit, 1995.
10. Niskina N. Neparametricheskie metody statistiki, osnovannye na rangakh i ikh primeneniya [Non-parametric statistical methods based on ranks and their applications]. Moscow: VNIISI: VINITI, 1986.
11. Parygina S. A. Sravnitel'naya kharakteristika rangovykh neparametricheskikh kriteriev proverki gipotez i osobennosti ikh primeneniya k obrabotke dannykh razlichnoi prirody / Estestvennye i tekhnicheskie nauki. No. 6, Moscow, 2015 pp. 44-48.
12. Runion R. P. Spravochnik po neparametricheskoi statistike: Sovremennyi podkhod [Handbook of non-parametric statistics: Modern approach] / Per. s angl. E. Z. Demidenko. Moscow: Finansy i statistika, 1982.
13. Sidorenko E. V. Metody matematicheskoi obrabotki v psikhologii [Methods of mathematical processing of data in psychology]. Saint Petersburg: Sots.-ps. tsentr, 1996.
14. Spravochnik po vychislitel'nym metodam statistiki [Handbook on computational methods of statistics] / Pod. red. Pollarda Dzh. - Moscow: Finansy i statistika, 1982.
15. Spravochnik po prikladnoi statistike. V 2-kh t. Vol. 2: Per. s angl. [Handbook on applied statistics. In 2 volumes. Vol. 2: Translated from English] / Pod. red. Lloida E., Ledermana U., Aivazyana S. A., Tyurina Yu. N. Moscow: Finansy i statistika, 1990.
16. Turchin V. N. Neparametricheskie kriterii: Uch. Posobie [Non-parametric criteria: Textbook]. Dnepropetrovsk: DGU, 1990.
17. Khettmansperger T. Statisticheskie vyvody, osnovannye na rangakh [Statistical inferences based on ranks] / Per. s angl.; Predisl. Yu. N. Tyurina i D. S. Shmerlinga. Moscow: Finansy i statistika, 1987.
18. Khollender M., Vulf D. Neparametricheskie metody statistiki [Non-parametric methods of statistics] / Per. s angl. D. S. Shmerlinga; Nauch. red. Yu. P. Adlera, Yu. N. Tyurina. Moscow: Finansy i statistika, 1983.
19. Gail F. Fahoome Twenty Nonparametric Statistics And Their Large Sample Approximations / Journal of Modern Applied Statistical Methods. No. 2, Wayne State University, 2002. p. 248-268.
20. Hajek J. Nonparametric Statistics. Holden-Day, San Francisco, 1969.
Received 29.02.2016. Revised 25.03.2016.