Научная статья на тему 'Особенности практической реализации непараметрических методов математической статистики для обработки эмпирических данных'

Особенности практической реализации непараметрических методов математической статистики для обработки эмпирических данных Текст научной статьи по специальности «Психологические науки»

CC BY
1014
128
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
непараметрические критерии проверки гипотез / критерий Крускала–Уоллиса / значимые различия / критерий χ2 / таблицы сопряженности / nonparametric hypothesis test / Kruskal-Wallis test / significant difference / χ2 criterion / contingency table

Аннотация научной статьи по психологическим наукам, автор научной работы — Парыгина Светлана Александровна

В статье рассматриваются особенности применения непараметрических методов математической статистики, в частности непараметрических критериев проверки гипотез, к обработке эмпирических данных разной природы. Примером практической реализации указанных методов стало профориентационное исследование, проведенное в Череповецком государственном университете. На разных стадиях статистической обработки результатов исследования прослеживаются особенности статического анализа, которые связаны со спецификой тех или иных данных. Для обработки психологических данных используются ранговые непараметрические критерии проверки гипотез. При этом показаны пути преодоления ряда ограничений применения используемых статистических критериев, таких как частая повторяемость значений выборки, отсутствие табличных значений для выборок большого объема и др. Также предпринята попытка структурировать статистический анализ порядковых данных в соответствии с поставленной задачей нахождения значимых различий по большому количеству признаков между несколькими генеральными совокупностями. Кроме того, проведен альтернативный статистический анализ с помощью непараметрического критерия однородности Смирнова. Для обработки медико-биологических данных используется асимптотически непараметрический критерий χ2. Это обусловлено номинальной природой большинства медико-биологических признаков. Также показаны приближение критической статистики χ2 для большой выборки и работа с направленными гипотезами. В выводах сформулированы рекомендации по применению ранговых непараметрических критериев проверки гипотез к обработке данных различной природы: гуманитарных (на примере психологических данных) и естественнонаучных (на примере медико-биологических данных).

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по психологическим наукам , автор научной работы — Парыгина Светлана Александровна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FEATURES OF PRACTICAL IMPLEMENTATION OF NONPARAMETRIC METHODS OF MATHEMATICAL STATISTICS FOR EMPIRICAL DATA-PROCESSING OPERATION

The article deals with the use of nonparametric methods of mathematical statistics, particularly in nonparametric hypothesis tests, for the empirical data-processing operation of different nature. As an example of practical implementation of these methods we introduce a career-oriented experiment conducted in Cherepovets State University. At different stages of statistical processing of the experiment results the features of static analysis are established, which are related to the specifics of certain data. The rank nonparametric hypothesis tests are used for psychological data processing. The ways of overcoming the series of restrictions of the statistical criteria using, such as a frequent repetition of sample values, the lack of table values for large volume samples, are identified. We attempt to structure the static analysis of ordinal data in accordance with the task of finding significant differences in a large number of characteristics between multiple statistical universes. The alternative static analysis using the Smirnov nonparametric test of homogeneity is carried out. The asymptotically nonparametric test χ2 is used for biomedical data processing. This is due to the nominal nature of the most medical and biological characteristics. We demonstrate the approximating of the critical statistics χ2 for a large sample and a work with directional hypotheses. The conclusions contain the recommendations for the use of rank nonparametric hypothesis tests for the data processing of different nature: human (in terms of psychological data) and naturalist (in terms of medical and biological data).

Текст научной работы на тему «Особенности практической реализации непараметрических методов математической статистики для обработки эмпирических данных»

ФИЗИКА. МАТЕМАТИКА

УДК 519.25 DOI: 10.17238/issn2541-8416.2017.17.1.50

ОСОБЕННОСТИ ПРАКТИЧЕСКОЙ РЕАЛИЗАЦИИ

НЕПАРАМЕТРИЧЕСКИХ МЕТОДОВ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ ДЛЯ ОБРАБОТКИ ЭМПИРИЧЕСКИХ ДАННЫХ

С.А. Парыгина*

*Череповецкий государственный университет (г. Череповец)

В статье рассматриваются особенности применения непараметрических методов математической статистики, в частности непараметрических критериев проверки гипотез, к обработке эмпирических данных разной природы. Примером практической реализации указанных методов стало профориентационное исследование, проведенное в Череповецком государственном университете. На разных стадиях статистической обработки результатов исследования прослеживаются особенности статического анализа, которые связаны со спецификой тех или иных данных. Для обработки психологических данных используются ранговые непараметрические критерии проверки гипотез. При этом показаны пути преодоления ряда ограничений применения используемых статистических критериев, таких как частая повторяемость значений выборки, отсутствие табличных значений для выборок большого объема и др. Также предпринята попытка структурировать статистический анализ порядковых данных в соответствии с поставленной задачей нахождения значимых различий по большому количеству признаков между несколькими генеральными совокупностями. Кроме того, проведен альтернативный статистический анализ с помощью непараметрического критерия однородности Смирнова. Для обработки медико-биологических данных используется асимптотически непараметрический критерий %2. Это обусловлено номинальной природой большинства медико-биологических признаков. Также показаны приближение критической статистики %2 для большой выборки и работа с направленными гипотезами. В выводах сформулированы рекомендации по применению ранговых непараметрических критериев проверки гипотез к обработке данных различной природы: гуманитарных (на примере психологических данных) и естественнонаучных (на примере медико-биологических данных).

Ключевые слова: непараметрические критерии проверки гипотез, критерий Крускала-Уоллиса, значимые различия, критерий х2, таблицы сопряженности.

Контактное лицо: Парыгина Светлана Александровна, адрес: 162600, Вологодская обл., г. Череповец, ул. Луначарского, д. 5; e-mail: [email protected]

Для цитирования: Парыгина С.А. Особенности практической реализации непараметрических методов математической статистики для обработки эмпирических данных // Arctic Environmental Research. 2017. Т. 17, № 1. С. 50-60. DOI: 10.17238/issn2541-8416.2017.17.1.50

Грамотное и обоснованное применение статистических методов к обработке эмпирических данных психологических и медико-биологических исследований, т. е. исследований, касающихся изучения живой природы и прежде всего человека, - одна из актуальных задач в современной науке. Существует ряд причин, по которым применение методов математической статистики к указанным данным затруднено: в первую очередь, «нечисловая» (номинальная или порядковая) природа большинства данных, а также трудности с установлением типов вероятностных законов распределения соответствующих переменных. В этой ситуации, как показал анализ литературы, проведенный в работах [1, 2], наиболее удобными, простыми в применении, а также корректными со статистической точки зрения являются непараметрические методы. Они более тонко учитывают особенности измерений в «слабых» шкалах и не предназначены специально для какого-нибудь параметрического семейства распределений [3, 4].

Особое место среди непараметрических методов занимают непараметрические критерии проверки гипотез. Эти методы наиболее востре-бованны при статистическом анализе данных, т. к. в сравнительно простой форме позволяют проверять статистические гипотезы согласия, однородности и др.

В основе любого непараметрического критерия лежит определенная непараметрическая статистика [5]. В статье [1] с целью систематизации и обобщения соответствующих критериев представлена классификация непараметрических статистик, в основу которой положен способ их вычисления. Все непараметрические статистики разделены на две группы - ранговые и неранговые. Теоретическое исследование ранговых непараметрических статистик проведено в работах [1, 2]. В работе [2] также выявлены особенности применения некоторых ранговых непараметрических статистик и даны рекомендации по использованию соответствующих критериев.

В качестве демонстрации возможностей применения непараметрических методов для

обработки данных психологических и медико-биологических исследований рассмотрим результаты исследования, проведенного в Череповецком государственном университете (ЧГУ).

Описание исследования. Цель исследования - анализ зависимостей и выделение существенных признаков, характеризующих студентов-первокурсников разных направлений подготовки, обучающихся в ЧГУ, что способствует повышению уровня профориентаци-онной работы среди потенциальных абитуриентов, а также более эффективному подходу к процессу обучения в университете. В ходе исследования «Профориентационный контроллер» была предпринята попытка создать портрет современного студента-первокурсника.

«Профориентационный контроллер» состоял из двух блоков - психологического и медико-биологического.

Психологический блок включал: а) сведения о самом респонденте: фамилию, имя, отчество; пол; возраст; б) сведения о личностных особенностях респондентов: исследование акцентуаций личности (с помощью опросника К. Леонгарда); исследование личностных особенностей (с помощью многофакторного опросника Р. Кэттелла). Цель данного блока -выявить индивидуальные личностные особенности испытуемых, которые влияют на их профессиональное самоопределение.

Медико-биологический блок включал сведения о состоянии здоровья и физиологических особенностях респондентов: а) антропометрические данные: рост, вес, тип телосложения; б) наличие патологических отклонений со стороны опорно-двигательного аппарата: искривление позвоночника, изменение размера черепа, подвижность суставов; в) наличие наследственных и хронических заболеваний: миопия, пиелонефрит, вегето-сосудистая дис-тония, бронхиальная астма, гастриты, язвенная болезнь; г) подверженность вредным привычкам: курение, алкоголизация, навязчивые движения. Цель данного блока - установить способность испытуемого к полноценной жизни

и учебе, определить те его отклонения, которые могут повлиять на черты характера.

В качестве объектов исследования были выбраны студенты-первокурсники ЧГУ, обучающиеся по направлениям: 1) «Прикладная математика»; 2) «Иностранный (английский) язык»; 3) «Профессиональное обучение»; 4) «Психология»; 5) «Адаптивная физическая культура».

С точки зрения математической статистики, полученные данные представляют интерес прежде всего потому, что большинство соответствующих переменных измерены в «слабых» шкалах (как в номинальных - дихотомических и мультикатегориальных, так и в порядковых), а меньшая часть переменных - в количественных.

Особенности обработки психологических данных. Сведения о самих респондентах носили исключительно информативный характер и в анализе не участвовали.

Количественный анализ, заключающийся в установлении значимых различий в распределениях личностных характеристик между студентами разных направлений подготовки или констатации отсутствия таких различий, проведен на 29 признаках психологического блока. Так как нет оснований предполагать, что эти характеристики подчиняются какому-то конкретному закону распределения, целесообразно использовать для обработки соответствующих данных непараметрические методы. Личностные характеристики измерены в порядковой шкале, поэтому для их обработки использовались ранговые непараметрические методы.

Данные для каждой личностной характери-

к

стики состоят из N = Уnj наблюдений, по п

. =1

наблюдений на.-е направление (. = 1, ..., к), их организация представлена в табл. 1.

По условию эксперимента п1 = 24, п2 = п4 =

= 23, п3 = 22, п5 = 26, N = ]Г п. = 118, к= 5.

Для того чтобы установить, однородны ли личностные характеристики студентов выбранных направлений подготовки, рассматривалась математическая модель наблюдений х..:

Х. = Ц + Ъ + е. (. = 1 П; 1 = 1 ^

где ц - (неизвестное) общее среднее к выборок; т.- (неизвестный) эффект обработки .-й выборки; е.. - ошибки модели, независимые и извлеченные из одной непрерывной совокупности.

Таким образом, для проверки нулевой гипотезы о равенстве параметров эффектов

Н0: т1 = т2 = т3 = т4 = т5 (1)

против альтернативы о том, что не все т. (. = 1, ..., 5) равны между собой, применяется ранговый непараметрический критерий Крускала-Уоллиса [6].

Для каждой личностной характеристики вычислялось значение статистики критерия по формуле

12

H = -

ь R 2

•у-. - 3( N +1), N(N +1) £ п. У ''

где Я - сумма рангов в совместной ранжировке всех N наблюдений данной характеристики, соответствующих .-му направлению подготовки.

Одной из особенностей психологических данных выступает то, что они часто являются

Таблица 1

СТРУКТУРА ЛИЧНОСТНЫХ ДАННЫХ

№ испытуемого 1 2 k

1 хп Х12 Х1к

2 Х21 Х22 Х2к

п. J Хп22 Хпкк

дискретными переменными с ограниченным диапазоном значений. В силу этого на практике значения переменных имеют большое количество повторений. В этом случае для одинаковых наблюдений используются связанные ранги, что и было сделано при вычислении статистики H.

Еще одна особенность анализа данных любой природы, в т. ч. и психологической, - противоречие между ограничениями применения используемых статистических методов и реальными условиями исследования. В частности, в нашем исследовании таблицы критических значений критерия Крускала-Уоллиса составлены только для выборок, объемы которых не превышают 10. В этом случае целесообразно использовать приближенное значение соответствующей критической статистики, разработанное для большой выборки. Приближенная статистика критерия Крускала-Уоллиса имеет вид [6, с. 16]

^ЯЛ+.Л-ТЦ (2)

2^ N+ 1-ку

а критическое значение на уровне значимости а определяется по формуле

;а(к -1,N - к) = 2[(к -1)Fа(к -1,N -к) +х2(к -1,а)],

где Е^, v2) - верхняя а-процентная точка распределения Фишера Е со степенями свободы v1 и v2; x2(v, а) - верхняя а-процентная точка

X2 распределения с числом степеней свободы V.

Значения статистики /, вычисленные по формуле (2) для каждой личностной характеристики, приведены в табл. 2 (см. с. 54). Видно, что ни одно из значений статистики/, соответствующих 12 типам акцентуации характера испытуемых, не превысило критического значения 70 о5(4,1 13) = 9,6; следовательно, на уровне значимости а = 0,05 значимых отличий по этим признакам не обнаружено. Другими словами, по типу акцентуации характера студенты-первокурсники различных направлений подготовки статистически значимо не отличаются.

Из 17 личностных черт значимые различия (а = 0,05) проявились лишь для признаков В, G

и I, т. к. соответствующие значения статистики / превысили критическое значение. Таким образом, в отношении таких личностных особенностей испытуемых, как «интеллект», «подверженность чувствам - высокая нормативность поведения» и «жесткость - чувствительность» различия между студентами-первокурсниками разных направлений подготовки статистически значимы.

Важная особенность статистического анализа данных - его полнота и законченность. Получив лишь промежуточный результат анализа, исследователи зачастую не доводят работу до конца. Так, в нашем эксперименте применение критерия Крускала-Уоллиса позволило выявить те личностные признаки, по которым имеются значимые различия у студентов-первокурсников разных направлений подготовки, но у каких именно направлений и в какую сторону - это предмет дальнейшего статистического анализа.

Для установления конкретных различий в значениях признаков В, G и I разных направлений подготовки студентов проведены попарные множественные сравнения. При этом, с использованием поправки Бонферрони, доля ошибок в попарных сравнениях вычисляется по формуле [7]

, 2а

а =-, (3)

к (к -1)

где а - общая доля ошибок. В данном случае а -это уровень значимости критерия Крускала-Уоллиса, при котором была отвергнута нулевая гипотеза, а = 0,05. Таким образом, а' = 0,005.

На уровне значимости а' = 0,005 оказалось, что в ходе попарных множественных сравнений по признаку В значимых различий не обнаружено. По признаку G - обнаружены значимые различия между студентами направлений «Иностранный язык» и «Профессиональное обучение». Кроме того, установлено, что значения признака I (а' = 0,005) различаются значимо для направлений «Иностранный язык», «Профессиональное обучение» и «Психология», а также для направлений «Профессиональное обучение» и «Адаптивная физическая культура».

Таблица 2

ПРИБЛИЖЕННЫЕ ЗНАЧЕНИЯ СТАТИСТИКИ КРУСКАЛА-УОЛЛИСА ДЛЯ ЛИЧНОСТНЫХ Д АННЫХ

№ признака Название признака Значение статистики / № признака Название признака Значение статистики /

Типы акцентуации характера по методике К. Леонгарда Основные личностные черты по методике Р. Кеттелла

10 Демонстративный 3,434 24 С(эмоциональная неустойчивость -эмоциональная устойчивость) 6,433

11 Злопамятный 8,711 25 Е(подчиненность -доминантность) 4,383

12 Педантичный 8,143 26 ^ (сдержанность -экспрессивность) 3,988

13 Возбудимый 5,831 27 О (подверженность чувствам - высокая нормативность поведения) 11,995

14 Оптимистиче ский 0,905 28 Н (робость - смелость) 1,246

15 Циклический 0,690 29 I (жесткость -чувствительность) 18,496

16 Пессимистичный 2,798 30 Ь (доверчивость -подозрительность) 3,524

17 Экзальтированный 3,528 31 М (практичность - развитое воображение) 2,544

18 Тревожный 3,437 32 N (прямолинейность -дипломатичность) 4,360

19 Мягкосердечный 4,625 33 О (уверенность в себе -тревожность) 4,436

20 Экстраверт 1,611 34 Q1 (консерватизм -радикализм) 9,381

21 Интроверт 4,956 35 Q2 (конформизм -нонконформизм) 4,182

Основные личностные черты по методике Р. Кеттелла 36 Q3 (низкий самоконтроль -высокий самоконтроль) 2,693

22 А (замкнутость -общительность) 2,128 37 Q4 (расслабленность -напряженно сть) 4,350

23 В (интеллект) 9,997 38 MD (адекватность самооценки) 2,402

Примечание. Полужирным шрифтом выделены статистически значимые на уровне значимости а = 0,05 наблюдаемые значения статистики/.

Установление направления сдвига для двух групп по признакам G и, частично, I (направления 3 и 5) было сделано с помощью рангового критерия Манна-Уитни [8]. В результате оказалось (на уровне значимости а' = 0,005):

1) по признаку G (подверженность чувствам - высокая нормативность поведения) происходит сдвиг в сторону направления «Профессиональное обучение», следовательно, наблюдается тенденция к более высоким показателям нормативности поведения у студентов, обучающихся по направлению «Профессиональное обучение», чем у студентов, изучающих английский язык;

2) по признаку I (жесткость - чувствительность) происходит сдвиг в сторону направления «Адаптивная физическая культура», следовательно, наблюдается большая склонность к чувствительности и сопереживанию у студентов-физкультурников по сравнению со студентами направления «Профессиональное обучение».

Для установления направления сдвига среди трех направлений подготовки («Иностранный язык», «Профессиональное обучение» и «Психология») по признаку I использовался критерий тенденций Джонкхиера [8]. Этот критерий предназначен для проверки нулевой гипотезы (1) против альтернатив с упорядочением вида Н т1 < т 2 < т 3. В нашем эксперименте альтернативная гипотеза утверждает, что значение фактора I возрастает от направления «Профессиональное обучение» к направлению «Психология» и от направления «Психология» к направлению «Иностранный язык». Критерий Джонкхиера позволил отклонить нулевую гипотезу в пользу альтернативной на уровне значимости а' = 0,001. Следовательно, наблюдается тенденция к возрастанию мягкосердечности и чувствительности у студентов-первокурсников направлений подготовки: «Профессиональное обучение» - «Психология» - «Иностранный язык».

При проведении статистического анализа очень полезно проверить полученные результа-

ты путем применения других, альтернативных методов. В нашем эксперименте представленные выводы были подтверждены при исследовании значимых различий в распределениях личностных характеристик между каждой академической группой и множеством всех обследованных студентов. Для решения этой задачи был использован непараметрический критерий Смирнова [9]. В результате оказалось, что на уровне значимости а' = 0,02 (в формуле (3): а = 0,05; к = 5) по фактору G показатели студентов, выбравших направление «Иностранный язык», более низкие, чем для всей выборки, и по фактору I показатели студентов, выбравших направление «Профессиональное обучение», более низкие, чем для всей выборки.

Таким образом, результаты обработки данных психологического блока показали, что студенты, выбравшие направление «Профессиональное обучение», более склонны контролировать свое поведение, чем студенты, выбравшие направление «Иностранный язык». При переходе к фактору I ситуация изменяется: студенты, выбравшие направление «Иностранный язык», оказались более чувствительными, склонными к сопереживанию, чем студенты-психологи. В свою очередь, студенты-психологи оказались более чувствительными, чем студенты, выбравшие направление «Профессиональное обучение». Также студенты направления «Профессиональное обучение» оказались более жесткими и практичными, чем студенты-физкультурники.

Особенности обработки медико-биологических данных. Цель статистического анализа данных медико-биологического блока - установление значимых различий в распределениях медико-биологических характеристик между студентами разных направлений подготовки или констатация отсутствия таких различий. Так как подавляющее большинство признаков медико-биологического блока (13 из 15) измерены в номинальных шкалах, то для решения поставленной задачи использовался асимптотически непараметрический критерий х2 [10, 11].

Данные для каждой медико-биологической

характеристики, аналогично предыдущему

к

блоку, состояли из N = ^п^ наблюдений, по

j=I

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

п наблюдений на j-е направление (] = 1, ..., к). Для каждого признака критерий х2 применялся 10 раз (по числу сочетаний С52 для всех возможных направлений подготовки студентов). При этом по результатам измерения значений медико-биологического признака у объектов двух выборок объемами пк и пк (Д, j2 = 1, ..., к), которые соответствуют двум направлениям подготовки, составлялась обычная двухвхо-довая таблица сопряженности (исключением являлся признак «тип телосложения», для которого составлялась таблица сопряженности с тремя категориями и соответственно изменялась расчетная формула) [10].

Для обычной двухвходовой таблицы сопряженности вероятность того, что случайно выбранный из первой группы объект будет принадлежать первой категории шкалы измерения признака, обозначена р Вероятность того же события во второй группе обозначена р2. Тогда на основе данных таблицы сопряженности нулевая гипотеза для двухстороннего критерия х2 имеет вид Н0: р1 = р2, а альтернативная гипотеза - Н1: Л ф Рт

Для проверки нулевой гипотезы подсчиты-валось значение статистики критерия х2 по следующей формуле, преобразованной из общей в соответствии со структурой таблицы сопряженности [12, с. 98]:

X2 = (П + П2 )(O11O22 - O12O21 )

А-

, (4)

П1П2 (011 + 021 )(012 + 022 ) где Оп, О12 - число объектов первой выборки, попавших в первую и во вторую категорию по состоянию изучаемого признака соответственно; О21, О22 - число объектов второй выборки, попавших в первую и во вторую категорию соответственно; п1 + п2 - общее число наблюдений в обеих выборках.

Формулу (4) не рекомендуется использовать, если: 1) сумма объемов двух выборок

(п1 + п2) меньше 20; 2) хотя бы одна из абсолютных частот (О11, О12, О21, О22) в таблице сопряженности меньше 5.

В нашем эксперименте второе условие нарушено для всех признаков, поэтому использовалась уточненная формула критерия х2 вида

X2 =-

(ni + n2)| |°ii°22 - O12°2l\ -

n

-. (5)

ПП2 (011 + 021 )(012 + 022 )

Формула (5) также имеет условие, ограничивающее ее применение: хотя бы одна из абсолютных частот должна быть в пределах от 5 до 10; но это условие выполнено во всех случаях применения критерия х2.

Значения статистики х2, вычисленные по формуле (5) для каждой медико-биологической характеристики, приведены в табл. 3. Видно, что для 13 медико-биологических характеристик значимые различия в распределениях между направлениями подготовки проявились лишь для двух - «тип телосложения» и «курение» - на уровне значимости а' = 0,01, т. к. вычисленные по формуле (5) значения статистик превысили критический показатель х001 = 6,64 . При этом для характеристики «тип телосложения» различия проявились у двух пар специальностей: «Иностранный язык» - «Психология» и «Профессиональное обучение» - «Психология», а для характеристики «курение» - у одной пары: «Профессиональное обучение» - «Психология».

Для проверки направленной нулевой гипотезы вида Н0: р1 < р2 против альтернативы вида Н1: р1 > р2 был использован односторонний критерий х2 [7]. Так как данный критерий применим только в случае дихотомических данных, направление сдвига вероятностей удалось установить лишь для характеристики «курение». В результате оказалось, что на уровне значимости а' = 0,01 нулевая гипотеза отклоняется и вероятность того, что студенты, обучающиеся по направлению «Профессиональное обучение», склонны к курению, больше, чем у студентов-психологов.

Таблица 3

ПРИБЛИЖЕННЫЕ ЗНАЧЕНИЯ СТАТИСТИКИ х2 ДЛЯ МЕДИКО-БИОЛОГИЧЕСКИХ ДАННЫХ

Признак Пары направлений подготовки

1-2 1-3 1-4 1-5 2-3 2-4 2-5 3-4 3-5 4-5

Тип телосложения 0,005 0,021 6,243 0,989 0,103 7,393 1,510 6,852 1,313 1,637

Искривление позвоночника 4,744 2,401 3,092 4,121 0,033 0,000 0,043 0,013 0,015 0,004

Изменение размера черепа 0,000 0,000 0,001 0,000 0,000 0,000 0,000 0,001 0,000 0,004

Подвижность суставов 0,001 0,002 0,001 0,442 0,478 0,523 0,012 0,478 0,022 0,012

Миопия 0,660 0,010 1,312 0,013 0,211 0,000 0,328 2,007 0,048 0,841

Пиелонефрит 0,229 0,437 0,479 0,192 0,478 0,522 0,156 0,000 0,365 0,403

Вегето-сосудистая дистония 0,001 0,187 0,003 0,608 0,002 0,274 0,004 0,003 0,715 1,700

Бронхиальная астма 0,001 0,002 0,000 0,000 0,478 0,000 0,004 0,001 0,007 0,000

Гастриты 0,145 0,064 0,803 0,013 0,247 0,000 0,020 1,003 0,057 0,156

Язвенная болезнь 0,002 0,002 0,001 0,002 0,478 0,523 0,659 0,000 0,000 0,000

Курение 0,206 2,401 0,145 1,596 0,567 0,151 4,146 2,169 8,878 1,700

Алкоголизация 0,002 0,002 0,001 0,002 0,478 0,523 0,659 0,000 0,000 0,000

Навязчивые движения 0,002 0,187 0,002 0,608 0,002 0,523 0,004 0,002 0,715 0,004

Примечание. Полужирным шрифтом выделены статистически значимые на уровне значимости а = 0,01 наблюдаемые значения статистики х2.

Кроме того, для проверки полученных выводов мы проанализировали наличие значимых различий в распределениях медико-биологических характеристик между каждой академической группой и множеством всех обследованных студентов. Для решения этой задачи также использовался критерий х2 В результате оказалось, что на уровне значимости а' = 0,01 для характеристики «тип телосложения» проявились значимые различия в распределении данных по категориям между группой студентов-психологов и всей выборкой, а для характеристики «курение» показатели студентов, выбравших специальность «Профессиональное обучение», более высокие, чем для всей выборки.

Таким образом, результаты обработки данных медико-биологического блока показали, что студенты, выбравшие направление подготовки «Профессиональное обучение», более склонны к такой вредной привычке, как курение, чем студенты-психологи. Кроме того, наблюдаются различия по типу телосложения между студентами направлений «Профессиональное обучение» - «Психология» и «Профессиональное обучение» - «Иностранный язык».

Анализ характеристик «рост» и «вес», измеренных по шкале отношений, был проведен методами, аналогичными методам обработки данных психологического блока. В результате

применения критериев Крускала-Уоллиса и Смирнова к этим данным значимых различий в распределениях указанных характеристик не обнаружилось.

Выводы:

1. Непараметрические критерии проверки гипотез имеют ряд преимуществ по сравнению с традиционными параметрическими критериями: они более чувствительны и допускают использование данных, измеренных в «слабых» шкалах.

2. В случае применения ранговых непараметрических критериев для анализа эмпирических данных, измеренных в порядковых шкалах, рекомендуется использовать критерий Круска-ла-Уоллиса для фронтальной обработки, а кри-

терии Манна-Уитни и Джонкхиера - для выявления тенденций изменения признаков.

3. Для анализа выборок большого объема необходимо использовать специальные приближения критических статистик [13], а также предельные распределения для критических точек.

4. Важно отметить, что некоторым ограничением применения ранговых непараметрических критериев проверки гипотез для анализа многомерных эмпирических данных является необходимость введения поправок при проведении множественных сравнений с целью уменьшения ошибки I рода. Однако, как показало наше исследование, это ограничение не препятствует выявлению действительно значимых различий.

Список литературы

1. Парыгина С.А. Сравнительная характеристика ранговых непараметрических критериев проверки гипотез и особенности их применения к обработке данных различной природы // Естеств. и техн. науки. 2015. № 6. С. 44-48.

2. Парыгина С.А. Об особенностях применения некоторых ранговых непараметрических критериев проверки гипотез // Вестн. Башкир. ун-та. 2016. Т. 21, № 2. С. 252-257.

3.ХоллендерМ., Вулф Д.А. Непараметрические методы статистики / пер. с англ. М., 1983.

4. Hajek J. Nonparametric Statistics. San Francisco, 1969.

5. Боровков А.А. Математическая статистика. Новосибирск, 1997.

6. Нискина Н.П., Тейман А.И., Шмерлинг Д.С. Непараметрические методы статистики, основанные на рангах, и их применение. М., 1986.

7. Хеттманспергер Т.П. Статистические выводы, основанные на рангах / пер. с англ. М., 1987.

8. Сидоренко Е.В. Методы математической обработки в психологии. СПб., 1996.

9. Орлов А.И. О проверке однородности двух независимых выборок // Заводская лаборатория. 2003. Т. 69, № 1. С. 55-60.

10. Никитин Я.Ю. Асимптотическая эффективность непараметрических критериев. М., 1995.

11. Гублер Е.В., Генкин А.А. Применение непараметрических критериев статистики в медико-биологических исследованиях. М., 1973.

12. Грабарь М.И., Краснянская К.А. Применение математической статистики в педагогических исследованиях. Непараметрические методы. М., 1977.

13. Fahoome Gail F. Twenty Nonparametric Statistics аМ Their Large Sample Approximations // Journal of Modern Applied Statistical Methods. 2002. № 2. Р. 248-268.

References

1. Parygina S.A. Sravnitel'naya kharakteristika rangovykh neparametricheskikh kriteriev proverki gipotez i osobennosti ikh primeneniya k obrabotke dannykh razlichnoy prirody [Comparative Characteristics of the Rank-Order Nonparametric Hypothesis Tests and Special Aspects of Their Application to the Data Processing of Different Nature]. Estestvennye i tekhnicheskie nauki [Natural and Technical Sciences], 2015, no. 6, pp. 44-48.

2. Parygina S.A. Ob osobennostyakh primeneniya nekotorykh rangovykh neparametricheskikh kriteriev proverki gipotez [On the Features of Application of Some Rank Nonparametric Criteria for Verifying the Hypotheses]. VestnikBashkirskogo universiteta [Bulletin of Bashkir University], 2016, vol. 21, no. 2, pp. 252-257.

3. Hollander M., Wolfe D.A. Nonparametric Statistical Methods. New York, 1973. 503 p.

4. Hajek J. Nonparametric Statistics. San Francisco, 1969. 184 p.

5. Borovkov A.A. Matematicheskaya statistika [Mathematical Statistics]. Novosibirsk, 1997. 772 p.

6. Niskina N.P., Teyman A.I., Shmerling D.S. Neparametricheskie metody statistiki, osnovannye na rangakh, i ikh primenenie [Nonparametric Statistical Methods Based on Ranks, and Their Application]. Moscow, 1986. 62 p.

7. Hettmansperger T.P. Statistical Inference Based on Ranks. New York, 1984. 56 p.

8. Sidorenko E.V Metody matematicheskoy obrabotki v psikhologii [The Methods of Mathematical Processing in Psychology]. Saint Petersburg, 1996. 348 p.

9. Orlov A.I. O proverke odnorodnosti dvukh nezavisimykh vyborok [On the Verification of the Homogeneity of Two Independent Samples]. Zavodskaya laboratoriya. Diagnostika materialov [Industrial Laboratory. Materials Diagnostics], 2003, vol. 69, no. 1, pp. 55-60.

10. Nikitin Ya.Yu. Asimptoticheskaya effektivnost' neparametricheskikh kriteriev [Asymptotic Efficiency of Nonparametric Tests]. Moscow, 1995. 235 p.

11. Gubler E.V., Genkin A.A. Primenenie neparametricheskikh kriteriev statistiki v mediko-biologicheskikh issledovaniyakh [The Use of Nonparametric Statistics Tests in Biomedical Research]. Moscow, 1973. 141 p.

12. Grabar' M.I., Krasnyanskaya K.A. Primenenie matematicheskoy statistiki vpedagogicheskikh issledovaniyakh. Neparametricheskie metody [Application of Mathematical Statistics in Pedagogical Research. Non-Parametric Methods]. Moscow, 1977. 136 p.

13. Fahoome Gail F. Twenty Nonparametric Statistics and Their Large Sample Approximations. Journal of Modern Applied Statistical Methods, 2002, no. 2, pp. 248-268.

DOI: 10.17238/issn2541-8416.2017.17.1.50

SvetlanaA. Parygina* *Cherepovets State University (Cherepovets, Russian Federation)

FEATURES OF PRACTICAL IMPLEMENTATION OF NONPARAMETRIC METHODS OF MATHEMATICAL STATISTICS FOR EMPIRICAL DATA-PROCESSING OPERATION

The article deals with the use of nonparametric methods of mathematical statistics, particularly in nonparametric hypothesis tests, for the empirical data-processing operation of different nature. As an example of practical implementation of these methods we introduce a career-oriented experiment con-

ducted in Cherepovets State University. At different stages of statistical processing of the experiment results the features of static analysis are established, which are related to the specifics of certain data. The rank nonparametric hypothesis tests are used for psychological data processing. The ways of overcoming the series of restrictions of the statistical criteria using, such as a frequent repetition of sample values, the lack of table values for large volume samples, are identified. We attempt to structure the static analysis of ordinal data in accordance with the task of finding significant differences in a large number of characteristics between multiple statistical universes. The alternative static analysis using the Smirnov nonparametric test of homogeneity is carried out. The asymptotically nonparametric test x2 is used for biomedical data processing. This is due to the nominal nature of the most medical and biological characteristics. We demonstrate the approximating of the critical statistics x2 for a large sample and a work with directional hypotheses. The conclusions contain the recommendations for the use of rank nonparametric hypothesis tests for the data processing of different nature: human (in terms of psychological data) and naturalist (in terms of medical and biological data).

Keywords: nonparametric hypothesis test, Kruskal-Wallis test, significant difference, x2 criterion, contingency table.

Received on September 22, 2016 Поступила 22.09.2016

Corresponding author: Svetlana Parygina, address: ul. Lunacharskogo, 5, Cherepovets, Vologda region, 162600, Russian Federation; e-mail: [email protected]

For citation: Parygina S.A. Features of Practical Implementation of Nonparametric Methods of Mathematical Statistics for Empirical Data-Processing Operation. Arctic Environmental Research, 2017, vol. 17, no. 1, pp. 50-60. DOI: 10.17238/issn2541-8416.2017.17.1.50

i Надоели баннеры? Вы всегда можете отключить рекламу.