Научная статья на тему 'О некоторых особенностях применения непараметрических статистик в педагогических исследованиях'

О некоторых особенностях применения непараметрических статистик в педагогических исследованиях Текст научной статьи по специальности «Математика»

CC BY
317
71
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПЕДАГОГИЧЕСКИЕ ИССЛЕДОВАНИЯ / НЕПАРАМЕТРИЧЕСКИЕ СТАТИСТИКИ В ПЕДАГОГИЧЕСКИХ ИССЛЕДОВАНИЯХ

Аннотация научной статьи по математике, автор научной работы — Майер Роберт Адольфович, Колмакова Наталья Робертовна, Ванюрин Андрей Владимирович

Работа посвящена проблеме использования непараметрических статистик в педагогических исследованиях и адресована выпускникам вузов и соискателям ученых степеней в соответствующих областях науки.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О некоторых особенностях применения непараметрических статистик в педагогических исследованиях»

Р.А. Майер, Н.Р. Колмакова, А.В. Ванюрин

О НЕКОТОРЫХ ОСОБЕННОСТЯХ ПРИМЕНЕНИЯ НЕПАРАМЕТРИЧЕСКИХ СТАТИСТИК В ПЕДАГОГИЧЕСКИХ ИССЛЕДОВАНИЯХ

В последние годы соискатели ученых степеней в области педагогических наук, обращаясь к статистической обработке результатов своих исследований, стали все чаще пользоваться так называемыми непараметрическими критериями. Нередко их используют даже в тех случаях, когда процедура измерения и полученные результаты позволяют применять более эффективные параметрические критерии. Возможно, толчком к этому послужила работа профессора Д.А. Новикова «Статистические методы в педагогических исследованиях», в которой он подверг резкой и, как правило, справедливой критике случаи неправомерного использования в диссертационных исследованиях параметрических критериев.

Откладывая обсуждение этого вопроса на вторую часть статьи, заметим, что при статистической обработке результатов педагогических экспериментов, которые рассматриваются в диссертационных исследованиях, встречается немало других существенных недостатков, в ряде случаев сводящих на нет всю доказательную силу исследования. Так, например, далеко не всегда показатели, выбранные для определения эффективности рассматриваемой системы (их в дальнейшем будем назвать оценочными параметрами), адекватно отражают достигаемые системой результаты. Редко когда исследуется качество инструментария, используемого для измерения оценочных параметров системы (тестов, контрольных работ, анкет, системы интервью и т. д.). Не объясняются мотивы выбора того или иного статистического критерия. В случаях применения параметрических критериев далеко не всегда обосновывают их допустимость. В случае же применения непараметрических критериев ограничиваются отклонением нулевой гипотезы, не сравнивая статистические параметры сопоставляемых выборок и не выясняя, в какой мере их значения влияют на оценочные параметры. Наконец, чрезвычайно редко описывается так называемая генеральная совокупность, на которую с заданной надежностью могут быть распространены выводы диссертационного исследования. Не выясняется ее подобие экспериментальной и контрольной группам. Много некорректных интерпретаций и выводов, являющихся следствием непонимания сущности применяемых статистических методов.

Остановимся теперь более подробно на некоторых обозначенных выше вопросах.

1. Важным условием успешного применения в педагогическом исследовании количественных методов является включение в разрабатываемую, совершенствуемую или лишь корректируемую методическую (педагогическую) систему оценочных параметров, адекватно отражающих происходящие в системе изменения. Вводить оценочные параметры надо по возможности раньше, используя их для промежуточных оценок происходящих в системе изменений и корректировки исследовательских действий. При этом наряду с параметрами, оценива-

ющими ожидаемые позитивные изменения системы, нужны параметры, фиксирующие возможные отрицательные последствия нововведений, а также дополнительные усилия и затраты, необходимые для успешного функционирования разрабатываемой системы. Грамотное использование построенной системы оценочных параметров может существенно обогатить исследование, а выводы из него сделать более объективными.

Использование оценочных параметров требует разработки соответствующей системы измерения различного рода качеств, свойственных исследуемому педагогическому явлению. Если измерение выполняется в соответствии с классической схемой, путем откладывания некоторой единицы измерения, а начало отсчета соответствует полному отсутствию измеряемого качества, то говорят, что измерение производится в шкале отношений. В такой шкале можно выполнять в пределах осмысленной интерпретации все арифметические операции, определять, во сколько раз одна величина больше (меньше) другой, а также вычислять величины, важные для анализа изучаемого явления. В случае если начало отсчета не соответствует оговоренному выше условию, говорят, что измерение производится в интервальной шкале. В ней уже не имеет смысла выяснять, во сколько раз одно значение величины больше или меньше другого.

В интервальной шкале и шкале отношений измеряются не только физические, но и многие педагогические величины, например, уровень владения некоторым учебным материалом. Применяемые в таких случаях тесты должны быть не только достаточно надежными, дискриминативными и валидными (адекватными выбранному оценочному параметру), но и по возможности однородными по сложности тестовых заданий. Результатом такого измерения является количество правильно выполненных тестовых заданий.

При невозможности введения достаточно устойчивой единицы измерения прибегают к процедуре, в которой членам исследуемой совокупности приписываются уровни, достигаемые ими в том или ином виде деятельности. В практике школьного образования эти уровни выражаются в баллах. Часто в такой системе измерения члены совокупности удается ранжировать, приписывая каждому индивиду свой порядковый номер (ранг). Шкала, соответствующая такой системе измерения, называется порядковой, или ранговой. Естественно, что в такой шкале уже не имеют смысла арифметические действия.

Наконец, часты случаи, когда явлениям не удается приписать даже уровни (ранги) и приходится ограничиваться символами, фиксирующими наличие или отсутствие исследуемого свойства. В этом случае говорят об измерении в шкале наименований, или номинальной шкале. В ней не имеют смысла не только арифметические действия, но и сравнение по величине или порядку.

2. Чтобы сравнить результаты измерений и сделать первые предварительные выводы о достоинствах произведенных исследовательских действий, обращаются к средствам так называемой описательной статистики. Первым важным ее понятием является система чисел (х\, х 2, хг), полученная в результате «измерения» элементов исследуемой выборки. Эту систему чисел, так же как и отобранную для измерения группу испытуемых, называют выборкой. При ее изображении точками числовой оси легко заметить, что располагаются они, как правило, неравномерно с разной плотностью в разных местах оси. Зависимость плот-

ности точек выборки от места, занимаемого ими на числовой оси, называют распределением выборки. Для того чтобы сделать это понятие более наглядным, разбивают отрезок, содержащий все точки выборки, на конечное количество равных элементарных отрезков и на них строят прямоугольники с площадями, пропорциональными числу точек выборки, оказавшихся в их основаниях. Полученную диаграмму называют гистограммой. Если число элементарных отрезков достаточно велико, а сами они малы, то плавную кривую, проходящую через середины верхних оснований построенных прямоугольников, называют кривой распределения.

Распределения выборок обладают рядом свойств, которые называют статистическими параметрами распределения. К статистическим параметрам, характеризующим положение точек выборки на числовой оси, относятся среднее арифметическое и медиана. Средним арифметическим называют частное от

деления суммы всех чисел выборки на их количество, т. е. х = е 1 Х[/1, а медианой — число, разделяющее выборку на две равные по количеству входящих в них чисел части, в одной из которых все числа не больше, а во второй — не меньше этого разделяющего числа. К статистическим параметрам, характеризующим разброс выборочных значений около среднего арифметического, относятся дисперсия и стандартное отклонение. Дисперсия вычисляется по формуле

л2 = е 1 (х^ - х )2/ (п - 1), а стандартное отклонение как квадратный корень из дисперсии.

Особый интерес представляют распределения, в которых плотность точек, максимальная в окрестности среднего арифметического, монотонно снижается до нуля по мере удаления от него. При выполнении определенных условий, вы-

1 - к-*!

ражаемых уравнением у (х )= —Ч? 2л2 , где х — расстояние от начала

л V 2р

координат, х — среднее арифметическое, в — стандартное отклонение, а у (х) — плотность точек на числовой оси, такие распределения называют нормальными. Существуют методы, позволяющие с заданной надежностью ответить на вопрос: подчиняется ли рассматриваемое распределение нормальному закону? Часто в приблизительной нормальности распределения убеждаются визуально, построив его гистограмму или кривую распределения.

3. Располагая двумя выборками (х\, х2,..., хг) и (у1?у2,у^, полученными в

результате измерений оценочного параметра, уже можно сделать определенные выводы об эффективности разработанной исследователем системы, относящиеся, правда, лишь к экспериментальной и контрольной группам. Вместе с тем возникает вопрос: какова гарантия, что при повторном эксперименте, проведенном в аналогичных условиях, но с другим составом испытуемых, как и в первом случае, экспериментальная группа покажет результат, превышающий результат контрольной группы? Иначе говоря, можно ли выводы, которые следуют из проведенного частного эксперимента, распространить на более обширную группу испытуемых, которую в начале статьи мы назвали генеральной? А если можно, то какова эта группа и какова надежность такого распространения? Без от-

вета на эти вопросы проведенный эксперимент теряет свой научный смысл и доказательную силу.

Ответ на эти вопросы получают средствами математической статистики, используя так называемый выборочный метод. Для раскрытия его смысла предположим, что требуется исследовать некоторую совокупность на обладание ее членов определенным свойством. Если совокупность велика и не может быть подвергнута сплошному обследованию, то отбирают из нее случайным образом небольшую часть, которая в силу случайного характера отбора должна быть по составу подобна, или, как говорят в статистике, репрезентативную всей исследуемой совокупности. Изучив отобранную часть и сделав соответствующие выводы, их распространяют на всю данную совокупность, называемую в этом случае генеральной совокупностью. Выделенную же часть называют выборкой. Естественно, что распространять свойства выборки на всю генеральную совокупность правомерно лишь при выполнении определенных условий и на некотором не стопроцентном уровне надежности (достоверности). В педагогических исследованиях стремятся обеспечить 95-процентную надежность, которая означает, что из ста проверок несовпадение с выводами эксперимента может произойти не более чем в пяти случаях.

В условиях реального исследования выборочные совокупности часто бывают даны изначально без процедуры случайного отбора. В этом случае совокупность, выполняющую роль генеральной, приходится строить теоретически, обеспечивая теперь уже искусственную репрезентативность выборок.

4. Возможность распространения выводов, основывающихся на результатах проведенного эксперимента, на всю генеральную совокупность проверяется с помощью специальных правил, называемых статистическими критериями. Такие критерии часто задаются аналитическими выражениями, зависящими от выборочных значений экспериментальной и контрольной групп. Вычисленное по выборкам значение критерия сопоставляется с его критическими значениями, зависящими от особенностей критерия, принятого уровня надежности и числа степеней свободы, определяемого объемом выборок. Как правило, критерии и соответствующие им критические точки строятся таким образом, что нулевая статистическая гипотеза о невозможности распространения экспериментальных выводов на всю генеральную совокупность отвергается и принимается альтернативная гипотеза о возможности такого распространения, если вычисленное значение критерия оказывается равным или большим критического значения, соответствующего выбранной надежности. В связи со сказанным заметим, что в математической статистике помимо понятия надежности Р , выражаемой в долях единицы, используется понятие статистической значимости, означающей вероятность ошибочного отклонения нулевой гипотезы, которая обозначается буквой а и связана с надежностью соотношением Р = 1 - а .

Может показаться странным, но объем генеральной совокупности, если он существенно превышает объемы выборок, практически не влияет ни на значения критерия, ни на значения критических точек. Если же объем выборок п превышает 125 объема генеральной совокупности, то критические значения следует

умножать на —у , где N — ориентировочный объем генеральной совокупности или, что проще, разделить на него вычисленное значение критерия.

Статистические критерии, оценивающие возможность распространения выводов исследования на всю генеральную совокупность, принято делить на два класса. К первому из них относят критерии, оценивающие близость значений выбранного статистического параметра, например среднего арифметического двух однотипных распределений (чаще всего нормальных). Такие критерии называют параметрическими. Сразу заметим, что для применения параметрических критериев необходимо, чтобы измерения проводились в шкале отношений или интервальной шкале, а распределения результатов измерения были близки к нормальному или некоторому другому, хорошо изученному и табулированному распределению.

Ко второму классу относятся критерии, оценивающие близость самих распределений. В основе таких критериев лежат различные способы измерения расстояния между двумя распределениями. Такие критерии называют непараметрическими. При использовании непараметрических критериев не имеет значения ни шкала, в которой проводились измерения, ни вид полученных распределений. Однако не следует думать, что непараметрические критерии вообще не чувствительны к процедурам измерения, особенностям полученных распределений. Все «выбросы», существенно нарушающие нормальность распределения, затрудняют интерпретацию результатов эксперимента. Следует также иметь в виду, что при одном и том же объеме выборок надежность выводов при использовании параметрических критериев выше, чем при использовании непараметрических критериев. Или, что практически то же самое, для достижения одной и той же надежности при использовании непараметрических критериев нужны выборки существенно большего объема, чем при использовании параметрических критериев.

Так как увеличение «расстояния» между выборками не гарантирует увеличения разности между каждой парой их одноименных параметров, то статистическая значимость различия между выборками может сочетаться с малостью разности между одноименными параметрами. Поэтому, установив с помощью непараметрического критерия статистическую значимость различия выборок, надо еще выяснить, насколько различаются параметры, соответствующие оцениваемому явлению.

4. Одним из наиболее часто применяемых параметрических критериев является ¿-критерий Стьюдента, выражаемый формулой £ = —-—, в которой

х1- X 2

Б— — =

Х1-Х2 ^

(п1 - 1)Б 2+(п 2-1)Б 22 ж 1 1 ц 1122 Ч_— + — ч, где п и п2 - объемы эксперимен-

+ п2 - 2 ЙП! п2 Ш'

п1 + п2

тальной и контрольной групп, Х1 и —2 — их выборочные средние, а Б^ и Б\ — их дисперсии.

При использовании ¿-критерия Стьюдента рекомендуется строить выборки одинаковой численности (или выравнивать их численность, исключая случайным образом лишние элементы из большей выборки). Легко проверить, что

б? + б2

если и, = п2 = п , то выражение Бх х принимает вид: Бх х =

х, - х ^ х, -

Применение £ -критерия Стьюдента проиллюстрируем следующим примером. Предположим, что исследователь разработал новый метод обучения технике быстрого чтения. Для доказательства его преимущества по сравнению с традиционным методом соискатель сформировал две однородные по составу (доле мужчин и женщин, возрасту, уровню успеваемости, владению обычной техникой чтения и навыкам самостоятельной работы) группы учащихся, по 25 человек каждая. По завершении курса испытуемым был предложен текст для чтения. В таблице 1 приведено время (в минутах), затрачиваемое на его чтение каждым испытуемым экспериментальной и контрольной групп.

Таблица 1

Результаты тестирования на быстроту чтения (в минутах)

Экспер. 0,4 0,8 1,1 1,2 1,3 1,5 1,6 1,7 1,9 2 2,1

Контр. 1,1 1,3 1,5 1,6 1,6 1,7 2,1 2,1 2,2 2,3 2,5

2,1 2,1 2,2 2,3 2,3 2,3 2,4 2,6 2,6 2,9 3,2 3,4 3,5 4,8

2,6 2,6 2,7 2,9 2,9 3,4 3,4 3,6 3,7 4,3 4,4 4,4 4,6 4,7

Распределив испытуемых по интервалам времени, получим таблицу 2, в каждой ячейке которой указано число испытуемых, время чтения которых соответствует указанному интервалу.

Таб лица 2

Распределение испытуемых по временным интервалам

Интервал 0,0 0,4 0,5 0,9 1,0 1,4 1,5 1,9 2,0 2,4 2,5 2,9 3,0 3,4 3,5 3,9 4,0 4,4 4,5 5,0 Итого

Экспер. 1 1 3 4 9 3 2 1 0 1 25

Контр. 0 0 2 4 4 6 2 2 3 2 25

Из данных, приведенных в таблице 2, следует, что распределение испытуемых экспериментальной группы почти нормально, достаточно близко к нормальному и распределение испытуемых контрольной группы. Так как к тому же измерение проводилось в шкале отношений, то в качестве оценочного критерия можно применить £ -критерий Стьюдента. Расчеты показывают, что среднее арифметическое экспериментальной группы х = 2,17, а контрольной — у = 2,81.

тт 2 2

Дисперсии этих групп равны соответственно Б2 = 0,849 и Бу = 1,164.

Полученные данные с очевидностью свидетельствуют в пользу экспериментальной группы. Возникает вопрос: можно ли этот вывод распространить на всю генеральную совокупность (по составу и выбранным параметрам подобную отобранным группам)? Прежде чем воспользоваться £ -критерием Стьюдента, выдвигается так называемая нулевая статистическая гипотеза, предполагающая, что распространить выводы на генеральную совокупность нельзя. Затем, поль-

зуясь формулой БХ —

Х1-Х2

V

Б 2+ Б 2

получим, что БХ — =0,280, откуда

Х1-Х2

£ = 2' ^о 28*0 17 = 2' 286. Критические значения двухстороннего ¿-критерия Стьюдента при п = п 1 + п2 - 2 = 48 степенях свободы приведены в таблице 3.

Таблица 3

Критические значения двухстороннего ¿-критерия Стьюдента

при 48 степенях свободы

п

Надежность, в % II 80 90 95 98 99

Статистическая значимость □ II 0,20 0,10 0,05 0,02 0,01

Критические значения II 1,266 1,676 2,009 2,403 2,678

Так как вычисленное значение критерия £ = 2,286 превосходит критическое значение 005£48 = 2,009, соответствующее 95 % надежности, и меньше следующего за ним критического значения 0 02^48 = 2 403 , то выводы, сделанные из

проведенного эксперимента, могут быть с 95-процентной надежностью (достоверностью) распространены на всю генеральную совокупность.

5. Обратимся теперь к непараметрическим критериям. Одним из наиболее распространенных и строгих непараметрических критериев является критерий Колмогорова — Смирнова. Он предназначен для сравнения двух независимых выборок (рядов измерений или значений частот) и ответа на вопрос о статистической значимости различий между ними.

В качестве примера обратимся вновь к описанной выше ситуации с обучением быстрому чтению, однако вместо ¿-критерия Стьюдента используем для ее анализа критерий Колмогорова — Смирнова.

С этой целью обратимся вновь к таблице 2, в которой приведено распределение испытуемых по интервалам времени. Разделив числа, содержащиеся в ячейках каждой из ее двух строк на их суммы, получим таблицу 4 так называе-

Ж} ц г ■ -

мых относительных частот — , где —1 — число испытуемых в 1-й ячейке, а п —

И п ш

общее число испытуемых в строке.

Таблица 4 ж—

Интервальное распределение относительных частот —ц

Ип ш

Интерва- 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 Ито-

лы 0,4 0,9 1,4 1,9 2,4 2,9 3,4 3,9 4,4 5,0 го

Экспер. 0,04 0,04 0,12 0,16 0,36 0,12 0,08 0,04 0 0,04 1,0

Контр. 0 0 0,08 0,16 0,16 0,24 0,08 0,08 0,12 0,08 1,0

Основываясь на данных таблицы 4, составим таблицу 5 накопленных относительных частот, для чего к относительной частоте каждой ячейки таблицы 4 прибавим все относительные частоты предшествующих ячеек той же строки таблицы 4.

Таб лица 5

Интервальное распределение накопленных

р\ А

относительных частот — и —

п

п

1

2

Интервалы 0,0-0,4 0,5-0,9 1,0-1,4 1,5-1,9 2,0-2,4 2,5-2,9 3,0-3,4 3,5-3,9 1,0-4,4 4,5-5,0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Экспер. 0,04 0,08 0,20 0,40 0,72 0,84 0,92 0,96 0,96 1,00

Контр. 0,00 0,00 0,08 0,24 0,40 0,64 0,72 0,80 0,92 1,00

Разность 0,04 0,08 0,12 0,16 0,32 0,20 0,20 0,16 0,04 0,00

Максимум абсолютного значения разности относительных частот

жР1 ^2 ц

Б = тах

йп1

ш

принимается в качестве статистического критерия Колмого-

рова—Смирнова. Обращаясь к последней строке таблицы 5, легко видеть, что в случае рассматриваемого примера Б выч = 0,32.

Критические значения, с которыми должно сопоставляться вычисленное значения критерия при средних и больших объемах выборок (п1 + п2 > 35), могут

быть приближенно вычислены по формуле п Бкрит □ п К □

п1 п 2

п1п 2

, где К есть

постоянная, зависящая от статистической значимости □ , а значит, и от надежности Р □ 1 □ . Ее значения приведены в таблице 6.

Таб лица 6

Значения коэффициента К в зависимости

от уровня статистическои значимости а

п

а 0,20 0,15 0,10 0,05 0,01 0,001

а К 1,07 1,14 1,22 1,36 1,63 1,95

При п 1 = п 2 = п критические значения вычисляются по формуле Б = К Ч2 . В нашем случае, когда п = п =25, Б = КЧ — = К40,28284. Со-

а крит а V п 12 а крит а Д/ 25 а

ответствующие этому случаю критические значения приведены в таблице 7.

Таблица 7

Критические значения критерия Колмогорова - Смирнова

при п = п = 25

Надежность, в % 80 85 90 95 || 99

Статистическая значимость а 0,20 0,15 0,10 0,05 || 0,01

Критические значения 0,303 0,327 0,345 0,385 || 0,461

Если определенное на основании двух выборок значение ¿выч достигает критического значения Б или превосходит его, то это означает наличие значи-

а крит

мого различия между рассматриваемыми распределениями и возможность распространения с соответствующей надежностью экспериментальных выводов на всю генеральную совокупность. В противном случае распространять выводы, полученные на основе проведенного эксперимента, на всю генеральную совокупность с принятой надежностью нельзя.

Сравнивая вычисленное значение критерия Колмогорова — Смирнова, которое равно 0,32, с критическими значениями, приведенными в таблице 7, легко видеть, что оно превышает только значение 020Бкрит = 0,303 , откуда следует, что

отвергнуть нулевую гипотезу и, следовательно, признать возможным распространение выводов исследования на всю генеральную совокупность, пользуясь критерием Колмогорова — Смирнова, можно лишь на уровне надежности 80 %.

Сразу заметим, что при использовании критерия Колмогорова — Смирнова для отклонения нулевой гипотезы и признания с надежностью 95 % возможности распространения выводов исследования на всю генеральную совокупность различие между выборками должно бы было быть более заметным, а Бвыч равняться как минимум 0,385, а не 0,32, как в нашем примере. Либо же объемы каждой из выборок следовало взять примерно в полтора раза больше, чем в рассмотренном эксперименте. Этот результат соответствует известному теоретическому факту, что эффективность критерия Колмогорова — Смирнова в полтора раза ниже эффективности критерия Стьюдента.

В заключение заметим, что непараметрические методы рекомендуются к применению тогда, когда параметрические методы слишком чувствительны к отклонениям от сделанных допущений или удовлетворение этим допущениям с помощью соответствующих преобразований или с помощью устранения выбросов представляет значительные трудности.

Библиографический список

1. Майер, Р.А. Теория и практика статистического анализа в психолого-педагогических и социологических исследованиях / Р.А. Майер, Н.Р. Колмакова, А.В. Ваню-рин. - Красноярск: РИО КГПУ, 2005. - 350 с.

2. Новиков, Д.А. Статистические методы в педагогических исследованиях / Д.А. Новиков. - М.: М3-Пресс, 2004. - 66 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.