Научная статья на тему 'Применение методов математической статистики в научных исследованиях'

Применение методов математической статистики в научных исследованиях Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
1953
172
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Применение методов математической статистики в научных исследованиях»

НОВОСТИ И ПРОБЛЕМЫ ОБРАЗОВАНИЯ

В.В. АФАНАСЬЕВ

Применение методов математической статистики в научных исследованиях

Классика - это то, что все хотели бы прочитать, но никто читать не хочет

Марк Твен

В статье изложены основные идеи доклада автора на традиционном университетском Дне науки 2006 года. Актуальность постановки задачи об использовании методов математической статистики обусловлена, с одной стороны, возросшими прикладными исследованиями, которые по своей сущности являются стохастическими, а с другой - недостаточной подготовленностью исследователей (особенно педагогов) к научно обоснованному проведению и анализу эксперимента, к грамотному выбору средств и критериев математической статистики. В настоящее время в достаточно большом объеме издается научная литература по математической статистике, которая для большинства читателей малодоступна, а изложение материала во многих случаях сухое и скучное. В работе предлагаются наиболее простые и удобные вероятностностатистические приемы и методы исследования.

Задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов. Термин «статистика» произошел от латинских слов stato (государство) и status (положение вещей). В XVII веке под статистикой подразумевали «государствоведение» и «политическую арифметику». Карл Федорович Герман, первый руководитель статистического комитета, созданного при Министерстве полиции России, являлся автором работы «Статистическое описание Ярославской губернии» (1805 г.).

Следуя этому историческому посылу, в работе [1] мы проводим исследования реальной жизни Ярославской области, отраженной в статистических данных социально-экономического развития Ярославской области, качественного и количественного состава учительских кадров, урожайности коллективных хозяйств, экономической рентабельности предприятий, спортивных достижений команд и т.д. Основные знания, умения и навыки по курсу «Математическая статистика» сведены автором в следующую опорную таблицу.

Предложенная таблица поможет читателю ориентироваться в большом потоке статистических рассуждений и выводов. На следующих примерах покажем наиболее распространенные и простые вычисления основных параметров реальных статистических данных.

ОСНОВНЫЕ

ЗНАНИЯ УМЕНИЯ НАВЫКИ

ПОНЯТИЯ ТЕОРЕМЫ

Выборка Выборка объема п Вариационный, статистический ряд Размах варьирования I f,= і І На сит / ходить полигон частот и отно-гельных частот. ^

Эмпирическая функция распределения Еп (х)

Закон распределения

Строить гистограмму выборки.

жт‘

'К •Ъ-

Показатели положения: выборочная средняя, мода, медиана

Показатели разброса: выборочная дисперсия, неисправленная дисперсия, статистическое и исправленное среднее квадратическое отклонение

Асимметрия

Выборочные начальные и центральные моменты

(х+у) = х*+у (сх) = cx D* (С) = 0;

D* (СХ) = С 2 D* (Х);

D* (Х+У) = D* (X) + D* (У);

п

т, (хг - х* )2

п -1

Вычислять показатели положения. Находить центральные моменты /и5 как полный вес графа распределения статистического ряда:

£ ^

п -1

М[52 ] =D*;

Dобщ. Dвнгр.+ Dмежгр.

Dмежгр./ Dобщ.— 1;

Доверительный интервал Надежность

х -.о<а<х +.о, где

Г ( ) = §:

* 5 * , 5

х - І^—І=<а< х + Іа I-

ып Ып

і а =у{п,а);

5 (1 - q) < о < 5 (1 + q)

где

Находить доверительный интервал, который с заданной надежностью а покрывает оцениваемый параметр (математическое ожидание или среднее квадратическое отклонение)

Выборочная ковариация к (X, У )

к(Х,у) = -£(х - х>) х п

х (у, - у*)п„

Находить выборочную ковариацию как полный вес ковариационного графа:

Выборочный коэффициент корреляции г(х, у)

Выборочное корреляционное отношение

Уравнение регрессии У на Х (Х на У)

Ранговая корреляция Выборочный коэффициент ранговой корреляции Спирмена

Коэффициент ранговой корреляции Кендалла

Кх,у)=

1пхуху - х*У

по •о

х у

\г (х, у ) — 1

о х

ух

Пух = —

о

у

0 — п — 1, П \г (х ,У),

Dв„гр = Dобщ( -Л2 ).

у*- у • = к~ЦР (х - х )

х

г = 1 - 62<

•? 3

п - п

Т, = Ф,к;

х 4К ■

гк = —,---------г-1’

п(п -1)

Строить графики регрессии У*х=/(х) или Х*у=ф(у), пользуясь методом наименьших квадратов.

Находить коэффициенты ранговой корреляции Спирмена, Кендалла и область принятия нулевой гипотезы.

Обосновать область принятия нулевой гипотезы.

Т =7 кр кр 2(2п + 5)

9п(п -1)

Статистические гипотезы.

1 - распределение Стьюдента

X - критерий Пирсона

Я - критерий Колмогорова Смирнова

Критерий хг

Фридмана Критерий Ь Пейджа Критерий Q Розенбаума

х - у

\пт{п + т - 2) п + т ’

Хэ

= 1

(п - п')2

Х

V

Г

п. г

п1 • п2

п1 + п2

12

п • с • (с + 1) - 3п(с +1)

Ь = УТ • ]

эмп ] л

^^эмп = ^1 + ^2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

У Т! -

Отыскивать области принятия нулевой гипотезы(или конкурирующей)

0

т

ккр 0

к1 0

кр

Т < г

эмп

2

кр

2

х эмп хкр

Я > Я

2 2 X г эмп

г кр

Ь > Ь

эмп кр

Qэмп ' Qкр

ккр

+

Критерий Т Вилкоксона

Критерий (7 Манна-Уитни

Критерий Н Крускала-Уоллиса Критерий Барлетта

пх • (пх +1

7 = п, • п2 + - х 4 х

2

- Ф

Н =

12 Т

-----—-------У^ - 3( N +1)

N(N +1) ^ п

5 = 2,3 [(У п - т) Б * --У (п. - 1)1в Б * ]

Тэмп < Ткр

эмп кр

7 > 7

эмп кр

Н < Н

эмп кр

В/с < х2(а,т -1)

с = 1+-

1

3(т -1)

У

п. -1

1

У п* - т

ж

ж

г

эмп

2

2

1

Пример 1. Найти, на сколько отличаются требования студентов и преподавателей к личности преподавателя, определенные в ходе социологического опроса.

Требования к личности преподавателя

№ Качества личности Студенты Преподаватели а-

% ранг % ранг

X У

1 Глубокие знания 54 2,5 67 2 0,25

2 Умение объяснять 87 1 70 1 0

3 Увлеченность наукой 10 10 22 6 16

4 Знание практики 34 5,5 46 3 6,25

5 Общительность 39 4 18 7 9

6 Отзывчивость 34 5,5 16 8 6,25

7 Чувство юмора 54 2,5 12 9 42,25

8 Интеллигентность 16 8 32 5 9

9 Требовательность 13 9 42 4 25

10 Демократичность 21 7 8 10 9

Е= 123

Решение. В качестве измерителей тесноты парных связей между количественными переменными будем использовать коэффициент ранговой корреляции. Пусть объекты генеральной совокупности обладают двумя качественными признаками, которые проранжируем в порядке

ухудшения качества. Рассматривая ранги х1, х2,..., хп как возможные значения случайной величины X , а ^1, у2 ,• • •, Уп - как возможные значения величины У, можно вычислить выборочный коэффициент корреляции Спирмена Г5 :

т., = 1 - -

І

(п -1)-п -(п + 1)

х г - уг (разность соответствующих рангов). Заметим, что при равных показателях

где

им присваивается один общий ранг, равный среднему арифметическому соответствующих возможных мест.

Найдем в нашем случае ранговый коэффициент Спирмена:

т. = 1

6 123 = 1 _ 41 = 55 - 41 = 16 ^ 025 9-10-11 = 55 = 55 = 55 ~ ’

Отсюда следует, что требования студентов и преподавателей к личности преподавателя значимо отличаются.

Пример 2. Жизненные ценности студентов и преподавателей представлены на полигоне частот. Определите, на сколько схожи выборы ценностей у студентов и преподавателей.

Выбор ценностей

-♦— Студенты Преподаватели

2

1 -

Высокий заработок 6 - Душевное спокойствие

2 - Интересная работа 7 - Профессиональные достижения

3 - Любимый человек 8 - Уважение окружающих

4 - Хорошие друзья 9 - Высокое социальное положение

5 - Собственность, капитал 10 - Чистая совесть

Решение. Проранжируем перечисленные ценности у студентов и преподавателей и зане-

сем их в следующую таблицу:

Ценность 1 2 3 4 5 6 7 8 9 10

Ранг у студентов 4 3 1 2 8,5 5 8,5 6 10 7

Ранг у преподавателей 2 1 4 9 8 5 6 3 10 7

d2 4 4 9 49 0,25 0 2,25 9 0 0

2

Поскольку X d ) = 77,5, то коэффициент ранговой корреляции Спирмена

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 6 • 77,5

1-------------~ 0,53 и можно утверждать, что между выборами ценностей у студентов и

s 9 • 10•11

преподавателей существует прямая и средней силы связь.

Пример 3. Найти степень соответствия лучшей жизни и достатка (по данным британского журнала «Economics», ноябрь 2004 г.).

Место Страна Место по достатку Ранг по достатку di2

1 Ирландия 4 4 9

2 Швейцария 7 5 9

3 Норвегия 3 3 0

4 Люксембург 1 1 9

5 Швеция 19 9 16

6 Австралия 14 8 4

7 Исландия 8 6 1

8 Италия 23 10 4

9 Дания 10 7 4

10 Испания 24 11 1

11 США 2 2 81

Z dt 2 —138

Проанализировав места по достатку и найдя разность рангов по лучшей жизни и по достатку, находим коэффициент ранговой корреляции

6 • 138

г — 1--------------

s 10 • 11•12

0,373

По найденному коэффициенту видно, что существует прямая и средняя связь между лучшей жизнью и достатком («счастье не в деньгах»).

В следующем примере рассмотрим результаты Единого государственного экзамена в Ярославской области в 2006 году по трем показателям (средний балл, справляемость и успешность). В таком случае, когда исследуется связь между несколькими признаками, корреляцию

называют множественной, и она задается всеми коэффициентами парных корреляций, кото-

рые записывают в корреляционную матрицу:

(г ) —

1 Г12 Г13 • •• Г1п

1 Г23 •• Г2п

1 . •• Г3п

1

Заметим, что матрица (г ) является треугольной, поскольку вторять дважды.

Г —Г

и нет смысла их по-

Пример 4. В [3] приводятся основные результаты ЕГЭ в 2006 году по районам Ярославской области. Найти корреляционную матрицу между средним баллом, справляемостью (количество учащихся, получивших отметки “3”, “4”, “5”) и успешностью (количество учащихся, получивших отметки “4”, “5”) по русскому языку, например.

Решение. Дополним традиционные показатели ЕГЭ по русскому языку ([3. С. 16]) их найденными рангами по районам и по трем признакам, запишем все эти данные в следующую таблицу:

Муниципальный район Кол-во писав- ших Средний балл (1) Ранг Справляе- мость (2) Ранг Успеш- ность (3) Ранг

г. Ярославль 3759 54,90 3 97,05 7 66,27 3

Большесельский МР 69 54,49 4 94,20 17 55,07 14

Борисоглебский МР 80 51,89 11 97,50 5 57,50 9

Брейтовский МР 84 48,32 19 89,29 19 45,24 19

Гаврилов-Ямский МР 168 52,11 10 95,83 10 57,14 10

Даниловский МР 199 53,92 5 99,50 1 60,80 5

Любимский МР 99 51,47 13 93,94 18 56,57 11

Мышкинский МР 70 57,17 1 95,71 12 67,14 2

Некоузский МР 114 52,99 8 97,37 6 56,14 12

Некрасовский МР 124 49,23 18 95,97 9 47,58 17

Первомайский МР 83 51,54 12 95,18 14 59,04 6

Переславский МР 62 53,27 6 98,39 2 58,06 7

Переславль-Залесский 231 54,93 2 98,28 3 69,83 1

Пошехонский МР 95 50,47 15 94,74 15 49,47 18

Ростовский МР 360 52,38 9 94,44 16 57,78 8

Рыбинский МР 1289 53,06 7 97,83 4 62,53 4

Тутаевский МР 364 50,20 16 95,60 13 50,27 15

Угличский МР 241 50,80 14 95,85 10 55,19 13

Ярославский МР 172 49,34 17 96,51 8 47,67 16

Вычисляя суммы квадратов соответствующих рангов, находим и соответствующие коэффициенты ранговых корреляций:

'12

1

6 • 653 18-19-20

0,427; г13 = 1

6-187 18-19-20

0,836; г23 = 1

6 - 490 18-19-20

0,570.

Полученные коэффициенты занесем в корреляционную матрицу:

' 1 0,427 0,836Л (г )= 1 0,570

ч 1 ,

По матрице (г ) видно, что в нашем случае самая сильная связь существует между средним баллом и успешностью, а самая слабая - между средним баллом и справляемостью.

Для определения степени зависимости трех и более показателей используют еще и множественный коэффициент ранговой корреляции, или, иначе говоря, коэффициент конкордации:

ж

т2 -(п -1)-п -(п +1 )’

где - сумма квадратов отклонений суммы т рангов от их средней величины,

. 2

п ґ т Л

55 = £[£ Я

1 V 1

Ґ п т \

[ЕЕ Я

V 1 1

У

п

т - число ранжируемых признаков;

2

П - число наблюдений.

В заключение рассмотрим результаты финалистов последнего чемпионата мира по четырем показателям (ср. [2. С. 51]).

Пример 5. Найти корреляционную матрицу и коэффициент конкордации для мест на ЧМ-2006, стоимости команд, рейтинга ФИФА и количества клубов мировых футбольных держав.

Груп па Команда Место на Стоимость команд Рейтинг ФИФА Кол-во клубов I « (1«)2

ЧМ- 2006 млн. евро ранг ранг тыс. ранг

1. Германия 3 256 5 16 14 26,7 3 25 625

с4 Коста-Рика 31 28 31 21 17 0,128 31 110 12100

3. Польша 21 44 26 23 18 7,76 8 73 5329

4. Эквадор 12 31 29 37 24 0,17 28 93 8649

1. Англия 7 325 2 9 9 42,0 1 19 361

с4 со Парагвай 20 54 22 30 21 1,5 17 80 6400

3. Тринидад и 29 30 30 51 30 0,135 30 119 14161

4. Тобаго Швеция 14 147 10 14 12 3,23 11 47 2209

1. Аргентина 6 217 6 4 4 3,06 12 28 784

с4 и Кот-д Ивуар 18 71 21 41 26 0,2 27 92 8464

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Сербия и 32 92 17 47 27 2,82 13 89 7921

4. Черногория Голландия 11 174 9 3 3 4,05 10 33 1089

1. Мексика 15 41 27 7 7 1,49 18 67 4489

с4 О Иран 25 48 25 19 15 2,54 14 79 6241

3. Ангола 23 27 32 93 32 0,1 32 119 14161

4. Португалия 4 198 8 10 10 2,53 15 37 1369

1. Италия 1 304 3 12 11 16,13 6 21 441

Е Гана 13 101 12 50 29 0,25 25 79 6241

3. США 26 81 18 8 8 1,69 16 68 4624

4. Чехия 19 131 11 2 2 4,17 9 41 1681

1. Бразилия 5 410 1 1 1 12,9 7 14 196

с4 Хорватия 22 95 13,5 20 15 1,19 20 70,5 4970,25

3. Австралия 16 95 13,5 49 28 0,25 25 82,5 6808,25

4. Япония 27 93 15,5 15 13 19,1 5 60,5 3660,25

1. Франция 2 302 4 5 5 19,8 4 15 225

с4 О Швейцария 10 75 19 36 23 1,45 19 71 5041

3. Южная Ко- 17 73 20 29 20 0,66 22 79 6241

4. рея Того 30 53 23,5 56 31 0,25 25 109,5 11990,25

1. Испания 9 202 7 6 6 33,6 2 24 576

с4 Я Украина 8 93 15,5 40 25 1,09 21 69,5 4830,25

3. Тунис 24 37 28 28 19 0,55 23 94 8836

4. Саудовская Аравия 28 53 23,5 32 22 0,153 29 102,5 10506,25

2111 171219

0,61 0,46 ^

0,76 0,52

1 0,74

г

s

5 = 171219 - (2111) = 31959 32

Ж 12 • 31959 0 732

Ж = —----------------« 0,732

42•31•32•33

По корреляционной матрице видно, что самая сильная связь существует между суммарной стоимостью игроков команд и рейтингом ФИФА (Т23 = 0,76 ), а самая слабая связь - между стоимостью сборных команд и количеством клубов в этих странах (Т24 = 0,52). Найденный коэффициент конкордации Ж = 0,732 свидетельствует о сильной связи всех четырех рассматриваемых показателей 32(!) мировых футбольных стран, к которым, к сожалению, не относится Россия.

Библиографический список

1. Афанасьев В. В. Теория вероятностей в вопросах и задачах // Учебное пособие. Ярославль: Изд-во ЯГПУ, 2004. 250 с.

2. Афанасьев В. В., Непряев И. И. Математическая статистика в командных видах спорта. Ярославль: Изд-во ЯГПУ, 2006. 120 с.

3. Единый государственный экзамен в Ярославской области в 2006 году / Под ред. М. В. Груздева. Ярославль, 2006. 50 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.