Научная статья на тему 'Способы анализа результатов наблюдений методами математической статистики'

Способы анализа результатов наблюдений методами математической статистики Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
114
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИСПЕРСИОННЫЙ АНАЛИЗ / ANALYSIS OF VARIANCE / ФАКТОР / FACTOR / ВЛИЯНИЕ / INFLUENCE / ПРОЦЕСС / PROCESS / УРОЖАЙНОСТЬ / PRODUCTIVITY / ВЗАИМОДЕЙСТВИЕ / CONNECTIVITY / КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ / CORRELATION COEFFICIENT / РЕГРЕССИОННАЯ МОДЕЛЬ / REGRESSION MODEL

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Бунтова Елена Вячеславовна

В работе поставлена проблема применения современных методов математической статистики в процессе анализа данных научных исследований. Указаны основные причины возникшей проблемы. На примере анализа данных научных исследований агрономов показано применение некоторых методов математической статистики. В частности рассмотрены методы дисперсионного, корреляционного и регрессионного анализов, которые имеют место в практической деятельности специалиста агронома при исследовании связи между случайными величинами.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — Бунтова Елена Вячеславовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODS OF ANALYSIS OF OBSERVED RESULTS BY METHODS OF MATHEMATICAL STATISTICS

In work the problem of application of modern mathematical statistics methods in data mining research. Are the main causes of the problem. By analyzing data of scientific research agronomists shows the use of some methods of mathematical statistics. In particular, the article considers methods of dispersion, correlation and regression analyses that take place in the practice of expert agronomist in the study of relationships between random variables.

Текст научной работы на тему «Способы анализа результатов наблюдений методами математической статистики»

РУБРИКА

МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ

СПОСОБЫ АНАЛИЗА РЕЗУЛЬТАТОВ НАБЛЮДЕНИЙ МЕТОДАМИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Бунтова Елена Вячеславовна

канд. пед. наук, доцент кафедры «Физика, математика и информационные технологии» ФГБОУВО Самаркой государственной сельскохозяйственной академии, г.Самара

E-mail: lena-buntova1@yandex.ru

METHODS OF ANALYSIS OF OBSERVED RESULTS BY METHODS OF MATHEMATICAL STATISTICS

Elena Buntova

cand. ped. sciences, associate Professor of "Physics, mathematics and information technology" doctor

of the Samarka state agricultural Academy,

Russia, Samara

АННОТАЦИЯ

В работе поставлена проблема применения современных методов математической статистики в процессе анализа данных научных исследований. Указаны основные причины возникшей проблемы. На примере анализа данных научных исследований агрономов показано применение некоторых методов математической статистики. В частности рассмотрены методы дисперсионного, корреляционного и регрессионного анализов, которые имеют место в практической деятельности специалиста - агронома при исследовании связи между случайными величинами.

ABSTRACT

In work the problem of application of modern mathematical statistics methods in data mining research. Are the main causes of the problem. By analyzing data of scientific research agronomists shows the use of some methods of mathematical statistics. In particular, the article considers methods of dispersion, correlation and regression analyses that take place in the practice of expert agronomist in the study of relationships between random variables.

Ключевые слова: дисперсионный анализ, фактор, влияние, процесс, урожайность, взаимодействие, коэффициент корреляции, регрессионная модель.

Keywords: analysis of variance, factor, influence, process, productivity, connectivity, correlation coefficient, regression model.

В профессиональной деятельности экономиста, инженера, агронома постоянно возникает необходимость получать информацию и извлекать из нее ответы на многочисленные вопросы.

Любое решение, которое принимает специалист, требует применения методов обработки результатов наблюдений. Например, приведет ли внедряемое новшество к повышению качества продукции, зависит ли наблюдаемый процесс от заданного фактора, существует ли связь между исследуемыми величинами или насколько сильна имеющаяся связь.

В настоящее время, несмотря на неоспоримую значимость математической статистики, многие выпускники высшей школы, инженеры, ученые имеют достаточно смутное представление о современных методах математической статистики. Для аспирантов математическая статистика является чаще всего «красивой рамкой» для диссертации.

Одна из причин возникшей проблемы - это ограниченное количество аудиторных часов, отведенных учебными планами вузов на изучение математической статистки. Другая причина - огромное количество литературы по математической статистике, например, более миллиона работ по статистическим методам, и разнобой в терминологии.

Таким образом, возникает проблема более тщательного подбора материала к преподаванию математической статистики для различных направлений подготовки специалистов. Из большого количества современных методов математической статистики следует выбрать те методы исследования количественной (качественной) информации о процессе, объекте или явлении, которые имеют наибольшее значение в работе специалиста определенного направления.

www.sibac.info_

Задача состояла в том, чтобы исходя из часто решаемых задач практики специалистами направления подготовки - «агрономия», рассмотреть методы математической статистики, имеющие наибольшее значение в практической деятельности агронома.

Рассмотрим некоторые методы дисперсионного, корреляционного и регрессионного анализов, которые имеют место в практической деятельности специалиста - агронома при исследовании связи между случайными величинами.

Методами дисперсионного анализа устанавливается наличие влияния заданного фактора на изу-

чаемый процесс, отображаемый наблюдаемой статистической совокупностью выборочных данных [3,5].

Например, требуется проверить влияние удобрения и препарата для обработки семян на урожайность по данным приведенным в таблице 1. Пусть фактор А - это удобрение, а фактор В - препарат для обработки семян. Таким образом, требуется провести двухфакторный дисперсионный анализ и проверить гипотезу о влиянии факторов А и В, их комбинаций на указанный признак - урожайность.

Таблица 1.

Данные о видах удобрений и препаратах для обработки семян

Изучаемые факторы Урожайность зерна с 1 га в ц

Азотные удобрения (фактор В) Обработка семян (фактор А) Повторность Среднее

I II III

Без удобрений Вг без обработки (Аг) 29,8 27,2 25,0 27,3

ЖУСС-1 (А2) 31,0 27,2 29,0 29,1

ЖУСС-2 (Л3) 30,3 36,4 32,0 32,9

ЖУСС-3 (А4) 32,5 32,6 33,1 32,7

Аммонийная селитра В2 без обработки (Аг) 35,9 27,1 34,4 32,5

ЖУСС-1 (А2) 32,0 36,3 32,9 33,7

ЖУСС-2 (Л3) 32,4 38,8 40,0 37,1

ЖУСС-3 (А4) 35,7 40,4 37,1 37,7

Мочевина Вз, без обработки (Аг) 33,5 34,2 28,7 32,1

ЖУСС-1 (А2) 35,4 35,4 32,7 34,5

ЖУСС-2 (Л3) 37,4 37,3 39,0 37,9

ЖУСС-3 (А4) 39,5 30,3 35,6 35,1

Сульфат аммония В4 без обработки (Аг) 39,1 34,5 28,2 33,9

ЖУСС-1 (А2) 33,9 35,3 35,6 34,9

ЖУСС-2 (Л3) 35,0 36,4 37,0 36,1

ЖУСС-3 (А4) 39,5 36,1 36,5 37,4

По исходным данным составляется таблица 2.

Таблица 2.

Исходные данные

В А

А1 а2 А3 А4

Вг 29,8; 27,2; 25,0 31,0; 27,2; 29,0 30,3; 36,4; 32,0 32,5; 32,6; 33,1

В2 35,9; 27,1; 34,4 32,0; 36,3; 32,9 32,4; 38,8; 40,0 35,7; 40,4; 37,1

Вз. 33,5; 34,2; 28,7 35,4; 35,4; 32,7 37,4; 37,3; 39,0 39,5; 30,3; 35,6

В4 39,1; 34,5; 28,2 33,9; 35,3; 35,6 35,0; 36,4; 37,0 39,5; 36,1; 36,5

Фактор А имеет четыре уровня Аг,А2,А3,А4, Заменяются серии значений их средними и ре-

фактор В имеет четыре уровня В1,В2,В3.,В4. зультаты записываются в таблицу 3, где г - номер

столбца, у - номер строки.

Таблица 3.

Средние значения результатов наблюдений

В А >т II

А1 А2 А3 а4

Вг 27,3 29,1 32,9 32,7 122,0

В2 32,5 33,7 37,1 37,7 141,0

Вз. 32,1 34,5 37,9 35,1 139,6

В4 33,9 34,9 36,1 37,4 142,3

К II 125,8 132,2 144,0 142,9 544,9

Используя данные таблицы 3, вычисляются суммы согласно формулам

(¿1

к т к т

=Их2; <ъ=Ь1х2;

1=1 2

1 = 1 ] = 1

1=1

04

где к - количество столбцов, т - количество строк.

Согласно данным таблицы 3, соответствующие суммы принимают значения:

4 4

= УУг2 =

г1 =

1=1 ]=1

х'2 = 18691,71; (}2=1!х?

= 18614,7225;

т /К\

= 18625,6125; & = 18557,25.

Вычисленные значения сумм используются для нахождения оценки дисперсий

, Q1 + Q4-Q2- 8,625 Б22 = п * „ ^ =—— = 0,958; 52

(к - 1)(т - 1) 9

(¡2 - & 57,473

к - 1 (¿3 - (¿4 68,3625

3

= 19,158;

С2 _ 13_^4

¿В = -1

т-1

3

= 22,788.

Влияние фактора А с достоверностью а признается значимым, если выполняется условие

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

-Р2>ра(/1.Г2),

^(Л

где ¡1 = к- 1,/2 = (к- 1)(т- 1),Ра(/1,/2) критическое значение критерия Фишера.

Используются оценки дисперсий для проверки условия при уровне значимости а = 0,05, [1 = 3,Г2 = 9

19,99 > 3,86.

Таким образом, влияние фактора А с достоверностью а = 0,05 признается значимым.

Влияние фактора В с достоверностью а признается значимым, если выполняется условие

-£>Ра(/1,Г2),

где ¡1 = к - 1,/2 = (к - 1)(т - 1),Ра(/1,/2) крити ческое значение критерия Фишера.

Используются оценки дисперсий для проверки условия при уровне значимости а = 0,05, ^ = 3.Г2 = 9

23,787 > 3,86.

Таким образом, влияние фактора В с достоверностью а = 0,05 признается значимым.

Приведенный анализ предполагал независимость факторов А и В.

Для оценки влияния взаимодействия факторов А и В вычисляется дополнительная сумма

к т п 4 4 3

= !!!^ = !!!^ = 56384,9,

1 = 1 ¡ = 1 у=1

где

1 = 1 ¡=1 у=1

3

У=1

является средним из п параллельных наблюдений, т.е. при каждом сочетании факторов А и В на уровнях А],ВЬ соответственно необходима серия наблюдений х^^ Хц2, —, х^п.

Для оценки влияния взаимодействия факторов А и В вычисляется дисперсия

2 _ _ 56384,9 - 3 • 18691,71

= тЩ-Г) = 16~2

= 9,68,

и проверяется значимость взаимодействия факторов А и В критерием

пБО

С2 > Ъ(/1'Г2),а = 0,05, А = (к-1)(т- 1)

^АВ

= 9,/2 = тк(п-1) = 32. В исследуемом процессе выполняется условие 3 • 0,958

9,68

= 0,2969 < 2,5.

Таким образом, можно сделать вывод, что взаимодействие факторов А и В является фактором незначимым для урожайности.

Немаловажную роль в исследованиях специалиста - агронома имеет корреляционный анализ. Корреляционный анализ позволяет оценить силу влияния заданного фактора на изучаемый процесс [1,2,3].

Задача исследования состояла в том, чтобы выяснить, урожайность каких сельскохозяйственных культур в Самарской области наиболее зависима от природных условий, т.е. от среднего значения температуры в вегетативный период и от среднего значения количества осадков в этот же период. Данные представлены в таблице 4.

2

1=1

((¡Г\ СибАК

^^ Журнал «Инновации в науке» www.sibac.info_№ 1 (62), 2017г.

Таблица 4.

Средняя урожайность культур, природные условия

Средняя урожайность в ц/га Природные условия

Среднее значение Среднее значение

Год Яровая пше- Подсол- Овощи Овес температуры количества осад-

ница нечник воздуха (апрель/сентябрь) ков (апрель/сентябрь)

2005 8,7 8,9 272,39 10,5 16,1 29,3

2006 9,6 8,3 283,51 10,3 15,8 58,5

2007 11,4 8,2 273,20 12,6 16,4 57,2

2008 14,2 9,2 277,20 15,5 16,7 43,8

2009 13,1 8,6 271,90 17,2 16,6 32,9

2010 10,0 7,4 148,90 8,5 19,7 15,3

2011 16,3 12,0 230,30 19,6 16,1 75,6

2012 13,5 12,4 262,10 13,4 18,5 35,0

2013 16,1 14,9 255,40 14,2 17,2 58,2

2014 17,5 11,9 263,00 16,9 16,5 10,1

2015 14,5 11,1 257,40 17,6 17,0 11,5

Пусть Уг - средняя урожайность яровой пшеницы, У2 - средняя урожайность подсолнечника, У3 -средняя урожайность овощей, У4 - средняя урожайность овса, Хг - среднее значение температуры воздуха, Х2 - среднее значение количества осадков.

Анализ зависимости между случайными величинами Уг и Хг, Уг и Х2 с одновременной оценкой степени неслучайности их совместного изменения есть корреляционный анализ. Изменение случайной величины Уг, соответствующее изменению случайной величины Хг (или Х2), разбивается на две составляющие - стохастическую, связанную с неслучайной зависимостью Уг от Хг (или Х2), и случайную, связанную со случайным характером поведения У1 и Х1 (или Х2 ). Стохастическая составляющая связи между Уг и Хг (или Х2) характеризуется коэффициентом корреляции. Коэффициент корреляции показывает, насколько связь между случайными величинами близка к строго линейной. Следует помнить, что коэффициент корреляции не учитывает возможной криволинейной связи между случайными величинами.

Выборочной оценкой коэффициента корреляции является случайная величина

г =

Ii?=l(Xi -x)(yj — у)

где

= — ; у = — ^yi;n — объем выборки.

=1 =1

При малых объемах выборки (п < 15) лучшей оценкой коэффициента корреляции является оценка [5]

1 — г2

2(n — 3)

Выборочный коэффициент корреляции для переменных У1 и Х1

3,3708

=

^13,4856 • 85,9819

= —0,099.

Оценка коэффициента корреляции

г* = —0,099

1 +

1 — 0,009801

2(11 — 3)

= —0,105.

Проверяется нулевая гипотеза о равенстве нулю модуля коэффициента корреляции Н0: Ipl = 0 при альтернативной гипотезе Н: Ipl Ф 0.

Корреляция между случайными величинами признается значимой, если Irl > га, где га - критическое значение.

Критическое значение r0fi5.11 = 0,602. Таким образом, |—0,0991 < 0,602, что говорит о том, что гипотеза о значимости корреляции между случайными величинами У1 и Х1 отклоняется.

Выборочный коэффициент корреляции для переменных У1 и Х2

=

29,8165

44742,948 • 85,9819

= 0,0467.

Оценка коэффициента корреляции

г* = 0,0467

1+

1 — 0,002180

2(11 — 3)

= 0,0496.

Критическое значение г0о5.1г = 0,602. Таким образом, 10,04961 < 0,602, что говорит о том, что гипотеза о значимости корреляции между случайными величинами У1 и Х2 отклоняется.

Используя множественную корреляцию, установим существенность взаимосвязи переменной У1 с совокупностью переменных Хг, Х2. Выборочный

множественный коэффициент корреляции определим через парные коэффициенты корреляции

ГУ1,Х1,Х2

ГУ1,Х1,Х2 '

ГУ1,Х1 + ГУЪХ2

"Э • у ■ у .у

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

^ 'У1,Х1 'Х2,У1 'Х1,Х2

1 - Г2

Х1,Х2

0,009801 + 0,00218089 - 2 ■ (-0,099) ■ 0,0467 ■ (-0,432)

= 0,0098,

1 - 0,1868

с учетом того, что

-109,288

^13,4856 • 4742,948

= -0,432.

Для проверки гипотезы Н0: 1р1 = 0 при альтернативной гипотезе Н^ 1р1 Ф 0 используется статистика

¥ =

^У1,Х1,Х2 ^ к-

1 - г2 к - 1'

У1'Х1,Х2

где к - число переменных.

Расчетное значение статистики

F =■

0,0098 11 - 3

1 - 0,0098 3 -1

= 0,03968.

Критическое значение статистики Р0,05;8;3 = 0,726.

Таким образом, ,Р < Р0 05.8.3 и соответствующая корреляция признается незначимой.

Таким образом, делается вывод о том, что между средней урожайностью яровой пшеницы и погодными факторами: температурой воздуха и количеством осадков, нет тесной линейной зависимости.

Аналогично устанавливается корреляционная зависимость между случайными величинами У4 и

Проведенный анализ дает возможность сделать вывод, что линейная зависимость между погодными факторами, которые определяет температура воздуха и среднее количество осадков, и урожайностью сельскохозяйственной культуры, наблюдается только у овощей.

Рассмотренные методы дисперсионного и корреляционного анализа позволяют выявить наличие связи между случайными величинами и оценить силу этой связи. Кроме решения перечисленных задач, на практике часто представляет интерес функциональный вид связи между случайными величинами. Следует помнить, что любая функция распределения полностью определяется своими параметрами [3,5]. Изменение функции распределения случайной величины У от случайной величины X, заданной зависимостью

где ц1у - среднее значение переменной У, называется регрессией У по X.

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной У. Методы регрессионного анализа позволяют выбрать математическую модель и оценить адекватность отражения моделью установленной взаимосвязи случайных величин.

По выборочным данным можно найти только оценку истинной регрессии, содержащую ошибку, связанную со случайностью выборки. В основе регрессионного анализа лежит принцип наименьших квадратов, в соответствии с которым в качестве уравнения регрессии выбирается функция, доставляющая минимум сумме квадратов отклонений 5 = Т,?=1[у1 - [(х)2. Вид функции [(х) определяется исходя из общего графического анализа зависимости между У и X .

Схема регрессионного анализа включает в себя: нахождение выборочной оценки истинной регрессии, оценки статистической значимости выборочной регрессии в сравнении с безусловным разбросом значений у^, характеризующимся дисперсией, определение доверительных областей с заданной вероятностью включающих в себя истинную регрессию.

В качестве примера, рассмотрим построение множественных регрессионных моделей, показывающих зависимость урожайности сельскохозяйственных культур Самарской области от погодных условий в виде среднего значения температуры воздуха и среднего значения количества осадков в вегетативный период.

Корреляционный анализ позволил сделать вывод о том, что урожайность овощей имеет линейную зависимость от погодных условий. Таким образом, регрессионная модель примет вид у3 = Р1 + ¡2х1 + ¡3х2 + е1. Методом наименьших квадратов получим оцененное уравнение множественной линейной регрессии у3= ¡1 + (^2х1 + ¡¡3х2. Согласно методу наименьших квадратов составляется система нормальных уравнений, которая позволят определить оценки параметров уравнения регрессии, соответствующие минимальным отклонениям

^1у = [(Х),

^¡1+ ¡2!*П+ ¡3!*21 = !У31

¿=1 ¿=1 ¿=1

п п п п

¡1! Хц Хи Хц*21 = ! Уз1хц.

=1 =1 =1 =1

п п п п

¡1 ! *21 +Р2 ! ХцХ21 3 ! Х^ = ! Уз^21

=1 =1 =1 =1

Согласно данным таблицы 4 составляется система нормальных уравнений

+ 186,6$2 + 427,4§3 = 2795,30 186,6¡¡1 + 3178,9@2 + 7140,97¡3 = 47086,39 1427,40¡¡1 + 7140,97¡2 + 3178,9рз = 110623,3

%1,Х2

= 663,476 = -24,24 = 0,047.

Оцененное уравнение регрессии примет вид уз = 663,476 - 24,24х1 + 0,047х2.

Далее, следует выяснить какая часть дисперсии переменной у3, объясняется оцененным уравнением регрессии, т.е. определить коэффициент детерминации Я2

Я2

Уаг(уз) Уаг(уз)'

где Уаг(уз) и Уаг(уз) - выборочные дисперсии, которые вычисляются по формуле

1 П

Уаг(уз) =~У (уз1 п

1=1

Уз)2, Уаг^уз)

П

= ПЕ(Уз>-Уз?.

=1

Учитывая данные таблицы 5, определяют коэффициент детерминации Я2.

Таблица 5.

Урожайность овощей согласно эмпирическим данным и согласно данным модели

узь 272,39 283,51 273,2 277,2 271,9 148,9 230,3 262,1 255,4 263,0 257,4

уз1 274,59 283,23 268,63 260,73 262,64 186,67 276,76 216,68 249,3 263,9 251,9

Выборочные дисперсии равны 14204

Уаг(уз) = 1291,27;

8130,863 Уаг(уз) =---= 743,715.

Тогда коэффициент детерминации Я2 743,715

Несмещенная оценка дисперсии случайных ошибок а2 имеет вид

=1

1

•6099,163 = 762,39,

11 - 3

Я2 =

1291,27

= 0,576,

т.е. 57,6% дисперсии у3 объясняется оцененным уравнением регрессии.

Скорректированный коэффициент детерминации Я2 рассчитывают по формуле

где ЬП=1 £12 - сумма квадратов остатков, п - число наблюдений, к - число коэффициентов в модели.

Несмещенная оценка дисперсии Б2 используется для расчета стандартных ошибок коэффициентов и стандартной ошибки регрессии.

Стандартная ошибка регрессии вычисляется по формуле

Яай] = Я

к - 1

= 0,576

3-1 11-3

п - к

(1-Я2) =

БЕЕ = ^Б2 =

(1 - 0,576) = 0,47,

N

ТП Е2 Ь 1 = 1 ЬI

п - к

= 27,63.

где Я2 - коэффициент детерминации, п - число наблюдений, к - число коэффициентов в модели. Уменьшение значения скорректированного коэффициента детерминации может указывать на то, что одна из переменных в модели незначимо влияет на уз.

Высокий скорректированный коэффициент детерминации Я^ не говорит о том, что верно выявлена причинно - следственная связь между переменными и не гарантирует отсутствия смещения оценок из-за некорректной спецификации.

Поэтому стоить обращать внимание на другие характеристики качества уравнения регрессии.

Согласно предпосылкам модели, случайные ошибки характеризуются постоянным разбросом или постоянной дисперсией, и данную дисперсию необходимо оценить, так как дисперсия - это характеристика влияния случайных факторов модели.

Стандартная ошибка регрессии измеряет среднюю величину ошибки модели. Данная характеристика точности модели позволяет сравнивать между собой разные модели. Чем меньше стандартная ошибка регрессии, тем лучше модель, т.е. модель точнее.

Достоверность модели также оценивается по средней ошибке аппроксимации

П

Их-11уз1 - узп 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ё=_ \ ^—^ • 1000% = _ • 0,78649 • 100% п уз 11

=1

= 7,14 %.

Модели, имеющие среднюю ошибку аппроксимации менее 5%, считаются хорошими, менее 15% -удовлетворительными, а более 15% - неудовлетворительными.

Следует провести тестирование некоторых гипотез о качестве модели.

Начинают с теста на значимость коэффициента регрессии.

Рассматриваемая модель

Уз= ¡1+ ¡2^1 + ¡3X2 + £1.

Тестируемая гипотеза Н0: ¡2 = 0 - коэффициент при переменной х1 равен нулю, т.е. переменная х1 не оказывает значимого влияния на переменную у3.

Альтернативная гипотеза Н^ ¡2 Ф 0, т.е. переменная х1 оказывает значимое влияние на переменную У3.

На первом шаге тестирования значимости коэффициента регрессии необходимо вычислить расчетное значение - статистики

^расч

¡¡к

расч =

24,24

7,5

= -3,23

где БЕ (¡2) стандартная ошибка коэффициента ¡2 которая определяется по формуле

$Е(р2) =

N

Б2

N

762,39

13,4856

= 7,5.

На втором шаге выбирается уровень значимости, т.е. вероятность ошибки первого рода, вероятность отклонить гипотезу Н0, если на самом деле она верна (а = 0,05).

На третьем шаге определяют критическое значение статистики из таблиц - распределения Сть-юдента [4], которое зависит от уровня значимости а и числа степеней свободы, которое равно (п - к)

Ькр = 2,37, а = 0,05, п- к = 8.

На четвертом шаге сравнивается расчетное и критическое значение Ь - статистик. Если |£расч| < Ькр, то гипотезу Н0 нет оснований отклонить. В этом случае делают вывод о том, что переменная х1 не оказывает значимого влияния на переменную у3. Коэффициент при переменной х1, в данном случае, незначим.

В рассматриваемом случае |£расч| > Скр, следовательно, переменная х1 оказывает существенное влияние на переменную у3.

Доверительный интервал для оценки коэффициента регрессии строится согласно формуле

п—к п—к

-24,24 - 2,37 • 7,5 < ¡2 < -24,24 + 2,37 • 7,5,

42,015 < ¡2< -6,47,

где ¡к - оценка коэффициента ¡к, Ьп—к - табличное значение статистики, 5Е(@к) - стандартная ошибка коэффициента ¡к.

Доверительный интервал - это интервал, внутри которого истинное значение оцениваемого коэффициента ¡к находится с некоторой заданной вероятностью.

Аналогично оценивается параметр ¡3.

Тестируемая гипотеза Н0: ¡3 = 0. Альтернативная гипотеза Н^ ¡3 Ф 0.

Расчетное значение критерия

_ ¡3 _ 0,047 1расч = БЁЩ = 00058

= 0,81,

где

ЗЕ(&) =

N

Б2

Т,(х21 х2)

N

762,39

4742,948

= 0,0058.

< £кр, следова-

В рассматриваемом случае |£расЧ| тельно, переменная х2 не оказывает существенное влияние на переменную у3.

Доверительный интервал для оценки коэффициента регрессии строится согласно формуле

¡3 - 10,058 • БЕЦэ) <^<¡3 + 10,058 • 5Е(Ъ),

0,047 - 237 • 0,0058 < ¡3 < 0,047 + 2,37 • 0,0058, 0,033 < ¡3 < 0,06,

где ¡3 - оценка коэффициента ¡3, 10 05,8 - табличное значение статистики, 5Е(@3) - стандартная ошибка коэффициента ¡3.

В случае множественной регрессии недостаточно тестировать гипотезу для отдельной переменной. Возникает необходимость тестирование значимости уравнения в целом.

Рассматриваемая модель

У3= ¡1+ ¡2X1 + ¡3X2 + £1.

Тестируемая гипотеза Н0: ¡2 = ¡3 = 0, т.е. переменные х1, х2 не оказывают значимого влияния на переменную у3 или факторы, включенные в модель не существенны.

Альтернативная гипотеза ^: хотя бы одна из переменных х1, х2 оказывает значимое влияние на переменную у3.

Алгоритм проведения теста следующий.

На первом шаге вычисляется расчетное значение F статистики

Я2

п-к

F =

Грасч 1-Я2 к-!

Р =

расч

0,576 11 -3

0,576 3 - 1

= 5,43,

где Я2 - коэффициент детерминации, п - число наблюдений модели, к - число коэффициентов модели.

На втором шаге выбирается уровень значимости а = 0,05.

На третьем шаге находится критическое значение F - статистики из таблиц ,Р - распределения

2

2

Фишера [4], которое зависит от уровня значимости а и числа степеней свободы, которые равны (п - к) и (к-1)

РКр = 4,46.

На четвертом шаге сравниваются расчетное и критическое значение Р - статистик. Если Ррасч < Ркр, то нулевая гипотеза Н0 не отклоняется, т.е. все переменные х1,х2 не оказывают значимого влияния на переменную уз. В данном случае уравнение регрессии называется незначимым.

Так как Ррасч > Ркр, то уравнение регрессии называется значимым.

Полученная модель удовлетворительная, чтобы модель была хорошая, изменяются значения параметров, стоящих при переменных х1,х2 в пределах найденных интервалов для ¡32 и ¡Зз с целью улучшения качества модели. Особое внимание уделяется изменению параметра ¡32, которое имеет наибольшую значимость в построенной модели.

Аналогично строятся и оцениваются модели регрессии, показывающие зависимости изменения средних значений переменных у1, у2, у4 от изменения значений регрессоров х1,х2.

Таким образом, в работе рассмотрены методы математической статистики, имеющие наибольшее значение в практической деятельности агронома -это методы дисперсионного, корреляционного и регрессионного анализов.

Список литературы:

1. Ван дер Варден Б.Л. Математическая статистика / Пер. с нем.-М.: ИЛ, ИЛ, 1960.- 436 с.

2. Закс Л. Статистическое оценивание / Пер. с нем.-М.: Статистика, 1976.- 598 с.

3. Крамер Г. Математические методы статистики / Пер. с англ.-М.: Мир, 1975.- 648 с.

4. Келли Т.Л. Статистические таблицы / Пер. с англ..-М.: ВЦ АН СССР, 1966.- 193 с.

5. Кобзарь А.И. Прикладная математическая статистика. Для инженеров и научных работников.-М.: ФИЗМА-ТЛИТ, 2006.-816 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.