Научная статья на тему 'Программное обеспечение многофакторного дисперсионного анализа'

Программное обеспечение многофакторного дисперсионного анализа Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
558
72
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИСПЕРСИОННЫЙ АНАЛИЗ / ОБЩИЙ СЛУЧАЙ / ПРОГРАММНАЯ РЕАЛИЗАЦИЯ / VARIANCE ANALYSIS / GENERAL CASE / SOFTWARE IMPLEMENTATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Джангаров А.И., Ахметова Х.А.

Объектом исследования в данной статье стала довольно важная тема описания такого статистического метода, как дисперсионный анализ. Дело в том, что многие программные продукты рассматривают, в основном, случай, когда число факторов не более двух. За исключением такого мощного продукта, как SPSS Statistica. То же можно отнести и к научным трудам, где очень редко рассматривается и описывается метод дисперсионного анализа с большим количеством факторов (зачастую, когда речь заходит о многофакторном дисперсионном анализе, также рассматривается два фактора). Поэтому был произведен анализ имеющегося математического аппарата, предложена собственная идея реализации данного статистического метода и создан программный продукт, демонстрирующий его работу.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Джангаров А.И., Ахметова Х.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Software for multivariate analysis of variance

The object of research in this article has become a rather important topic of describing such a statistical method as analysis of variance. The fact is that many software products consider, basically, a case when the number of factors is not more than two. With the exception of such a powerful product as a SPSS Statistica. The same can be attributed to scientific works, where the method of analysis of variance with a large number of factors is very rarely considered and described (often, when it comes to multifactorial analysis of variance, two factors are also considered). Therefore, an analysis was made of the existing mathematical apparatus, a proprietary idea was proposed for the implementation of this statistical method, and was created a software product to demonstrate how its work.

Текст научной работы на тему «Программное обеспечение многофакторного дисперсионного анализа»

Программное обеспечение многофакторного дисперсионного анализа

А.И. Джангаров, Х. А. Ахметова Чеченский государственный университет, г. Грозный

Аннотация: объектом исследования в данной статье стала довольно важная тема описания такого статистического метода, как дисперсионный анализ. Дело в том, что многие программные продукты рассматривают, в основном, случай, когда число факторов не более двух. За исключением такого мощного продукта, как SPSS Statistica. То же можно отнести и к научным трудам, где очень редко рассматривается и описывается метод дисперсионного анализа с большим количеством факторов (зачастую, когда речь заходит о многофакторном дисперсионном анализе, также рассматривается два фактора). Поэтому был произведен анализ имеющегося математического аппарата, предложена собственная идея реализации данного статистического метода и создан программный продукт, демонстрирующий его работу.

Ключевые слова: дисперсионный анализ, общий случай, программная реализация.

Метод многофакторного дисперсионного анализа является одним из важнейших инструментов в статистике и призван дать оценку влияния, как одного фактора, так и нескольких на исследуемые выходные переменные (признаки).

Актуальность данного статистического метода определяется тем, что область применения дисперсионного анализа достаточно широка. Его применяют в медицинских исследованиях, в химических экспериментах, в инженерных исследованиях, в методике воспитания физической дисциплины и т.д. Современные технологии позволяют достаточно быстро реализовать данный метод и получить результаты с довольно низкой вероятностью ошибки. Это способствует росту производительности во многих сферах нашей жизни и позволяет быстрее принимать верные и наименее рискованные решения [1].

Цель данной работы состояла в разборе, изучении данного статистического метода и создании программы, реализующей многофакторный дисперсионный анализ в среде программирования Delphi.

Подробно были рассмотрены и изучены различные математические модели, а также предложена собственная модель для реализации данного метода.

Многофакторный дисперсионный анализ

Алгоритм проведения дисперсионного анализа выглядит следующим образом:

1) Разбиение сумм квадратов;

2) Нахождение и оценка дисперсий;

3) Оценка действия фактора.

Рассмотрим одновременное действие факторов Л-! и Х2 . Соответствующая таблица (таблица 1) хранит в себе результаты наблюдений из серии параллельных измерений и1 х и2 х т при многочисленных опытах над экспериментальными данными у, где] - исследуемый уровень изменения первого фактора х1(_/ = 1, 2, ..., м1); g - исследуемый уровень второго фактора х2(g = 1, 2, ..., и2); I - порядковый номер исследования серии наблюдений jg-м в случае, когда факторов несколько (I = 1, 2, ..., т]§) [2]. Прежде всего

необходимо вычислить суммы результатов наблюдений для всех возможных вариантов сочетания факторов х1 и х2 при исследуемых уровнях j и g:

1 т

У = ' 'У jgl т 7=1

далее необходимо вычислить средние арифметические сумм у}, для фактора

1 и2 т 1 «2

У Уjg'=—Е

у jg

и2т g=1 1=1 «2 g=1

средние арифметические сумм уё для фактора х2

1 Щ т 1 Щ

У ё ' • ' •У )ё1 ' •У )ё щт^ ^ щ ^

и наконец - общее среднее арифметическое всех сумм по строкам таблицы 1.

Таблица № 1

Результаты исследований

Уjll

У

j 12

Ул1

У Цт

Уз 21

У} 22

Уз 2/

У - 2т

Уjgl Уjg 2

У-ё1

У

jgm

У -«2 1

У 2 У

У

У,-

и,

Уи111 Уи112

Уи11/

У

щ1т

Уи121 У«122

Уи12/

У

«12т

Уиlg1 УUlg 2

Уи^/

У

Ulgm

У«1«21 У«^2

У«1«2/ Уиит

У«1

1 « т

Уg=—ЕЕ у

«т1=1 ■

У1

У 2

У£

У«

1 « «2 т

У=—ЕЕЕ Уjg/

«1«2 т -=1 g=1 /=1

2

Такое распределение наблюдений приводит к тому, что возникновение грубых ошибок в наблюдениях зависит от дисперсии < . Подобная тенденция при исследовании экспериментальных данных возникает под действием фактора х1 х2 (фактор взаимодействия) с соответствующей дисперсией < [3].

Разбиение сумм квадратов

Так как основная задача дисперсионного анализа заключается в оценке влияния факторов на выходную переменную посредством разбиения сумм квадратов отклонений исследуемых данных, выполним данное действие для суммы квадратов от общего среднего:

Щ и2 т

$>=Х X Х( , -у )2=

, =1 В=1 I=1

и1 и2 т

=ХХХ(Ув1 - +у В - у}+у} - у.в+уВ- у+у - у)2 =

,=1 В=1 1=1

и1 и2 т и1 и2 т

=Х X X (, - у )2+Х X X (у,-у )2+

,=1 в=1 -=1 ,=1 В=1 -=1

и1 и2 т и1 и2 т

+ХХХ( уВ - у)2+ХХХ( - у,- уВ+у)2 =

,=1 2=1 1=1 ,=1 2=1 1=1

= Бв + £Х + £Х + £ХХ .

здесь S0 - искомая сумма квадратов, характеризующая распределение наблюдений под влиянием фактора взаимодействия;

Se - искомая сумма квадратов, характеризующая распределение всех изолированных данных у]§1;

^^ - сумма квадратов отклонений (по строкам таблицы 1). 8Х/ (и2т)

характеризует распределение данных, с учетом влияния «случайного» фактора х1;

БХ2 - сумма квадратов отклонений (по столбцам таблицы 1). БХ2/(и1т)

характеризует распределение усредненного значения наблюдений по столбцам с учетом влияния «случайного» фактора х2;

1

5хх2 - сумма квадратов отклонений (по строкам и по столбцам таблицы 1). характеризует распределение усредненного значения наблюдений

с учетом влияния фактора х*1, х и фактора, характеризующего их взаимодействие [4].

Нахождение и оценка дисперсий

Все перечисленные ранее суммы 50, Б£, Бх1, £ , 5, способны предоставить оценку искомой дисперсии, если произвести деление каждой из них на соответствующее число степеней свободы (количество значений в итоговом вычислении данных наблюдений) у0, Уе, Ух1, V , [5]:

1) дисперсия по всем М = «1«2т наблюдениям распределения данных вычисляется следующим образом:

1 «1 «2 т

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

8~0 {У}=М~г ЕЕЕ( У- У)2

м —1,=1 g=1 /=1

,=1 g=1 /=1

соответствующие степени свободы v0 = «1«2т -1 = М -1;

2) дисперсия распределения изолированных наблюдений:

1 «2 Л О

[у] = — Е Е—Е (У-1 - У )2 =---

£ ««2 ^ т-11=1 - - u1u2(m-1) £ соответствующие степени свободы ve = «1«2(т -1);

3) дисперсия распределения данных под действием «случайного» фактора х1:

™1 5

2 ( } «2т =\2 5х, 2 2 2

^ {у}=-^-г Е(у-- у) = —"г + «2т< + т<-«1 1 -=1 «1 1

1

соответствующие степени свободы у^ = и1 -1;

4) дисперсия распределения данных под действием «случайного» фактора х2:

и2

2 ( \ ЩШ ^^ — 2 ^х9 2 2 2

52 {у} = —^ (у* - у) = —-- «о-. + ЩШ&2 + ШО,,,

и2 1 Я=1 Щ2 1

б 1 Х2

2 х *=

соответствующие степени свободы у = и2 -1;

5) дисперсия распределения наблюдений с учетом влияния фактора фактора, характеризующего их взаимодействие:

М=щ _ ^ _ 1) § §(у«- у - у+у )2

соответствующие степени свободы ух^ = (щ - 1)(и2 -1).

Также существует специальная проверка правильности расчёта числа степеней свободы [6]:

у0 = У б + Ух, + ух2 + Ух,х2-

Оценка влияния факторов и их взаимодействия

Наконец, когда произведены все необходимые результаты расчётов, полученные данные необходимо проанализировать и подвести итог. В методе многофакторного дисперсионного анализа используется так называемый критерий Фишера. Если же исследуется влияние только одного фактора - используется критерий Стьюдента [7].

Последовательность действий следующая: 1) Оценивается действие факторов х1 и х2 при помощи соответствующих дисперсий:

2 1 / 2 2 2 \ 1 /2 2 \ <х=1 --(^ - - т<х2 ) --(^ - ) ,

1 «2т «2 т

2 1 / 2 2 2 \ 1 / 2 2 \ <х2 --(¿х2 - < - т<х1х2 ) --(¿х2 - ^х1х2 )

2 «1т «1т

Полученные результаты необходимо правильно интерпретировать и подвести

2 2 2 2 итог: если отличие ¿х от ¿х х и ¿х от ¿х х значимо и

= 5х1 /¿х1х2 > (Vx1 ; Vx1x2 ) , _ ¿х2 /¿х1х2 > (Vх2 ; Vx1x2 ) ,

то говорят, что действие факторов х1 и х2 значимо.

2) Оценивается действие фактора х1х2 с соответствующей дисперсией:

2 1 / 2 2\ 1 / 2 2\ < ~ -(- < (^х, - Е . 12 т т

Действие фактора взаимодействия признается значимым, если разница в зна-

22

чениях ¿хх и 5* также значима, т. е. если

хт х^ о

-12 = ¿ххх2!55 е > (vx1x2 ; vе) .

В обратном случае принято считать, что фактор взаимодействия оказывает несущественное влияние [8].

Общий случай

Наконец, речь пойдет о том, как производить расчеты в случае, когда число факторов больше двух. На самом деле, какого-то существенного отличия двухфакторного дисперсионного анализа от многофакторного нет. Логика рассмотрения данного метода при случае, когда число факторов больше двух лишь усложняется и не претерпевает серьезных изменений [9].

Пусть сначала имеется один фактор и т уровней с количеством опы-

тов и1, ...ип в сериях соответственно.М = Хи. При этом формулы разбие-

]=1

ния сумм принимают следующий вид:

^ и т ^

«0=ХХ У2 — ХХ у

]=1 г=1

ит

V ]=1 ^=1 У

(1)

1

т

^=ХХУ2, -Хм Ху

] =1 г=1 ] =1 м

V г=1 У

(2)

^ т \

*=Х^ Ху

_ _ " ]г

]=1 т] V г=1 У

2 _ / Л

' и т

ит

ХХ у

V ]=1 г=1 У

(3)

Все прочие подсчеты проводятся как в случае равных чисел наблюдений в сериях опыта. Отличие состоит лишь в нахождении числа степеней свободы. Оно будет следующим: N - т.

Действие каждого из факторов будем рассматривать отдельно. Чтобы это сделать, необходимо вносить данные наблюдений ячейки в таблицы, которые соответствуют различным уровням данного фактора (с учетом того, что других факторов попросту нет). Затем, после произведенных действий, воспользуемся формулами (1) - (3).

Для того, чтобы проанализировать полученные результаты и получить информацию о значимости, как каждого фактора в отдельности, так и факторов взаимодействия, необходимо рассматривать экспериментальные наблюдения, соответствующие всевозможным уровням. И если имеется пара факторов, один из которых имеет m уровней, а другой r уровней, то создается еще один новый фактор, характеризующий их взаимодействие. Затем снова применяются формулы (1) - (3) [10].

Программная реализация

Разработанная в среде программирования Delphi программа предназначена для выявления значимости влияния факторов по данным наблюдений.

Входными данными программы служат результаты проведенных опытов, которые записываются в матрицу, а также количество факторов. Количество задаваемых опытов варьируется от 3 до 10. Что касается факторов, их можно задавать от 2 до 4. На выходе, программа предоставляет информацию о значимости влияния факторов, как по отдельности, так и их взаимодействия.

Программа разработана на основе представленного выше алгоритма, реализующего метод многофакторного дисперсионного анализа, с помощью критерия Фишера.

На первом шаге, в построенной таблице, при заданном количестве факторов и количестве опытов, вводятся данные наблюдений. Затем, по этим наблюдениям организуется цикл, производящий разбиение сумм. С полученными отсортированными результатами, программа организует следующий цикл, суть которого заключается в оценке и вычислении дисперсий. После произведенных расчетов, программа вычисляет значение критерия Фишера и на последнем шаге, сравнивает его со стандартным табличным значением,

при полученных степенях свободы и при заданном уровне значимости. На основании данного сравнения, программа выводит результат, в котором содержится главный итог - оценка значимости факторов и их взаимодействия.

Окно ввода исходных данных (для удобства реализована возможность загрузки данных из файла) выглядит следующим образом:

Введите количество измерений Введите число факторов :

Опыты Фактор А ¡Фактор В Фактор С |Фактор О

1 12,2 10,4 8,6 6,12

2 15,11 13,5 11,9 10,02

3 8,6 7,13 6,9 6,2

« □

Сохранить Загрузить Готово

Рис. 1. - Окно ввода данных

Итоги работы программы:

I ° I Mg

Итог работы программы

Оценка влияния факторов:

Фактор А оказывает влияние Фактор В оказывает влияние Фактор С оказывает влияние Фактор О оказывает влияние

Оценка взаимодействия факторов:

Взаимодействие факторов А и В значимо Взаимодействие факторов А и С значимо Взаимодействие факторов А и Р значимо Взаимодействие факторов В и С значимо Взаимодействие факторов В и О значимо Взаимодействие факторов С и О значимо

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Дисперсионный анализ является довольно важным и часто используемым статистическим методом, охватывающим задачи биологии, медицины, экономики и других наук. Благодаря современным программным продуктам (таким как Statistica, SPSS, в частности), процесс реализации данного метода занимает небольшое количество времени и усилий. Именно в этом, и в своем большом охвате всевозможных исследований, и состоит его востребованность.

В данной работе была рассмотрена и изучена теоретическая составляющая дисперсионного анализа. На ее основе была разработана модель общего случая и подход к реализации многофакторного анализа в среде программирования Delphi. Созданный алгоритм и интерфейс программы, способен дать нам ответ относительно влияния факторов, а также их взаимодействия, на исследуемые признаки.

Выход

Рис. 2. - результаты наблюдений

Заключение

Литература

1. Орлова А.И. Математика случая: Вероятность и статистика - основные факты. Издательство МЗ-Пресс, 2009. 234 с.

2. Ветров А.А., Ломовацкий Г.И. Дисперсионный анализ в экономике. Издательство: Статистика, 2007. 138 с.

3. Сидоренко Е.В. Методы математической обработки в психологии. Издательство: Речь, 2011. 304 с.

4. Ермолаев О.Ю. Математическая статистика для психологов. Издательство: МПСИ Флинта, 2009. 411 с.

5. Яковлев М. Я. Янгирова А. В. Метод и результаты численной оценки эффективных механических свойств резинокордных композитов для случая двухслойного материала. Инженерный вестник Дона. 2013. №2. URL: iv-don.ru/ru/magazine/archive/n2y2013/1639.

6. Уилкс С. Математическая статистика. Издательство: Наука, 2006. 374 с.

7. Magomedov I. A. Mezhieva A.I. Suleymanova M.A. Inzenernyj vestnik Dona (Rus). 2018. №4. URL: ivdon.ru/ru/magazine/archive/n4y2018/5334.

8. Rick Turner. Introduction to Analysis of Variance: Design, Analyis & Interpretation. SAGE Publications, Inc, 2001. 192 p.

9. Puntanen, Simo, Styan, George P. H., Isotalo, Jarkko. Matrix Tricks for Linear Statistical Models. Springer. 2011. 208 p.

10. Patrick Doncaster, Andrew Davey. Analysis of Variance and Covariance: How to Choose and Construct Models for the Life Sciences. Cambridge University Press. 2007. 288 p.

References

1. Orlova A.I. Matematika sluchaya: Veroyatnosf i statistika - osnovny'e fakty' [Mathematic of value: Probability and Statistics - Basic Facts]. Izdatelstvo MZ-Press, 2009. 234 p.

2. Vetrov A.A., Lomovaczkij G.I. Dispersionny'j analiz v e'konomike [Analysis of variance in economics]. Izda-tel'stvo: Statistika, 2007. 138 p.

3. Sidorenko E.V. Metody' matematicheskoj obrabotki v psixologii [Methods of mathematical processing in psychology]. Izda-tel'stvo: Rech', 2011. 304 p.

4. Ermolaev O.Yu. Matematicheskaya statistika dlya psixologov [Mathematical statistics for psychologists]. Izdatel'stvo: MPSI Flinta, 2009. 411 p.

5. Yakovlev M. Y. Yakovleva M. Y. Inzenernyj vestnik Dona (Rus). 2012. №2. URL: ivdon.ru/ru/magazine/archive/n2y2013/1639.

6. Uilks S. Matematicheskaya statistika [Mathematical statistics]. Izdatel'stvo: Nauka, 2006. 374 p.

7. Magomedov I. A. Mezhieva A.I. Suleymanova M.A. Inzenernyj vestnik Dona (Rus). 2018. №4. URL: ivdon.ru/ru/magazine/archive/n4y2018/5334.

8. Rick Turner. Introduction to Analysis of Variance: Design, Analyis & Interpretation. SAGE Publications, Inc, 2001. 192 p.

9. Puntanen, Simo, Styan, George P. H., Isotalo, Jarkko. Matrix Tricks for Linear Statistical Models. Springer. 2011. 208 p.

10. Patrick Doncaster, Andrew Davey. Analysis of Variance and Covari-ance: How to Choose and Construct Models for the Life Sciences. Cambridge University Press. 2007. 288 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.