Научная статья на тему 'Методика проверки гипотезы о нормальном распределении малой выборки в фармакологических исследованиях'

Методика проверки гипотезы о нормальном распределении малой выборки в фармакологических исследованиях Текст научной статьи по специальности «Математика»

CC BY
1553
100
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАТИСТИЧЕСКИЙ АНАЛИЗ / ВЫБОРОЧНЫЙ МЕТОД / ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ / ГРУППИРОВКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ / МОЩНОСТЬ СТАТИСТИЧЕСКИХ КРИТЕРИЕВ / НЕЦЕНТРАЛЬНОЕ РАСПРЕДЕЛЕНИЕ ХИ-КВАДРАТ / ПАРАМЕТР НЕЦЕНТРАЛЬНОСТИ / STATISTICAL ANALYSIS / SAMPLING METHOD / STATISTICAL HYPOTHESIS TESTING / GROUPING OF EXPERIMENTAL DATA / POWER OF STATISTICAL CRITERIA / DISTRIBUTION OF NONCENTRAL CHI-SQUARE / NONCENTRALITY PARAMETER

Аннотация научной статьи по математике, автор научной работы — Лямец Леонид Леонидович, Евсеев Андрей Викторович

Цель. Фармакологические исследования обычно являются дорогостоящими и проводятся в условиях ограниченного ресурсного и финансового обеспечения. Поэтому сформированные для исследования выборочные совокупности (выборки), как правило, имеют малый объем. Выборка условно считается малой, если ее объем не превосходит 30 единиц наблюдения. Типичной задачей статистического анализа выборки в фармакологических исследованиях является проверка гипотезы о нормальном распределении изучаемых признаков. Обоснование нормальности распределения признаков открывает возможности для использования параметрических методов статистического анализа. Для обоснования нормальности распределения исследуемых признаков может быть использован критерий согласия (хи-квадрат). В популярных учебных и специальных литературных источниках описаны теоретические положения и алгоритм реализации критерия согласия, в котором при осуществлении группировки экспериментальных данных первоначально используются равные по ширине интервалы, т.е. применяется равноинтервальная группировка. Для корректного применения критерия согласия численные значения абсолютных частот в интервалах группировки должны быть не менее пяти. В случае нарушения этого условия возникает необходимость производить перегруппировку и объединять интервалы, в которых абсолютные частоты малы. Это усложняет алгоритм реализации критерия согласия, влечет за собой дополнительные вычислительные и временные затраты. Для практической деятельности желательно иметь такие методики, в основе реализации которых лежат более простые алгоритмы. Очевидная проблемная ситуация определила цель теоретического исследования, которая состоит в разработке методики для реализации критерия согласия для малых выборок, вычислении мощности и ошибки второго рода для данного критерия. Методика. Проведено теоретическое обоснование возможности группировки выборочных значений с использованием четырех интервалов, для которых теоретические частоты одинаковы (равночастотная группировка). Рассмотрены особенности реализации критерия согласия при использовании равночастотной группировки экспериментальных данных. Проанализированы теоретические положения, лежащие в основе вычисления мощности (чувствительности) статистического критерия. Предложен алгоритм вычисления мощности критерия с использованием доступных современных информационных технологий. Результаты. Разработана и обоснована методика для проверки гипотезы о нормальном законе распределения признаков в малой выборке основанная на равночастотной группировке выборочных данных. Предложенная группировка имеет очевидные преимущества перед равноинтервальной группировкой. В предлагаемой методике, основанной на равночастотной группировке, объем вычислений меньше и сами вычисления проще, чем при равноинтервальной группировке. Унификация группировки и уменьшение количества вычислительных операций существенно упрощают алгоритмизацию и разработку программного обеспечения для автоматизации вычислений. В предложенной методике описан порядок вычисления мощности статистического критерия и показан практический пример автоматизации вычислений с использованием современных информационных технологий. Заключение. Разработанная методика позволяет существенно упростить вычисления, связанные с проверкой гипотезы о нормальном распределении исследуемых признаков в малой выборке и количественной оценкой мощности критерия. Обоснование нормальности распределения исследуемых признаков является необходимым условием для дальнейшего корректного применения параметрических методов статистического анализа. Методика может представлять практический интерес для научных работников, осуществляющих исследования в области фармакологии и использующих в своей работе статистические методы анализа экспериментальных данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лямец Леонид Леонидович, Евсеев Андрей Викторович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODS OF TESTING THE HYPOTHESIS OF NORMAL DISTRIBUTION OF A SMALL SAMPLE IN PHARMACOLOGICAL STUDY

Objective. Pharmacological research is usually expensive and is conducted with limited resources and financial support. Therefore, the sample sets (samples) formed for the study, as a rule, have a small volume. The sample is conventionally considered small if its volume does not exceed 30 units of observation. A typical task of statistical analysis of the sample in pharmacological studies is to check the statistical hypothesis about the normal distribution of the studied features. Substantiation of the normality of the distribution of features opens up opportunities for the use of parametric methods of statistical analysis. To justify the adequacy of the distribution of the studied features, the criterion of consent (Chi-square) can be used.Popular educational and special literature sources describe the theoretical provisions and the algorithm for the implementation of the criterion of consent, in which equal in width intervals are initially used for the implementation of the experimental data grouping, i.e. equidistant grouping is used. For correct application of the criterion of consent, the numerical values of absolute frequencies in the grouping intervals must count at least five. In case of violation of this condition, there is a need to regroup and combine the intervals in which the absolute frequencies are small. This complicates the algorithm of implementation of the criterion of consent, entails additional computational and time costs. For practical activities, it is desirable to have methods, the implementation of which is based on simpler algorithms. The obvious problem situation determined the purpose of the theoretical study, which is to develop a technique for the implementation of the criterion of agreement for small samples, the calculation of power and errors of the second kind for this criterion. Methods. The theoretical substantiation of the possibility of grouping the sample values using four intervals for which the theoretical frequencies are the same (equal frequency grouping) was carried out. The peculiarities of realization of the consent criterion using equal frequency grouping of experimental data were assessed. The theoretical positions underlying the calculation of the power (sensitivity) of the statistical criterion were analyzed. An algorithm for calculating the power of criterion using available modern information technologies was proposed. Results. A method for testing the hypothesis of the normal law of distribution of features in a small sample based on the equal frequency grouping of sample data, which has obvious advantages over the equal interval grouping, was developed and justified. In the proposed technique, based on the equal-frequency grouping, the amount of calculations is less and the calculations themselves are easier than with the equal-interval grouping. Unification of grouping and reduction of the number of computing operations significantly simplify algorithmization and development of software for automation of calculations. The proposed method describes the procedure for calculating the power of the statistical Chi-square test and shows a practical example of automation of calculations using modern information technology. Conclusion. The developed method makes it possible to significantly simplify the calculations associated with the test of the hypothesis of the normal distribution of the studied features in a small sample, and the quantitative assessment of the power of the criterion. Substantiation of the adequacy of the distribution of the studied features is a necessary condition for further correct application of parametric methods of statistical analysis. The technique can be of practical interest for scientists who carry out research in the field of pharmacology and use statistical methods of analysis of experimental datain their work.

Текст научной работы на тему «Методика проверки гипотезы о нормальном распределении малой выборки в фармакологических исследованиях»

УДК 519.253

МЕТОДИКА ПРОВЕРКИ ГИПОТЕЗЫ О НОРМАЛЬНОМ РАСПРЕДЕЛЕНИИ МАЛОЙ ВЫБОРКИ В ФАРМАКОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ © Лямец Л.Л., Евсеев А.В.

Смоленский государственный медицинский университет, Россия, 214019, Смоленск, ул. Крупской, 28

Резюме

Цель. Фармакологические исследования обычно являются дорогостоящими и проводятся в условиях ограниченного ресурсного и финансового обеспечения. Поэтому сформированные для исследования выборочные совокупности (выборки), как правило, имеют малый объем. Выборка условно считается малой, если ее объем не превосходит 30 единиц наблюдения. Типичной задачей статистического анализа выборки в фармакологических исследованиях является проверка гипотезы о нормальном распределении изучаемых признаков. Обоснование нормальности распределения признаков открывает возможности для использования параметрических методов статистического анализа. Для обоснования нормальности распределения исследуемых признаков может быть использован критерий согласия (хи-квадрат). В популярных учебных и

специальных литературных источниках описаны теоретические положения и алгоритм реализации критерия согласия , в котором при осуществлении группировки экспериментальных данных первоначально используются равные по ширине интервалы, т.е. применяется равноинтервальная группировка. Для корректного применения критерия согласия численные значения

абсолютных частот в интервалах группировки должны быть не менее пяти. В случае нарушения этого условия возникает необходимость производить перегруппировку и объединять интервалы, в которых абсолютные частоты малы. Это усложняет алгоритм реализации критерия согласия влечет за собой дополнительные вычислительные и временные затраты. Для практической деятельности желательно иметь такие методики, в основе реализации которых лежат более простые алгоритмы. Очевидная проблемная ситуация определила цель теоретического исследования, которая состоит в разработке методики для реализации критерия согласия для малых выборок, вычислении мощности и ошибки второго рода для данного критерия.

Методика. Проведено теоретическое обоснование возможности группировки выборочных значений с использованием четырех интервалов, для которых теоретические частоты одинаковы (равночастотная группировка). Рассмотрены особенности реализации критерия согласия при использовании равночастотной группировки экспериментальных данных. Проанализированы теоретические положения, лежащие в основе вычисления мощности (чувствительности) статистического критерия. Предложен алгоритм вычисления мощности критерия с

использованием доступных современных информационных технологий.

Результаты. Разработана и обоснована методика для проверки гипотезы о нормальном законе распределения признаков в малой выборке основанная на равночастотной группировке выборочных данных. Предложенная группировка имеет очевидные преимущества перед равноинтервальной группировкой. В предлагаемой методике, основанной на равночастотной группировке, объем вычислений меньше и сами вычисления проще, чем при равноинтервальной группировке. Унификация группировки и уменьшение количества вычислительных операций существенно упрощают алгоритмизацию и разработку программного обеспечения для автоматизации вычислений. В предложенной методике описан порядок вычисления мощности статистического критерия и показан практический пример автоматизации вычислений с использованием современных информационных технологий.

Заключение. Разработанная методика позволяет существенно упростить вычисления, связанные с проверкой гипотезы о нормальном распределении исследуемых признаков в малой выборке и количественной оценкой мощности критерия . Обоснование нормальности распределения исследуемых признаков является необходимым условием для дальнейшего корректного применения параметрических методов статистического анализа. Методика может представлять практический интерес для научных работников, осуществляющих исследования в области фармакологии и использующих в своей работе статистические методы анализа экспериментальных данных.

Ключевые слова: статистический анализ, выборочный метод, проверка статистических гипотез, группировка экспериментальных данных, мощность статистических критериев, нецентральное распределение хи-квадрат, параметр нецентральности

METHODS OF TESTING THE HYPOTHESIS OF NORMAL DISTRIBUTION OF A SMALL SAMPLE IN PHARMACOLOGICAL STUDY Lyamec L.L., Evseev A.V.

Smolensk State Medical University, 28, Krupskoj St., 214019, Smolensk, Russia Abstract

Objective. Pharmacological research is usually expensive and is conducted with limited resources and financial support. Therefore, the sample sets (samples) formed for the study, as a rule, have a small volume. The sample is conventionally considered small if its volume does not exceed 30 units of observation. A typical task of statistical analysis of the sample in pharmacological studies is to check the statistical hypothesis about the normal distribution of the studied features. Substantiation of the normality of the distribution of features opens up opportunities for the use of parametric methods of statistical analysis. To justify the adequacy of the distribution of the studied features, the criterion of consent (Chi-square) can be used.Popular educational and special literature sources describe the theoretical provisions and the algorithm for the implementation of the criterion of consent, in which equal in width intervals are initially used for the implementation of the experimental data grouping, i.e. equidistant grouping is used.

For correct application of the criterion of consent, the numerical values of absolute frequencies in the grouping intervals must count at least five. In case of violation of this condition, there is a need to regroup and combine the intervals in which the absolute frequencies are small. This complicates the algorithm of implementation of the criterion of consent, entails additional computational and time costs. For practical activities, it is desirable to have methods, the implementation of which is based on simpler algorithms. The obvious problem situation determined the purpose of the theoretical study, which is to develop a technique for the implementation of the criterion of agreement for small samples, the calculation of power and errors of the second kind for this criterion.

Methods. The theoretical substantiation of the possibility of grouping the sample values using four intervals for which the theoretical frequencies are the same (equal frequency grouping) was carried out. The peculiarities of realization of the consent criterion using equal frequency grouping of experimental data were assessed. The theoretical positions underlying the calculation of the power (sensitivity) of the statistical criterion were analyzed. An algorithm for calculating the power of criterion using available modern information technologies was proposed.

Results. A method for testing the hypothesis of the normal law of distribution of features in a small sample based on the equal frequency grouping of sample data, which has obvious advantages over the equal interval grouping, was developed and justified. In the proposed technique, based on the equal-frequency grouping, the amount of calculations is less and the calculations themselves are easier than with the equal-interval grouping. Unification of grouping and reduction of the number of computing operations significantly simplify algorithmization and development of software for automation of calculations. The proposed method describes the procedure for calculating the power of the statistical Chi-square test and shows a practical example of automation of calculations using modern information technology.

Conclusion. The developed method makes it possible to significantly simplify the calculations associated with the test of the hypothesis of the normal distribution of the studied features in a small sample, and the quantitative assessment of the power of the criterion. Substantiation of the adequacy of the distribution of the studied features is a necessary condition for further correct application of parametric methods of statistical analysis. The technique can be of practical interest for scientists who carry out research in the field of pharmacology and use statistical methods of analysis of experimental datain their work.

Keywords: statistical analysis, sampling method, statistical hypothesis testing, grouping of experimental data, power of statistical criteria, distribution of noncentral Chi-square, noncentrality parameter

Введение

При проведении статистического анализа экспериментальных данных, полученных в результате фармакологических исследований [3-5], может возникать необходимость проверки гипотезы H0 о том, что исследуемый количественный признак распределен по нормальному закону. Для решения этой задачи может быть использован критерий согласия . В литературных источниках описаны теоретические положения и алгоритм реализации этого критерия, в котором при осуществлении группировки экспериментальных данных первоначально используются равные по ширине интервалы [1, 2]. Такую группировку будем называть равноинтервальной. Для осуществления равноинтервальной группировки выборочных статистических данных сначала необходимо

56

вычислить границы интервалов, которые должны отстоять друг от друга на одинаковом расстоянии И . Это расстояние, по сути, и является шириной каждого интервала.

Для вычисления ширины интервалов И сначала необходимо определить число интервалов п. С этой целью можно использовать формулу Стерджесса: п = 1 + 3.32 • ^N, где N - объем выборочной совокупности. Затем вычисляется размах: Я = хшах - хтт , где хтах - наибольшее значение, а хшт -наименьшее значение исследуемой величины х в выборочной статистической совокупности.

Ширина интервалов в равноинтервальной группировке вычисляется по формуле: И = Я . Границы

п

интервалов начинаются со значения хш!п и отстоят друг от друга на величину И . Чтобы получить границы для п интервалов необходимо к значению хш1п прибавить п раз величину И .

Из теоретических положений следует, что для корректного применения критерия согласия численные значения абсолютных частот в интервалах группировки должны быть не менее пяти. В случае нарушения этого условия возникает необходимость производить перегруппировку и объединять интервалы, в которых абсолютные частоты малы. Это усложняет алгоритм реализации критерия согласия , влечет за собой дополнительные вычислительные и временные затраты. Для практической деятельности желательно иметь такие методики, в основе реализации которых лежат более простые алгоритмы. Очевидная проблемная ситуация определила цель теоретического исследования.

В статье представлены результаты теоретического исследования, в котором при реализации критерия согласия предлагается вместо первичной равноинтервальной группировки

использовать группировку, в которой образованные интервалы имеют одинаковые теоретические частоты, но имеют различную ширину. Предлагаемую группировку экспериментальных данных в дальнейшем будем называть равночастотной. В основе проведенного исследования лежало предположение о том, что использование равночастотной группировки упростит алгоритм вычислений по критерию и обеспечит проверку гипотезы Н0 при малых объемах исследуемых выборок.

Методика

Теоретическое исследование включало в себя обоснование проблемной ситуации и пять основных этапов ее решения. Описание основных положений теоретического исследования адаптировано для исследователей, не имеющих базового профессионального математического или технического образования.

Проблемная ситуация состоит в том, что при проведении фармакологических исследований выборочные данные, как правило, имеют малый объем [3, 4]. Это усложняет решение задачи проверки статистической гипотезы о нормальном распределении выборки при помощи критерия , в основе которого лежит равноинтервальная группировка. Усложнение вычислений связано с необходимостью последующей дополнительной перегруппировки выборочных данных и объединению интервалов, в которых абсолютное число единиц наблюдения не превосходит пяти. В исследовании предполагается, что вычислительные процедуры критерия , основанные на равночастотной группировке первичных данных, существенно упрощаются и позволят алгоритмизировать вычисления.

На первом этапе изложены элементарные вычисления, необходимые для формального описания случайной величины X на основе предположения о ее нормальном распределении. На втором этапе исследования обоснован порядок проведения равночастотной группировки, а также показаны вычисления, которые необходимо выполнить для определения границ интервалов группировки и вычисления наблюдаемых и теоретических частот в образованных интервалах. На третьем этапе приведен порядок вычислений для проверки статистической гипотезы о нормальном распределении исследуемой выборочной совокупности и правило принятия решения в отношении проверяемой и альтернативной статистических гипотез. На четвертом этапе обосновано и описано вычисление мощности (чувствительности) критерия для исследуемой выборки. На пятом этапе исследования описано уточнение статистических выводов о состоятельности проверяемой гипотезы, сделанных ранее в третьем этапе исследования, с учетом вычисленных значений мощности и вероятности ошибки второго рода. В заключении приведен практический пример проверки гипотезы о нормальном распределении малой выборки.

В проведенном исследовании предложен алгоритм вычисления мощности критерия с

использованием доступных современных информационных технологий, находящихся в открытом доступе.

Результаты исследования и их обсуждение

Разработанная методика статистического исследования состоит из пяти основных этапов. Ниже приведено краткое описание целей, теоретических основ и конечных результатов этих этапов статистического исследования.

1. Цель первого этапа исследования состоит в том, чтобы задать формальное описание для теоретического нормального закона распределения случайной величины X. Формальная запись функции плотности вероятности для нормального распределения случайной величины X имеет вид:

( ч 1 ( (x - a)

fx(x)= I— exp ->-

V2n a

2a2

(1)

где а и а - параметры нормального распределения, ах - численное значение случайной величины X.

Нормальная функция плотности вероятности (1) считается заданной, если заданы численные значения параметров а и а . Если перед началом статистического исследования эти параметры не были определены из каких-либо теоретических предпосылок, то их необходимо оценить на основе анализа имеющейся выборки. Несмещенными и состоятельными оценками параметров а и а являются: выборочное среднее X и выборочное среднее квадратичное отклонение (стандартное отклонение) 5 . Эти оценки вычисляются по следующим формулам:

_ Z x

X = —; S = ■ N

z X - X)2

1=1

N -1

Для автоматизации вычислений выборочного среднего X и выборочного стандартного отклонения S можно использовать статистические функции табличного процессора Microsoft Excel. После вычислений в выражение (1) вместо неизвестных параметров a и а подставляются соответственно выборочное среднее X и выборочное стандартное отклонение S. В результате подстановки численных значений X и S нормальная функция плотности вероятности является заданной, а выражение (1) примет следующий вид:

fx (x)= n10exP v2n s

k-xlЛ

2S2

(2)

На этом первый этап статистического исследования можно считать выполненным.

2. Целью второго этапа является построение равночастотной группировки. Очевидно, что предлагаемая группировка должна одновременно учитывать характер статистического распределения анализируемой выборки и особенности теоретического нормального закона распределения, который задан функцией плотности вероятности (2). Проведение группировки сводится к выполнению двух основных операций: определение границ интервалов группировки и подсчет наблюдаемых частот в образованных интервалах, а затем вычисление теоретических частот в образованных интервалах.

В основе любой группировки лежит принцип, в соответствии с которым вычисляются границы интервалов группировки. В предлагаемой равночастотной группировке принцип вычисления границ интервалов основан на теоретических свойствах некоторых квантилей нормального распределения. К таким квантилям относятся: 0,25-квантиль, который также называется первым или нижним квартилем (от лат. quarta - четверть); 0,5-квантиль, который также называется вторым квартилем или медианой (от лат. mediana - середина); 0,75-квантиль, который также называется третьим или верхним квартилем. Введем следующие обозначения: x0 25 - нижний квартиль; x0 5 -медиана; x0 75 - верхний квартиль. Эти квантили, характеризующие структуру плотности вероятности нормального закона распределения, в дальнейшем будут использоваться для осуществления равночастотной группировки. Значения нижнего квартиля x0 25 , медианы x05 и верхнего квартиля x0 75 можно вычислить по заданной выражением (2) нормальной функции

плотности вероятности fX (х). Формальные выражения для определения этих параметров для теоретического нормального распределения можно записать в следующем виде:

х0,25

р(х < х025 )= I fX (х) dx = 0,25,

Р(х < хо,5 ) = х—jf (х) dx = 0,5 ,

р(х < х0 75 )= "j0fx (х) dx = 0,75.

—да

Для автоматизации вычислений значений х0 25 , х0 5, х0 75 в указанных выше уравнениях можно использовать программный пакет (систему компьютерной математики) Maple.

Вычисления также можно провести в табличном процессоре Microsoft Excel с использованием статистической функции НОРМОБР. Широкие вычислительные возможности для статистического анализа предоставляет электронный ресурс Keisan online calculator, находящийся в открытом доступе по электронному адресу https://keisan.casio.com. В меню Professional содержится большое количество теоретических функций распределения вероятности и автоматизированы все основные вычислительные операции с этими функциями. Результаты вычислений в этом электронном ресурсе представляются в удобной законченной форме, содержащей используемые формулы и конечные результаты, а также сопровождаются наглядными графическими иллюстрациями, отражающими сущность производимых математических операций.

В дальнейшем значения квантилей х0 25 , х0 5, х0 75 используются в качестве границ интервалов.

Всего образуется четыре интервала. Первый интервал включает в себя значения случайной величины X ,которые меньше нижнего квартиля х0 25. Второй интервал заключен в границах от

нижнего квартиля х0 25 до медианы х0 5. Третий интервал ограничен значениями медианы х0 5 и верхнего квартиля х0 75. Четвертый интервал включает в себя значения случайной величины X, большие верхнего квартиля х0,75 .

Первый интервал не имеет нижней границы, а четвертый интервал не имеет верхней границы, т.е. являются открытыми интервалами. Второй и третий интервалы закрытые, так как имеют нижнюю и верхнюю границы. Важно отметить, что границы интервалов в предлагаемой равночастотной группировке вычисляются не по выборке, а по математической модели (2) нормальной функции плотности вероятности fX (х).

Образованные интервалы позволяют произвести группировку выборочных данных xt, 1 < i < N и произвести подсчет наблюдаемых (эмпирических) частот в четырех образованных интервалах. Эмпирические частоты - это количество единиц наблюдения, содержащихся в образованных интервалах после группировки выборочных данных. Наблюдаемые (эмпирические) частоты в интервалах группировки обозначим через sj, 1 < j < 4 . Для автоматизации вычислений эмпирических частот в интервалах можно использовать табличный процессор Microsoft Excel. На этом операцию определения границ интервалов группировки и подсчет эмпирических частот Sj в четырех образованных интервалах можно считать выполненной.

Нахождение теоретических частот в четырех образованных интервалах основано на вычислении вероятности попадания случайной величины X в определенный интервал. Теоретические частоты в интервалах обозначим fj, 1 < j < 4 .

События, состоящие в том, что случайная величина X окажется в одном из четырех заданных интервалов, формально могут быть описаны следующими выражениями: событие X < х0 25 -

попадание случайной величины в первый интервал; событие х0 25 < X < х0 5 - попадание случайной

величины во второй интервал. Событие х0 5 < X < х0 75 - попадание случайной величины в третий

интервал; событие X > х0 75 - попадание случайной величины в четвертый интервал.

Использование трех важных квантилей нормального распределения х0 25 , х0 5, х0 75 существенно

упрощает вычисление теоретических частот. Суть упрощения состоит в том, что для нормально распределенной случайной величины X вероятность попасть в любой из четырех заданных интервалов равна 0,25 .

Формальное описание этих событий имеет следующий вид:

х0,25

p(x < х0 25 ) = j fX (х) dx = 0,25 - вероятность события X

—да

х0,5

р(х0 25 < X < х0 5) = /х (х) ёх = 0,25 - вероятность события х0 25 < X < х0 5;

р(х05 < X < х0 75) = 0,^/х (х) ёх = 0,25 - вероятность события х0 5 < X < х0 75 ;

р(х > х0 75 ) = х|5/х (х) ёх = 0,25 - вероятность события X > х0,75 .

Проведенные вычисления показЫВают, что образованные интервалы для случайной величины X являются равновероятными. Следовательно, теоретические частоты / , 1 < } < 4 , вычисляемые в предположении об истинности нулевой гипотезы Н0, будут одинаковыми для всех четырех интервалов, т.е. / = / . Поэтому данный способ группировки и назван равночастотным. При этом, говоря о равночастотности, следует понимать, что это относится только к теоретическим частотам. В результате равночастотной группировки вычисление теоретических частот в интервалах группировки производится по элементарной формуле / = 0,25 • N , где N - объем выборки. После вычисления наблюдаемых частот sj, 1 < } < 4 в образованных интервалах и соответствующих им теоретических частот /j = / = 0,25 • N построение равночастотной группировки можно считать законченной.

3. Целью третьего этапа является проверка гипотезы Н0 о нормальном распределении исследуемой выборки. Наряду с гипотезой Н0 о нормальности распределения исследуемой выборки формулируется альтернативная гипотеза Н1, отрицающая гипотезу Н0, т.е. Н1 = Н0. Для проверки гипотезы Н0 может быть применен критерий х2. По своей сути он представляет собой математический алгоритм, в результате выполнения которого принимается решение о состоятельности нулевой гипотезы Н0 . Следует отметить, что статистический критерий не используются для доказательства нулевой гипотезы Н0. Он используется для её опровержения. Формальная запись принимаемого статистического решения имеет вид дроби, числитель которой обозначает принятое решение, а знаменатель обозначает истинную гипотезу, т.е. истинное положение вещей, которое имеет место в генеральной совокупности.

Для проверки гипотезы Н0 необходимо задать фиксированный уровень значимости а , который

Н.

это ошибочное решение Н^Н , в результате которого проверяемая гипотеза Н0 отклоняется и

принимается альтернативная гипотеза Н1 (числитель), когда на самом деле верна гипотеза Н0 (знаменатель). Уровень значимости а фиксирует максимально допустимую вероятность ошибки первого рода. Одновременно уровень значимости однозначно определяет специфичность

1 -а = Р^Н^Н |, которая количественно выражает вероятность правильного решения Н°Н ,

состоящего в том, что принимается гипотеза Н0 (числитель) и она действительно верна (знаменатель). На основании оценки последствий принимаемых статистических решений значение ошибки первого рода а выбирается близким к нулю. При этом специфичность 1 -а принимает значение близкое к единице. В медико-биологических исследованиях наиболее часто используется уровень значимости а = 0.5 , при этом специфичность фиксируется на уровне 1 -а = 0.95 .

Для реализации критерия %2 необходимо по следующей формуле вычислить расчетное (эмпирическое) значение статистики х2р :

=± , (3)

количественно выражает вероятность ошибки первого рода а = Р| НуН I. Ошибка первого рода -

j=l

/

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В формуле (3) использованы следующие величины: , 1 < j < 4 - наблюдаемые (эмпирические) частоты в четырех интервалах группировки; / = 0,25 • N - теоретические (ожидаемые) частоты, вычисленные для выборки объема N .

Статистика х2 имеет теоретическое распределение х2, которое полностью определяется числом степеней свободы ё/ .

В данной статистической методике имеет место следующая особенность. В предложенном способе равночастотной группировки всегда образуется четыре интервала. Число оцениваемых параметров в нормальном законе равно V = 2 . Этими параметрами, как было указано выше, являются выборочное среднее X и выборочное среднее квадратичное отклонение 5. Следовательно, число степеней свободы ё/ для теоретического распределения х2 при четырех интервалах равночастотной группировки всегда будет равно единице, т.к. ё/ = 4 - V -1 = 4 - 2 -1 = 1.

Для принятия статистического решения в отношении гипотезы H0 необходимо вычислить критическое значение статистики хи-квадрат хРр . Эта статистика вычисляется в результате решения следующего уравнения

а = 1 -)/(/, df)dy, (4)

о

в котором для обеспечения компактной формальной записи использованы следующие обозначения: V = хРр ; Y = х2; /(y, d/) - теоретическое распределение х2 с числом степеней свободы, равным df; а - заданный уровень значимости. Если, например, выбран уровень значимости а = 0,05 и число степеней свободы df = 1, то в результате решения уравнения (4) можно вычислить критическое значение статистики хи-квадрат: х1Р = 3,84 . Критические значения статистики хРр при других выбранных уровнях значимости а можно, например, вычислить в табличном процессоре Microsoft Excel с помощью функции ХИ2ОБР.

Важно отметить, что в предлагаемой методике статистического исследования имеет место определенная унификация группировки, позволяющая всегда получать фиксированное число степеней свободы df = 1, и алгоритм вычислительных действий, не зависящих от объема выборки.

В большинстве публикуемых результатах статистических исследований принятие решения о состоятельности гипотезы Но происходит на основании следующего правила. Если хр < хрр, то нет оснований отклонить гипотезу Но . Если хр - х1Р , то есть основание отклонить гипотезу Н0 и принять гипотезу Н1.

Для принятия решения о состоятельности гипотезы Н0 можно использовать величину р (р - value), которая выражает вероятность нулевой гипотезы Н0 для вычисленного значения статистики хр . Эта величина вычисляется из выражения

да

Р = j /(Y, df) dy, (5)

и

в котором использованы следующие обозначения: и = хр ; Y = х2; /(y, df) - теоретическое распределение х2 с числом степеней свободы, равным df . Значения вероятности р гипотезы Н0 для статистики хр можно вычислить в табличном процессоре Microsoft Excel с помощью функции ХИ2РАСП.

Все значения вероятности р, соответствующие условию р < а, считаются малыми. Следовательно, проверяемая нулевая гипотеза Н0 о нормальном распределении анализируемой выборки, для которой вычисленное значение р удовлетворяет условию р < а, считается маловероятной. Это дает основание отклонить гипотезу Н0 и принять альтернативную гипотезу Н1, в соответствии с которой анализируемая выборка имеет статистическое распределение, значимо отличающееся от нормального. Если для анализируемой выборки выполняется условие р > а, то вероятность нулевой гипотезы о нормальности распределения выборки является достаточно большой и, следовательно, нет оснований ее отклонять.

После принятия решения о состоятельности гипотезы Н0 на основе сравнения статистики х^Р со статистикой хрр или на основе сравнения вероятности р с уровнем значимости а третий этап методики исследования можно считать завершенным.

4. Целью четвертого этапа является вычисление мощности (чувствительности) критерия х2 для

исследуемой выборки. Мощность количественно выражает вероятность решения , при

котором нулевая гипотеза H0 обоснованно отклоняется, вместо нее принимается альтернативная гипотеза Н1 (числитель) и при этом гипотеза Н1 действительно верна (знаменатель). Формальная

запись мощности критерия имеет вид: 1 -ß = H^H ) . В данном выражении величина ß -

61

вероятность ошибки второго рода. Ошибка второго рода - это ошибочное решение H°H , в

результате которого проверяемая гипотеза H0 не отклоняется (числитель), когда на самом деле верна альтернативная гипотеза h1 (знаменатель). Для вычисления мощности критерия 1 -в и вероятности ошибки второго рода в используется нецентральное распределение хи-квадрат f (у, df). В нецентральном распределении хи-квадрат у = х2, а число степеней свободы df равно числу степеней свободы для соответствующего центрального распределения хи-квадрат f (у, df). В предлагаемой методике число степеней свободы в нецентральном распределении хи-квадрат будет равно единице, также как и в используемом для проверки гипотезы H0 центральном распределении хи-квадрат f (у, df). Нецентральное распределение хи-квадрат fm (у, df) отличается от центрального распределения хи-квадрат f (у, df) тем, что содержит дополнительный параметр Я, который называется параметром нецентральности. В данной методике этот параметр численно равен расчетному значению хр . Вычисление хр производится по формуле (3), следовательно, можно записать:

4 (S - f)2

Я = хр =Z . (6)

j=1 J

Для автоматизации вычислений мощности критерия 1 - в и вероятности ошибки второго рода в удобно использовать электронный ресурс Keisan online calculator, находящийся в открытом доступе по электронному адресу https://keisan.casio.com. Также можно использовать математический пакет Maple 2017.1, в котором предусмотрена возможность работы с моделью нецентрального распределения х2 и автоматизация соответствующих вычислений. Величины 1 - в и в вычисляются в соответствии со следующими выражениями:

в = ]лч (у, df) dy, (7)

1 -в = J fm(у, df)dy . (8)

В приведенных выражениях предел интегрирования V равен критическому значению статистики хи-квадрат, т.е. V = х1Р . В данной методике, как было показано выше, х2р = 3 84. На этом четвертый этап методики может считаться выполненным.

5. На пятом этапе исследования производится уточнение статистических выводов о состоятельности гипотезы Н0, сделанных ранее в третьем пункте методики, с учетом вычисленных значений мощности 1 - в и вероятности ошибки второго рода в для используемого критерия х2. Для этого необходимо задать приемлемую для проводимого статистического исследования фиксированную вероятность ошибки второго рода в0 и, следовательно, соответствующую ей фиксированную мощность 1 - в0 статистического критерия. На практике приемлемой обычно считается мощность статистического критерия 1 - в0, равная или превышающая 0,8, что соответствует вероятности ошибки второго рода в0 меньшей или равной 0,2. Уровень фиксированной вероятности ошибки второго рода в0 - 0,2, является следствием, так называемого, соотношения (компромисса) «один к четырем» (англ. «one-to-fourtrade-off») между выбранным уровнем значимости а и фиксированным уровнем вероятности ошибки второго рода в0. Если, например, выбрать уровень значимости а = 0,05, тогда фиксированная вероятность ошибки второго рода может быть принята равной в0 = 0,05 • 4 = 0,2. Тогда фиксированная мощность статистического критерия составит: 1 - в0 = 1 - 0,2 = 0,8.

В случае, если статистическая гипотеза Н0 может быть отклонена на уровне значимости а при выполнении условия p — а, то принимаемая на этом основании статистическая гипотеза Н1 является состоятельной и отражает реальные отличия анализируемого выборочного статистического распределения от нормального, если вычисленная по формуле (8) мощность 1 - в критерия х2 не меньше зафиксированной в исследовании мощности 1 - в0. В этом и состоит сущность уточнения статистических выводов, которые формулируются при проверке гипотезы Н.

Пример практического применения методики

Покажем применение описанной выше методики на практическом примере. Пусть имеет место выборочная совокупность объемом N = 30 . В табл. 1 приведены экспериментальные данные.

Таблица 1. Выборочные экспериментальные данные

153,7 155,9 150,8 155,1 157,3 158,2 152,6 148,1 149,4 153,3

151,2 157,3 146,9 156,0 158,9 148,5 156,0 153,3 151,9 154,0

149,6 150,7 150,2 152,2 146,3 156,1 148,3 150,9 151,7 147,6

Сформулируем статистические гипотезы: гипотеза Н 0 - анализируемая выборка распределена по нормальному закону с параметрами X и 5 ; гипотеза Н1 - распределение анализируемой выборки значимо отличается от нормального закона с параметрами X и 5 .

Гипотезу Н0 будем проверять на уровне значимости а = 0,05. Фиксированную мощность статистического критерия определим на уровне 1 - Д, = 0,8 . Для проверки гипотезы воспользуемся критерием х2, в основе которого лежит равночастотная группировка. 1. Вычислим выборочное среднее значение и выборочное стандартное отклонение:

_ I x

X = =

N

= 152,4; S =

N -1

= 3,5.

После подстановки параметров X и 5 в формулу (2) функция плотности вероятности для нормального распределения случайной величины X имеет вид:

fx (*) =

1

42п s

exp

(x-xl

2S2

2 a

1

8,86

exp

(x -152,4)

2

25

2. Для заданной функции плотности вероятности fx (x) вычислим нижний квартиль x0,25, медиану x0 5 и верхний квартиль x0 75.

Для автоматизации вычислений также воспользуемся статистической функцией НОРМОБР табличного процессора Microsoft Excel. Формулы для вычисления с использованием синтаксиса записи этой статистической функции в Microsoft Excel 2007 с результатами вычислений имеют вид:

x0 25 = НОРМОБР (0,25;152,4;3,5) = 150,0 x05 = НОРМОБР (0,5;152,4;3,5) = 152,4 x075 = НОРМОБР (0,75;152,4;3,5)= 154,8 Указанные статистические величины имеют следующие значения:

x025 = 150,0 ; x0 5 = 152,4 ; x075 = 154,8 . Равночастотная группировка, построенная с использованием этих значений, показана в табл. 2.

Таблица 2.Равночастотная группировка экспериментальных данных

Границы интервалов Наблюдаемые частоты Теоретические частоты f. = f

Интервалы Нижняя граница Верхняя граница

1 - 150,0 8 7,5

2 150,0 152,4 8 7,5

3 152,4 154,8 5 7,5

4 154,8 - 9 7,5

Ожидаемые (теоретические) частоты в равночастотной группировке одинаковы для каждого интервала и равны / = 0,25 • 30 = 7,5 .

3. Расчетное значение статистики хр вычислим по следующей формуле:

х Ь -/)2 (8-7,5)2 + (8-7,5)2 + (5-7,5)2 + (9-7,5)2 = р £ / 7,5 7,5 7,5 7,5 ' '

Величина х2р вычисляется из уравнения (4). Число степеней свободы центрального распределения х2 при четырех интервалах группировки равно единице, / = 4 - V -1 = 1, где V = 2 -число параметров нормального распределения (X и 5). В исследовании выбран уровень

значимости а = 0,05. Для автоматизации расчетов также можно использовать табличный процессор Microsoft Excel.

Формулу для вычисления х1Р с учетом синтаксиса Microsoft Excel 2007 и результат запишем в следующем виде:

Хр = ХИ2ОБР (а;df ) = ХИ2ОБР (0,05;l) = 3.84 .

Найдем величину p, которая выражает вероятность гипотезы Н0 для вычисленного значения статистики хр = 1,2 .

Для этого воспользуемся выражением (5). Для автоматизации вычислений можно использовать функцию ХИ2РАСП табличного процессора Microsoft Excel. Формула для вычисления, записанная с учетом синтаксиса Microsoft Excel 2007, и полученный результат имеют следующий вид:

p = ХИ2РАСП (хр ; df ) = ХИ2РАСП (l,2;l) = 0,27 .

Так как хр = 1,2 < х\Р = 3,84 и p = 0,27 > а = 0,05 , то нет оснований отклонить гипотезу Н0.

Следовательно, анализируемую выборку можно обоснованно считать распределенной по нормальному закону с параметрами X = 152,4 и S = 3,5 .

4. Вычислим мощность критерия х2. Для этого определим нецентральное распределение хи-

квадрат fH4 (Y, df ) .

В формальной записи данного распределения будем использовать ранее принятое обозначение Y = х2. Параметр нецентральности Я численно равен расчетному значению хр, т.е. Я = х2 = 1,2 .

Число свободы df для нецентрального распределения fm (y, df ) также равно единице, df = 1.

Вычисление мощности V = х1р выполним по формуле (8), в которой V = х2р = 3.84 .

Для автоматизации вычислений воспользуемся возможностями интернет ресурса Keisan online calculator (https://keisan.casio.com), находящегося в открытом доступе. Этот электронный калькулятор может представлять практический интерес для исследователей, использующих методы статистического анализа. На рисунке приведена копия рабочего листа калькулятора, на котором показаны введенные исходные данные для расчета и результаты вычислений.

В поле «percentile» вводится критическое значение V = х2р = 3,84 .

В поле «degree of freedom» вводится число степеней свободы df = 1. В поле «noncentrality» вводится значение параметра нецентральности Я = хр = 1,2 .

После нажатия кнопки «Execute» вычисляется вероятность ошибки второго рода в = 0,805 (lower cumulative P) и мощность критерия 1 - в = 0,195 (upper cumulative Q).

Результаты вычислений по критерию х2 в приведенном примере дают основание для формулировки следующих выводов. Нет оснований отклонить гипотезу _ Н0 о том, что анализируемая выборка распределена по нормальному закону с параметрами X = 152,4 и S = 3,5 (

х\ = 1,2 <х2р = 3,84).

Расчетная мощность критерия 1 - в = 0.195 явно мала по сравнению с фиксированной мощностью статистического критерия, которая была определена на уровне 1 - в0 = 0,8. Очевидно, что статистическая гипотеза в данном примере не была отклонена по причине ее достаточно большой вероятности (p = 0,27 >а = 0.05), а также по причине того, что статистический критерий х2 в данном случае имеет недостаточную чувствительность ( 1 - в = 0,195 ). При этом следует обратить внимание на высокую вероятность ошибки второго рода в = 0,805 .

Рис. Рабочий лист калькулятора Keisan online calculator

Заключение

В результате проведенного теоретического исследования описана и обоснована методика проверки гипотезы о нормальности распределения малых выборок по критерию х2 , в основе которого лежит равночастотная группировка. Важным практическим результатом исследования является описанный порядок автоматизированных вычислений мощности и ошибки второго рода для критерия х2 с использованием находящихся в открытом доступе современных информационных технологий. Разработанная методика изначально ориентирована на проведение статистического анализа малых выборок в фармакологических исследованиях, но она также актуальна и для других предметных областей, в которых первичная статистическая информация имеет малый объем.

Литература (references)

1. Лямец Л.Л. Способ реализации критерия согласия хи-квадрат с использованием равночастотных интервалов // Продовольственная безопасность: от зависимости к самостоятельности: сборник материалов международной научно-практической конференции (12-13 декабря 2017 года). - Смоленск: ФГБОУ ВО Смоленская ГСХА, 2017. - С. 692-699. [Ljamec L.L. Prodovol'stvennaja bezopasnost': otzavisimosti k samostojatel'nosti: sbornik materialov mezhdunarodnoj nauchno-prakticheskoj konferencii (1213 dekabrja 2017 goda). Foodharmlessness: from dependence to independence: proceedings of the international scientific and practical conference (12-13 December 2017). - Smolensk: SAA, 2017. - P. 692-699. (in Russian)]

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Лямец Л.Л., Якименко И.В., Канищев О.А. Статистические модели отказов // Математическая морфология. Электронный математический и медико-биологический журнал. - Т.14, Вып.2. - 2015. http://rostelecom67.ru/user/sgma/MMORPH/N-46-html/lamets/lamets.htm. [Ljamec L.L., Jakimenko I.V., Kanishhev O.A. Matematicheskaja morfologija. Jelektronnyj matematicheskij i mediko-biologicheskij zhurnal. Mathematical morphology. Electronic Mathematical and Biomedical Journal. - V.14, Iss.2. - 2015. http://rostelecom67.ru/user/sgma/MMORPH/N-46-html/lamets/lamets.htm (in Russian)]

3. Евсеев А.В., Сурменёв Д.В., Евсеева М.А. и др. Сравнительный анализ эффективности металлокомплексных и аминотиоловых антигипоксантов в эксперименте // Обзоры по клинической фармакологии и лекарственной терапии. - 2018. - Т.16, №2. - С. 18-24. [Evseev A.V., Surmenjov D.V., Evseeva M.A. i dr. Obzory po klinicheskoj farmakologii i lekarstvennoj terapii. Reviews of clinical pharmacology and drug therapy. - 2018. - V.16, N2. - P. 18-24. (in Russian)]

4. Сосин Д.В., Евсеев А.В., Шабанов П.Д. Безопасность новых протекторов острой гипоксии // Обзоры по клинической фармакологии и лекарственной терапии. - 2012. - Т.10, №4. - С. 58-64. [Sosin D.V., Evseev A.V., Shabanov P.D. Obzory po klinicheskoj farmakologii i lekarstvennoj terapii. Reviews of clinical pharmacology and drug therapy. - 2012. - V.10, N4. - P. 58-64. (in Russian) ]

5. Evseev A.V., Surmenev D.V., Evseeva M.A. et al. The impact of the new metal-complex (Znll) selenium-containing compound nQ2721 on the resistance of rats to acute hypoxic hypoxia // Chronicles of Pharmaceutical Science. -2018. - V.2, Iss.2. - P. 493-501.

Информация об авторах

Лямец Леонид Леонидович - кандидат технических наук, доцент, заведующий кафедрой физики, математики и медицинской информатики ФГБОУ ВО «Смоленский государственный медицинский университет» Минздрава России. E-mail: lll190965@yandex.ru

Евсеев Андрей Викторович - доктор медицинских наук, профессор, заведующий кафедрой нормальной физиологии ФГБОУ ВО «Смоленский государственный медицинский университет» Минздрава России. E-mail: hypoxia@yandex.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.