Научная статья на тему 'Способ вычисления мощности t-критерия в фармакологических исследованиях'

Способ вычисления мощности t-критерия в фармакологических исследованиях Текст научной статьи по специальности «Математика»

CC BY
216
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОЩНОСТЬ СТАТИСТИЧЕСКОГО КРИТЕРИЯ / ОШИБКИ ПЕРВОГО И ВТОРОГО РОДА / T-РАСПРЕДЕЛЕНИЕ СТЬЮДЕНТА / НЕЦЕНТРАЛЬНОЕ T-РАСПРЕДЕЛЕНИЕ СТЬЮДЕНТА / T-КРИТЕРИЙ / POWER OF STATISTICAL CRITERION / ERRORS OF THE FIRST AND SECOND KIND / STUDENT'S T-DISTRIBUTION / STUDENT'S NON-CENTRAL T-DISTRIBUTION / T-TEST

Аннотация научной статьи по математике, автор научной работы — Лямец Леонид Леонидович, Евсеев Андрей Викторович, Козлова Евгения Карповна, Колпакова Марина Анатольевна

Цель. В статистическом анализе экспериментальных данных существует ряд методов проверки статистических гипотез, основанных на распределении Стьюдента. Эти методы имеют в своей основе алгоритм вычислений, имеющий общее популярное название t -критерий. Наиболее часто t -критерий применяется для проверки статистической гипотезы, предполагающей отсутствие значимых различий между средними значениями двух выборок, распределенных по нормальному закону. Описанная в большинстве литературных источников процедура принятия решения в отношении проверяемой статистической гипотезы при использовании t -критерия основана на вычислении p -величины и ее последующем сравнении с зафиксированным уровнем значимости , который определяет вероятность ошибки первого рода и специфичность критерия . При этом математические вычисления, необходимые для количественной оценки ошибки второго рода и чувствительности, как правило, не приводятся. Цель теоретического исследования заключалась в разработке удобного для практического использования способа вычисления мощности и ошибки второго рода для t -критерия. Способ предназначается для применения в медико-биологических исследованиях, а также для выявления значимых различий в состояниях, вызванных фармакологическим воздействием. Методика. Проведен обзорный анализ печатных и электронных публикаций по применению t -критерия для проверки статистической гипотезы об отсутствии значимых различий между средними значениями двух выборок, распределенных по нормальному закону. Описаны особенности выполнения вычислительных процедур, связанных с реализацией t -критерия, а также вычислением p -величины, ошибки второго рода и мощности t -критерия на основе интегрирования распределения Стьюдента и нецентрального распределения Стьюдента. Выявлены основные вычислительные действия, которые могут представлять определенные трудности для исследователей, не имеющих специальной математической подготовки. Рассмотрена возможность автоматизации сложных вычислительных процедур с использованием доступного программного обеспечения и информационных ресурсов сети Интернет. Вычисления мощности и ошибки второго рода приведены для двух вариантов t -критерия. В первом варианте дисперсии статистических совокупностей предполагаются неизвестными и одинаковыми. Во втором случае дисперсии предполагаются неизвестными и различающимися между собой. Результаты. Разработан способ вычисления ошибки второго рода и мощности t -критерия с использованием современных информационных технологий, находящихся в открытом доступе. В основе способа лежит автоматизация операций интегрирования распределения Стьюдента а также операций интегрирования нецентрального распределения Стьюдента. Автоматизация вычислений существенно упрощает вычисление величин, необходимых для проверки гипотезы об отсутствии значимых различий между средними значениями двух выборок, распределенных по нормальному закону, а также вычисления ошибки второго рода и мощности t -критерия. Разработанный способ существенно снижает временные затраты на выполнение требуемых математических вычислений и уменьшает вероятность вычислительных ошибок за счет автоматизации производимых вычислений. Заключение. В результате теоретического исследования разработан способ вычисления мощности и ошибки второго рода для t -критерия при его использовании для проверки статистической гипотезы об отсутствии значимых различий между средними значениями двух выборок, распределенных по нормальному закону. Предложенный способ позволяет автоматизировать сложные вычислительные операции, связанные с интегрированием функций плотности распределения вероятностей. Для автоматизации вычислений предложены встроенные статистические функции табличного процессора Excel и интернет-ресурса Keisan Online Calculator, находящегося в открытом доступе. Предложенный способ вычисления мощности и ошибки второго рода для t -критерия может представлять практический интерес для научных работников, осуществляющих исследования в области фармакологии и доказательной медицины и использующих в своей работе статистические методы анализа экспериментальных данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лямец Леонид Леонидович, Евсеев Андрей Викторович, Козлова Евгения Карповна, Колпакова Марина Анатольевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHOD FOR CALCULATING THE POWER OF THE t-TEST IN MEDICAL AND PHARMACOLOGICAL STUDIES

Objective. In statistical analysis of experimental data, there is a number of methods to test statistical hypotheses based on Student’s distribution. These methods are based on the algorithm of calculations, which has a common popular name t -test. The most common use of the t -test is to test the statistical hypothesis that assumes that there are no significant differences between the mean values of two samples distributed according to the normal law. The procedure of decision-making in relation to the tested statistical hypothesis described in most literature sources when using the t -test is based on the calculation of the p -value and its subsequent comparison with the fixed level of significance , which determines the probability of error of the first kind and the specificity of the criterion . In this case, the mathematical calculations necessary to quantify the error of the second kind and sensitivity are not given,as a rule. The purpose of the theoretical study was to develop a convenient for practical use method for calculating the power and error of the second kind for the t -test. The method is intended for use in biomedical research, as well as to identify significant differences in conditions caused by pharmacological effects. Method. A review analysis of printed and electronic publications on the application of the t -test to test the statistical hypothesis that there are no significant differences between the mean values of the two samples distributed according to the normal law was carried out. The performance of computational procedures associated with the implementation of t -test and calculating p -values, error of the second kind and power of t -test are described, based on the integration of the Student's distribution and non-сentral Student's distribution. The basic computational actions which can present certain difficulties for researchers who do not have basic physical and mathematical education are revealed. The possibility of automation of complex computational procedures using available software and information resources of the Internet is considered. Practical examples of computing power and errors of the second kind for the t -test are given for the case when the variances of statistical aggregates are assumed to be unknown and the same, as well as for the case when the variances are assumed to be unknown and different from each other. Results. A method for calculating the error of the second kind and the power of the t -test using modern information technologies in the public domain is developed. The method is based on automation of Student’s distribution integration operations as well as Student’s non-сentral distribution integration operations. Automation of calculations significantly simplifies the calculation of the values necessary to test the hypothesis of no significant differences between the mean values of two samples distributed according to the normal law, as well as the calculation of the error of the second kind and the power of the t -test. The developed method significantly reduces the time spent on performing the required mathematical calculations and reduces the probability of computational errors by automating the calculations. Conclusion. As a result of the theoretical study, a method for calculating the power and error of the second kind for the t -test is developed to be used to test the statistical hypothesis that there are no significant differences between the mean values of two samples distributed according to the normal law. The proposed method makes it possible to automate complex computational operations associated with the integration of probability distribution density functions. For automation of calculations the built-in statistical functions of the table processor Excel and the Internet resource Keisan Online Calculator, which is in open access are offered. The proposed method of calculating the power and error of the second kind for the t -test may be of practical interest forscientists conducting research in the field of pharmacology and evidence-based medicine and using statistical methods of analysis of experimental data.

Текст научной работы на тему «Способ вычисления мощности t-критерия в фармакологических исследованиях»

УДК 519 253 14.03.06 Фармакология, клиническая фармакология

СПОСОБ ВЫЧИСЛЕНИЯ МОЩНОСТИ ^КРИТЕРИЯ В ФАРМАКОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ

© Лямец Л.Л., Евсеев А.В., Козлова Е.К., Колпакова М.А.

Смоленский государственный медицинский университет, Россия, 214019, Смоленск, ул. Крупской, 28

Резюме

Цель. В статистическом анализе экспериментальных данных существует ряд методов проверки статистических гипотез, основанных на распределении Стьюдента. Эти методы имеют в своей основе алгоритм вычислений, имеющий общее популярное название - /-критерий. Наиболее часто /-критерий применяется для проверки статистической гипотезы, предполагающей отсутствие значимых различий между средними значениями двух выборок, распределенных по нормальному закону. Описанная в большинстве литературных источников процедура принятия решения в отношении проверяемой статистической гипотезы при использовании /-критерия основана на вычислении ^-величины и ее последующем сравнении с зафиксированным уровнем значимости а , который определяет вероятность ошибки первого рода и специфичность критерия 1 -а . При этом математические вычисления, необходимые для количественной оценки ошибки второго рода и чувствительности, как правило, не приводятся. Цель теоретического исследования заключалась в разработке удобного для практического использования способа вычисления мощности и ошибки второго рода для /-критерия. Способ предназначается для применения в медико-биологических исследованиях, а также для выявления значимых различий в состояниях, вызванных фармакологическим воздействием.

Методика. Проведен обзорный анализ печатных и электронных публикаций по применению /критерия для проверки статистической гипотезы об отсутствии значимых различий между средними значениями двух выборок, распределенных по нормальному закону. Описаны особенности выполнения вычислительных процедур, связанных с реализацией /-критерия, а также вычислением ^-величины, ошибки второго рода и мощности /-критерия на основе интегрирования распределения Стьюдента и нецентрального распределения Стьюдента. Выявлены основные вычислительные действия, которые могут представлять определенные трудности для исследователей, не имеющих специальной математической подготовки. Рассмотрена возможность автоматизации сложных вычислительных процедур с использованием доступного программного обеспечения и информационных ресурсов сети Интернет. Вычисления мощности и ошибки второго рода приведены для двух вариантов /-критерия. В первом варианте дисперсии статистических совокупностей предполагаются неизвестными и одинаковыми. Во втором случае дисперсии предполагаются неизвестными и различающимися между собой.

Результаты. Разработан способ вычисления ошибки второго рода и мощности /-критерия с использованием современных информационных технологий, находящихся в открытом доступе. В основе способа лежит автоматизация операций интегрирования распределения Стьюдента а также операций интегрирования нецентрального распределения Стьюдента. Автоматизация вычислений существенно упрощает вычисление величин, необходимых для проверки гипотезы об отсутствии значимых различий между средними значениями двух выборок, распределенных по нормальному закону, а также вычисления ошибки второго рода и мощности /-критерия. Разработанный способ существенно снижает временные затраты на выполнение требуемых математических вычислений и уменьшает вероятность вычислительных ошибок за счет автоматизации производимых вычислений.

Заключение. В результате теоретического исследования разработан способ вычисления мощности и ошибки второго рода для /-критерия при его использовании для проверки статистической гипотезы об отсутствии значимых различий между средними значениями двух выборок, распределенных по нормальному закону. Предложенный способ позволяет автоматизировать сложные вычислительные операции, связанные с интегрированием функций плотности распределения вероятностей. Для автоматизации вычислений предложены встроенные статистические функции табличного процессора Excel и интернет-ресурса Keisan Online Calculator, находящегося в открытом доступе. Предложенный способ вычисления мощности и ошибки второго рода для /-критерия может представлять практический интерес для научных работников, осуществляющих исследования в области фармакологии и доказательной медицины и использующих в своей работе статистические методы анализа экспериментальных данных.

Ключевые слова: мощность статистического критерия, ошибки первого и второго рода, /распределение Стьюдента, нецентральное /-распределение Стьюдента, /-критерий

METHOD FOR CALCULATING THE POWER OF THE f-TEST IN MEDICAL AND PHARMACOLOGICAL STUDIES

Lyamec L.L., Evseev A.V., Kozlova E.K., Kolpakova M.A.

Smolensk State Medical University, 28, Krupskaj St., 214019, Smolensk, Russia

Abstract

Objective. In statistical analysis of experimental data, there is a number of methods to test statistical hypotheses based on Student's distribution. These methods are based on the algorithm of calculations, which has a common popular name t-test. The most common use of the t-test is to test the statistical hypothesis that assumes that there are no significant differences between the mean values of two samples distributed according to the normal law. The procedure of decision-making in relation to the tested statistical hypothesis described in most literature sources when using the t-test is based on the calculation of the /»-value and its subsequent comparison with the fixed level of significance a , which determines the probability of error of the first kind and the specificity of the criterion 1 -a. In this case, the mathematical calculations necessary to quantify the error of the second kind and sensitivity are not given,as a rule. The purpose of the theoretical study was to develop a convenient for practical use method for calculating the power and error of the second kind for the t-test. The method is intended for use in biomedical research, as well as to identify significant differences in conditions caused by pharmacological effects.

Method. A review analysis of printed and electronic publications on the application of the t-test to test the statistical hypothesis that there are no significant differences between the mean values of the two samples distributed according to the normal law was carried out. The performance of computational procedures associated with the implementation of t-test and calculating /-values, error of the second kind and power of t-test are described, based on the integration of the Student's distribution and non-central Student's distribution. The basic computational actions which can present certain difficulties for researchers who do not have basic physical and mathematical education are revealed. The possibility of automation of complex computational procedures using available software and information resources of the Internet is considered. Practical examples of computing power and errors of the second kind for the t-test are given for the case when the variances of statistical aggregates are assumed to be unknown and the same, as well as for the case when the variances are assumed to be unknown and different from each other.

Results. A method for calculating the error of the second kind and the power of the t-test using modern information technologies in the public domain is developed. The method is based on automation of Student's distribution integration operations as well as Student's non-central distribution integration operations. Automation of calculations significantly simplifies the calculation of the values necessary to test the hypothesis of no significant differences between the mean values of two samples distributed according to the normal law, as well as the calculation of the error of the second kind and the power of the t-test. The developed method significantly reduces the time spent on performing the required mathematical calculations and reduces the probability of computational errors by automating the calculations.

Conclusion. As a result of the theoretical study, a method for calculating the power and error of the second kind for the t-test is developed to be used to test the statistical hypothesis that there are no significant differences between the mean values of two samples distributed according to the normal law. The proposed method makes it possible to automate complex computational operations associated with the integration of probability distribution density functions. For automation of calculations the built-in statistical functions of the table processor Excel and the Internet resource Keisan Online Calculator, which is in open access are offered. The proposed method of calculating the power and error of the second kind for the t-test may be of practical interest forscientists conducting research in the field of pharmacology and evidence-based medicine and using statistical methods of analysis of experimental data.

Keywords: power of statistical criterion, errors of the first and second kind, Student's t-distribution, Student's non-central t-distribution, t-test

Введение

Выявление и изучение взаимосвязей между процессами и явлениями в живом организме представляет определенный практический и научный интерес для фармакологии и медицины. Для количественного описания процессов и явлений можно использовать физические параметры (признаки) - непрерывные физические величины, измеряемые в шкале интервалов или шкале отношений при помощи специальных приборов. Формализованное описание зависимостей между признаками при помощи математических конструктов является одной из форм представления научных знаний. Рассмотрим исследовательскую задачу, которая состоит в обосновании каузальной зависимости между признаками X и У, при этом предполагается, что признак X является факторным, т.е. количественно характеризует воздействие, а результативный признак У количественно характеризует реакцию (отклик). При планировании наиболее простого фармакологического или медико-биологического эксперимента факторный признак X может иметь два уровня Х1 и Х2, где каждый уровень представляет собой строго определенное, контролируемое воздействие. Для проведения эксперимента из исследуемой и формально заданной генеральной совокупности на основе специальных методов, обеспечивающих случайность отбора и репрезентативность, формируются выборочные совокупности У1 и У2, содержащие N1 и N2 единиц наблюдения соответственно. На совокупность V1 оказывается факторное воздействие Х1, а на совокупность У2 - факторное воздействие Х2. Признак У количественно выражает исследуемое состояние, вызванное факторным признаком. В исследуемых выборочных совокупностях У1 и У2 признак У измеряется у каждой единицы наблюдения. В результате проведенных измерений формируются два выборочных множества числовых значений У1 и У2. Множество У1 содержит выборочные числовые значения результативного признака, полученные в результате воздействия фактора с уровнем Х1 на единицы наблюдения выборочной совокупности У1. Соответственно множество У2 содержит выборочные числовые значения результативного признака, полученные в результате воздействия фактора с уровнем Х2 на единицы наблюдения выборочной совокупности У2. Следовательно, выборочные числовые множества У1 и У2 (далее - выборки) количественно выражают состояние единиц наблюдения, вызванные факторными воздействиями Х1 и Х2. Если при помощи статистических методов анализа будет обосновано значимое различие между выборками У1 и У2, то этот факт дает основание утверждать о влиянии факторного признака Х на результативный признак У.

В медико-биологических исследованиях, а также в исследованиях, имеющих своей целью выявление значимых различий в состояниях, вызванных фармакологическим воздействием, широко применяются методы параметрического статистического анализа. Наиболее распространенным их них является метод сравнения средних значений анализируемых выборок. По своей сути среднее значение является количественной характеристикой типичности. Для физически измеряемого признака, т.е. измеряемого в шкале интервалов или шкале отношений, типичное - это наиболее вероятное значение, в окрестности которого сосредотачиваются остальные значения исследуемого признака. Среднее значение признака является адекватной оценкой типичности в том случае, если исследуемый признак в статистической совокупности распределен по нормальному закону. Поэтому аналитическим действиям со средними значениями исследуемых признаков должна предшествовать проверка статистической гипотезы о соответствии эмпирического распределения теоретическому нормальному распределению, в котором одним из параметров является среднее арифметическое значение [1].

Если можно обоснованно полагать, что анализируемые выборки У1 и У2 распределены по нормальному закону, то результат сравнения средних значений У и У2 этих выборок позволяет сделать заключение об однородности этих совокупностей. Если средние значения У1 и У2 значимо различаются, то исследуемые статистические совокупности неоднородны и значимо различаются, поскольку различаются типичностью проявления изучаемого результативного признака. Сравнение средних значений У1 и У2 двух нормально распределенных выборок У1 и У2 представляет собой формальную процедуру, которая называется /-критерием. Алгоритм этого критерия направлен на проверку нулевой статистической гипотезы Н0 о том, что выборочные средние значения значимо не различаются, т.е. наблюдаемые различия не выходят за пределы статистической ошибки. В качестве альтернативной статистической гипотезы Н1 можно рассматривать одностороннюю гипотезу о том, что среднее значение одной выборки значимо больше, чем среднее значение другой, т.е. наблюдаемые различия выходят за пределы статистической ошибки. Поскольку исследуемые выборки У1 и У2 являются случайными продуктами, а выборочные средние У1 и У2 - случайными величинами, то выводы, сделанные по

результатам сравнения средних значений, могут носить только вероятностный характер.

Популярное изложение /-критерия в доступных литературных источниках ограничивается нахождением /-величины, выражающей вероятность гипотезы Н0, или вычислением критического значения статистики Стьюдента. Эти величины необходимы для проверки гипотезы Н0 при зафиксированной вероятности ошибки первого рода а и специфичности 1 -а . Вопросы о вычислении мощности критерия и вероятности ошибки второго рода обычно не рассматриваются. В отдельных публикациях эти вопросы излагаются на уровне общих теоретических положений без примеров конкретных вычислений.

Отсутствие в публикациях информации о мощности /-критерия и вероятности ошибки второго рода не дает полного представления о состоятельности статистических выводов и снижает качество результатов исследования в целом. Из вышесказанного следует, что разработка способа, позволяющего автоматизировать вычисления мощности /-критерия и вероятности ошибки второго роды, является актуальной задачей.

Цель исследования заключалась в разработке удобного для практического использования способа вычисления мощности и ошибки второго рода для /-критерия. Способ предназначается для применения в медико-биологических исследованиях, а также для выявления значимых различий в состояниях, вызванных фармакологическим воздействием.

Методика

В большинстве научных публикаций по фармакологическим и медико-биологическим исследованиям применение /-критерия происходит без вычисления его мощности. В статистических выводах о результатах проверки статистической гипотезы Н0 , сделанных при заданной вероятности ошибки первого рода а и специфичности 1 -а, не указывается вероятность ошибки второго рода. Разработанный способ вычисления мощности /-критерия следует рассматривать как неотъемлемую часть этого критерия. Поэтому следует представить алгоритм расчета для /-критерия совместно с разработанным способом вычисления мощности и вероятности ошибки второго рода.

Рассмотрим применение /-критерия и способа оценки его мощности для анализа результатов фармакологического исследования, целью которого является обоснование влияния факторного признака X на результативный признак У. В проводимых экспериментах признак X имеет два строго определенных и контролируемых уровня X1 и Х2. Пусть в результате выборочных исследований сформированы два множества числовых значений У1 и У2, содержащие N1 и N2 элементов соответственно. Также будем полагать, что выборки У1 и У2 являются малыми, т.е. их объем не превосходит 30 значений. Выборочные числовые множества У1 и У2 количественно выражают состояние единиц наблюдения, вызванные факторными воздействиями Х1 и Х2.

Если для анализируемых выборок У1 и У2 при помощи критерия согласия хи-квадрат (Пирсона) обосновано, что они распределены по нормальному закону, то для количественной оценки типичности результативного признака можно использовать выборочные средние арифметические значения У1 и У2, а для оценки вариации - выборочные средние квадратичные отклонения и 52 или выборочные дисперсии ^ и ^ [1]. Результат сравнения выборочных средних значений У1 и У2, позволит обоснованно утверждать о влиянии факторного признака X на результативный признак У. Формальная процедура сравнения выборочных средних значений У1 и У2 начинается с формулировки нулевой и альтернативной гипотез. Пусть, например, выборочное среднее значение У1, вычисленное по выборке Yl, оказалось больше, чем выборочное среднее значение У2, вычисленное по выборке У2. Важно обосновать, является ли это различие действительно значимым, или это различие объясняется ошибкой выборки и не выходит за рамки статистической ошибки. Для этого формулируется статистическая гипотеза H0 (нулевая гипотеза), состоящая в

том, что выборочные средние значения У1 и У2 значимо не различаются между собой, а наблюдаемые различия между их числовыми значениями являются результатом статистической ошибки, которая всегда имеет место при проведении выборочных исследований. Альтернативная одностороння гипотеза Н1 состоит в том, что выборочные средние значения значимо различаются

и значение У1 значимо больше, чем значение У2, т.е. наблюдаемые различия между выборочными числовыми значениями выходят за рамки статистической ошибки. Проверка гипотезы Н0 может быть произведена при помощи /-критерия. По своей сути он представляет собой математический алгоритм, в результате выполнения которого принимается решение о состоятельности гипотезы Н0. Следует отметить, что статистический критерий не используются для доказательства нулевой гипотезы. Он направлен на её опровержение. При этом может возникать ошибка первого рода. Ошибка первого рода - это ошибочное решение НН , в результате которого проверяемая гипотеза Н0 отклоняется и принимается альтернативная гипотеза Н1 (числитель), когда на самом

= р( н1

деле верна гипотеза Н0 (знаменатель). Вероятность ошибки первого рода а = Р^ ^Н J также называется уровнем значимости. Одновременно уровень значимости однозначно определяет специфичность 1 - а = Р^Н°Н ^, которая количественно выражает вероятность правильного

решения Н°Н , состоящего в том, что принимается гипотеза Н0 (числитель) и она действительно

верна (знаменатель). Для проверки нулевой гипотезы фиксируется вероятность ошибки первого рода и специфичность. Значение ошибки первого рода выбирается близким к нулю, при этом специфичность принимает значение близкое к единице. Обычно для проверки статистических гипотез в медико-биологических и фармакологических исследованиях выбирается уровень значимости а = 0,05 и специфичность 1 -а = 0,95 .

Кроме вероятности ошибки первого рода а и связанной с ней специфичности 1 -а необходимо задать приемлемую для проводимого статистического исследования фиксированную вероятность ошибки второго рода в и соответствующую ей мощность 1 -в статистического критерия. На практике приемлемой обычно считается мощность статистического критерия 1 - в, равная 0,8. Это соответствует вероятности ошибки второго рода в = 0,2 . Это условие для вероятности ошибки второго рода является следствием соотношения «один к четырем» между выбранным уровнем значимости а и вероятностью ошибки второго рода в . Для выбранного уровня значимости а = 0,05 фиксированная вероятность ошибки второго рода равна в = 4-а = 4• 0,05 = 0,2 . Тогда фиксированная мощность статистического критерия составит 1 - в = 1 - 0,2 = 0,8 .

Существует 2 варианта реализации /-критерия. Первый вариант используется в том случае, когда выборочные дисперсии 52 и 522 значимо не различаются. При помощи критерия Фишера [2] можно проверить статистическую гипотезу Н0 об отсутствии значимых различий между выборочными дисперсиями 512 и 522 при альтернативной гипотезе Н1, которая состоит в том, что одна из выборочных дисперсий значимо больше другой. Сущность критерия Фишера и порядок вычислений достаточно подробно представлены в работе [2]. Статистика критерия /1 и требуемые для ее нахождения величины вычисляется по следующим формулам:

/ = I?^ , где , (1)

1 ^ ' У * + - 2

N 2

/ -\2 I -V N1

-у / ЕК--у) _ ЕУн _ Еу

512 = -, 522 = -, У= -!=-, У2 = -.

1 N -1 2 ы2-1 N

В приведенных формулах величины у1- и у2- представляют собой числовые значения выборочных

множеств У1 и У2 соответственно. Статистика /1 в этом случае имеет распределение Стьюдента с

числом степеней свободы к1 = N + И2 - 2.

Второй вариант /-критерия используется в том случае, когда выборочные дисперсии 512 и 522

значимо различаются. Задача сравнения средних значений двух нормально распределённых

выборок при значимо различающихся дисперсиях 52 и 522 известна как проблема Беренса-

Фишера. Точного решения этой задачи до настоящего времени нет. На практике используются

32

различные приближенные вычисления. Особенность второго варианта /-критерия состоит в том, что статистика критерия /2 имеет распределение условно близкое к распределению Стьюдента с числом степеней свободы к2. Для вычисления статистики критерия /2 и числа степеней свободы к2 используются следующие формулы:

'SL+SLv

<2 = у 2 , 4г = у N у 2 (2).

2 ^ ~ 2 Г^Л2 ГсЛ2

Y - Y2|

S s

—+—

N N2

S2

N1

S2

У N2 У

N1 -1 N2-1

В обоих вариантах /-критерия статистики критерия t1 и t2 количественно характеризуют различие между выборочными средними значениями Y1 и Y2, при этом, чем больше эти статистики, тем менее вероятна нулевая гипотеза. Число степеней свободы является параметром распределения Стьюдента и заданное числовое значение этого параметра определяет функцию плотность вероятности f(t), соответствующую этому распределению. В первом варианте вычислений статистика t1 имеет распределение Стьюдента с k1 степенями свободы. Во втором варианте t-критерия статистика <2 имеет приближенное распределение Стьюдента с числом степеней свободы k2 , поэтому последующие вычисления для этого варианта имеют в определенной степени приближенный характер. Дальнейшие действия, направленные на проверку нулевой гипотезы, вычисление ошибки второго рода, мощности критерия, аналогичны для обоих вариантов t-критерия. Поэтому расчетные значения статистик t-критерия tj и t2 будем обозначать через tf . В

первом варианте вычислений t-критерия под значением tp будем понимать значение t1, т.е. tp = t1, а во втором варианте под значением tp будем понимать t2, т.е. t = t2.

Величина p, характеризующая вероятность нулевой гипотезы, вычисляется из уравнения

да

p = J f (t) dt, где f (t) - плотность вероятности распределения Стьюдента с числом степеней

свободы k1 или k2 . Число степеней свободы выбирается в зависимости от варианта вычислений t-критерия. Для автоматизации вычислений интеграла и нахождения значения p может быть использована, например, встроенная статистическая функция СТЬЮДРАСП табличного процессора Excel 2007 или аналогичные статистические функции этого табличного процессора последующих версий. Также для проверки нулевой гипотезы при односторонней альтернативной

да

гипотезе из уравнения а = J f (t) dt может быть вычислена величина <кр . Для автоматизации

<кр

вычислений данного уравнения и нахождения значения t может быть использована статистическая функция СТЬЮДРАСПОБР табличного процессора Excel 2007 или аналогичные статистические функции последующих версий этой программы. Вычисленные значения p и t

необходимы для проверки (опровержения) нулевой гипотезы. При принятии решения все вероятности, меньшие или равные а считаются малыми, а разность между выборочными средними значениями Y1 - Y2 значимой, если tp больше или равна t . Обычно в большинстве научных публикаций принятие решения в отношении гипотезы H0 при зафиксированной ошибке первого рода а принимается в соответствии со следующим правилом. Если tp > tкр и, соответственно, p < а, то есть основание отклонить нулевую гипотезу H0 и принять альтернативную H1. Если t < t и, следовательно, p > а, то нет оснований отклонить нулевую гипотезу H0. Следует отметить, что условия tp > t и p <а формально взаимосвязаны и выполняются одновременно, также как и условия tp < t и p > а .

Решение в отношении гипотезы H0 , принимаемое на основании приведенных выше правил, не учитывает вероятность ошибки второго рода и мощность критерия. Выводы в отношении гипотезы H0 можно считать состоятельными, когда правило, на основании которого принимается решение, учитывает как ошибку первого рода а , так и мощность (чувствительность) критерия 1 -в-

Для вычисления мощности используется функция плотности вероятности нецентрального распределения Стьюдента. Это достаточно сложная математическая функция и ее интегрирование представляет существенные трудности для исследователей, не имеющих специальной математической подготовки. Для автоматизации вычислений, связанных с этой функцией, необходимо использовать специальные программы, например систему компьютерной математики Maple. Например, популярный и часто используемый для статистической обработки экспериментальных данных табличный процессор Excel, даже последних версий, не содержит встроенных функций, автоматизирующих интегрирование нецентрального распределения Стьюдента.

да

Расчетное значение ошибки второго рода вр может быть вычислено по формуле вр = 1 - J s(t) dt,

<кр

где s(t) - функция плотности вероятности нецентрального распределения Стьюдента. Для первого варианта Z-критерия нецентральное распределение Стьюдента s(t) задается числом степеней свободы k1 и параметром нецентральности Я = t1, а для второго варианта - числом степеней свободы k2 и параметром нецентральности Я = t2. Соответственно, мощность критерия

да

вычисляется по формуле 1 - вр = J s(t) dt. Для автоматизации вычислений можно использовать

<кр

электронный ресурс Keisan online calculator, который находится в открытом доступе по адресу https://keisan.casio.com.

С учетом вычисленных значений ошибки второго рода вр и мощности критерия 1 - вр могут быть сформулированы следующие выводы в отношении проверяемой нулевой гипотезы H0 . В случае, когда при выполнении условия p <а статистическая гипотеза H0 отклоняется, то принимаемая на этом основании статистическая гипотеза H1 является состоятельной и отражает реальные различия между средними значениями Y1 и Y2, если ошибка второго рода вр не превосходит зафиксированного в начале исследования значения в , а вычисленная мощность критерия 1 - вр не меньше фиксированной мощности 1 - в . При исследовании малых выборок ситуация, когда p < а, но вр >в и (1 -вр)<(1 -в), указывает на большую ошибку второго рода и на недостаточную

мощность критерия, которая может быть увеличена за счет увеличения объема выборочных совокупностей. Очевидно, что статистические различия можно считать значимыми и особенно надежными, если условия p <а и (1 - вр)>(1 -в) выполняются для выборок, объем которых меньше 30 значений. Кроме этого, отклонение гипотезы H0 при p < а, высокой мощности (1 -вр)> (1 -в) и малой ошибке второго рода вр < в имеет большое значение, поскольку позволяет обосновать достаточность объема малой выборки. Это важно при проведении фармакологических исследований, когда малый объем исследуемых выборок обычно объективно обоснован. Следовательно, при анализе малых выборок в случае отклонения нулевой гипотезы (p < а) этот вывод можно считать состоятельным, если вычисленная ошибка второго рода вр меньше зафиксированного значения в, а вычисленная мощность t-критерия 1 - вр больше зафиксированной мощности 1 - в .

Результаты исследования и их обсуждение

В результате проведенного теоретического исследования был разработан способ оценки мощности, который совместно с алгоритмом /-критерия позволяет уточнить выводы в отношении

проверяемой статистической гипотезы об отсутствии значимых различий между средними значениями нормально распределенных выборок. Разработанный способ может быть использован для двух вариантов /-критерия, один из которых используется для сравнения средних значений при значимо не различающихся дисперсиях, а другой - при значимо различающихся дисперсиях. Для автоматизации вычисления мощности и ошибки второго рода предложено использование доступного итернет-ресурса Keisan online calculator, который находится в открытом доступе по адресу https://keisan.casio.com. Разработанный способ содержит следующие этапы вычислений.

1. Для анализируемых выборочных совокупностей Yi и Y2, имеющих объемы соответственно N1 и N2, по следующим формулам вычисляются выборочные средние значения Yj и Y2, а также выборочные значения несмещенных дисперсий SJ2 и :

N1 N2 NJ / _ч2 N2 / _уг

_ Z yji _ Z y2i Z^i - YJ) ZK' - Y2j

YJ = -, Y2 = -, S2 = -, S22 = -. (3)

J NJ 2 N2 Nj - J 2 N2 - J

2. При помощи критерия согласия (хи-квадрат) производится проверка статистической гипотезы о соответствии эмпирических распределений анализируемых выборок теоретическому нормальному распределению. Для анализа малых выборок целесообразно использовать равночастотную группировку эмпирических данных [1]. В качестве параметров нормального распределения используются выборочные параметры YJ, SJ2 и Y2, S22. В случае, если для выборок Yi и Y2 обоснованно принимается гипотеза о нормальности их распределения, то для проверки гипотезы об отсутствии значимых различий между средними значениями YJ и Y2 этих выборок можно использовать /-критерий Стьюдента.

3. При помощи критерия Фишера [2] проверяется статистическая гипотеза об отсутствии значимых различий между выборочными дисперсиями SJ2 и S2 . Если выборочные дисперсии значимо не различаются, то для сравнения выборочных средних значений YJ и Y2 применяется первый вариант вычислений /-критерия, а в случае значимых различий между ними - второй.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Для проверки статистической гипотезы об отсутствии значимых различий между средними значениями YJ и Y2 фиксируется уровень значимости (ошибка первого рода) а и специфичность критерия J - а, а также допустимая ошибка второго рода в и мощность критерия J - в .

5. Выполняются вычисления по первому или второму варианту /-критерия. В результате определяются значения статистик / или /2, а также соответствующие им степени свободы kJ или

6. В результате решения следующих уравнений производится вычисление вероятности p нулевой гипотезы H0 и критического значения статистики / :

да да

Р = J f (/) d/, a=J f (/) dt,

/p /кр

где f(/) - плотность распределения вероятности (распределение Стьюдента) с числом степеней свободы kJ или к2 в зависимости от выбранного варианта вычислений /-критерия. Также в первом варианте вычислений /-критерия / = /, а во втором варианте / = /2. Для автоматизации

вычислений могут быть использованы, например, встроенные статистические функции табличного процессора Excel.

7. Расчетное значение ошибки второго рода вр и мощность критерия J - вр вычисляются по формулам:

да да

вр = J -j s(/) d/, J-вр = J s(/) d/,

/кр /кр

где s(/) - функция плотности вероятности для нецентрального распределения Стьюдента. Для первого варианта /-критерия нецентральное распределения Стьюдента s(/) задается числом степеней свободы kJ и параметром нецентральности 1 = /J, а для второго варианта - числом

степеней свободы k2 и параметром нецентральности Я = t2. Для автоматизации вычисления можно использовать электронный ресурс Keisan online calculator, который находится в открытом доступе по адресу https://keisan.casio.com.

8. Решение об отклонении гипотезы H0 принимается при выполнении следующих условий: tp > t , p <а и вр <в и (1 -вр)>(1 -в). Вероятность нулевой гипотезы p не должна быть больше зафиксированной ошибки первого рода а , а мощность критерия 1 - вр не должна быть меньше зафиксированной мощности 1 - в . Если указанные условия выполняются, то вывод об отклонении гипотезы H0 и принятие альтернативной гипотезы H1 можно считать состоятельным даже при малых объемах выборочных совокупностей. Если условия tp > t , p <а выполняются, но мощность критерия недостаточна (1 -вр)<(1 -в), то это указывает на необходимость проведения

дополнительных исследований с целью увеличения объема выборок и повышения мощности критерия. Постепенное увеличение объема выборок и проверка мощности t-критерия позволит оптимизировать проведение экспериментов и обеспечить экономию времени и средств. Пример практического применения t-критерия с оценкой его мощности. Рассмотрим вычисление мощности t-критерия на практическом примере. В приведенной ниже последовательности действий непосредственные вычисления, связанные с нахождением выборочных средних, дисперсий, проверкой выборок на нормальность, проверкой равенства дисперсий, не приводятся, но показаны результаты этих вычислений. Это сделано с целью обратить основное внимание непосредственно на t-критерий, оценку его мощности и формулировку выводов, но вместе с тем отразить и общий порядок вычислений.

Пусть в результате проведенных экспериментов получены две выборочные совокупности Yi и Y2. Каждая из выборок содержит по десять значений, т.е. N1 = N2 = 10. Множества числовых значений выборок Yi и Y2 количественно выражают состояние единиц наблюдения, вызванные факторными воздействиями Xi и X2.

1. Выборочные средние значения и дисперсии для анализируемых выборок, вычисленные по формулам (3), соответственно равны: Y = 151,9; S12 = 12,25; Y2 = 155,6; S22 = 5,29.

2. В силу малого объема анализируемых выборок непосредственно проверить статистическую гипотезу о нормальном распределении выборок не представляется возможным. Допустим, что имеются теоретические основания и опубликованные экспериментальные результаты, позволяющие полагать, что в данных экспериментах значения результативного признака в анализируемых выборках распределены по нормальному закону.

3. В результате проверки статистической гипотезы об отсутствии значимых различий между

выборочными дисперсиями S12 и S2 при помощи критерия Фишера на уровне значимости

а = 0,05 установлено, что выборочные дисперсии значимо не различаются.

^ S2 12,25 „ „„ Fp = —— = 2,32; p = 0,11 > 0,05. p S22 5,29 F

Следовательно, можно использовать первый вариант t-критерия.

4. Для проверки гипотезы об отсутствии значимых различий между выборочными средними значениями зафиксируем ошибку первого рода а = 0,05 и ошибку второго рода в = 4-а = 4• 0,05 = 0,2 . Соответственно специфичность t-критерия равна 1 -а = 0,95 , а мощность фиксируется на уровне 1 - в = 1 - 0,2 = 0,8.

5. Вычислим статистику t-критерия <р = t1 по формулам (1).

S = (N1 - 1)S2 +(N2 - 1)S22 = 19-12,25 + 9• 5,29 = 2 f = |Y1 -= |151,9-155,6| = 28

X V N1 + N - 2 i 18 ' ' р o 11 1 _ П т , ■

SXI— + — 2,96-J—+ -N1 N2 V10 10

6. Вычислим вероятность p нулевой гипотезы H0 и критическое значение статистики t . Для автоматизации вычислений воспользуемся табличным процессором Microsoft Excel. Статистика t-критерия t имеет теоретическое распределение Стьюдента f (t). Число степеней свободы, полностью определяющее эту функцию, равно kl = N1 + N2 - 2 = 10 +10 - 2 = 18 . Для

да

автоматизации вычислений интеграла p = J f (t ) dt воспользуемся статистической функцией

tP

СТЬЮДРАСП табличного процессора Excel 2007. Результат вычислений:

да

p = СТЬЮДРАСП(2,8;18;1)= 0,006 . Для решения уравнения a=J f (t) dt при условии, что

tKp

а = 0,05, воспользуемся функцией СТЬЮДРАСПОБР. Данная функция вычисляет критическое значение tKp для двух областей t < -tp и t > tKp распределения Стьюдента. Поэтому при задании функции в поле «вероятность» необходимо указывать значение 2 • а = 0,1. Результат вычислений: i = СТЬЮДРАСПОБР(0,1; 18)= 1,73 .

да

7. Вычислим расчетные значения мощности t-критерия 1 - вр = J s(t) dt и ошибки второго рода вр .

tKp

В данном интеграле функция s(t ) - нецентральное распределение Стьюдента с числом степеней

свободы kj = 18 и параметром нецентральности Я = t = 2,8 . Для автоматизации вычисления

воспользуемся электронным калькулятором Keisan online calculator, который находится в открытом доступе по адресу https://keisan.casio.com. (рис.)

Рис. Рабочий лист калькулятора Keisan online calculator

На рабочем листе калькулятора в поле «percentile» вводится критическое значение статистики tKp = 1,73. В поле «degree of freedom» указывается число степеней свободы k1 = 18. В поле «noncentrality» заносится значение параметра нецентральности Я = tp = 2,8 . После нажатия кнопки «Execute» калькулятор вычисляет расчетную вероятность ошибки второго рода вр = 0,15 (lower cumulative P) и расчетную мощность t-критерия 1 -в = 0,85 (upper cumulative Q). 8. Поскольку в результате вычислений установлено, что (tp = 2,8) > (tKp = 1,73) и (p = 0,006) < (а = 0,05)

, то это значит, что есть основания отклонить гипотезу Н0 и принять гипотезу Н1. Среднее значение У2 = 155,6 выборки У2 значимо больше среднего значения У1 = 151,9 выборки У¡. При этом расчетная вероятность ошибки второго рода /Зр = 0,15 меньше зафиксированного в начале исследования значения в = 0,2. Расчетная мощность /-критерия 1 - /Зр = 0,85 больше зафиксированной мощности 1 - в = 0,8 . Следовательно, вывод о значимом различии выборочных средних значений можно считать состоятельным, несмотря на малый объем исследуемых выборочных совокупностей.

Заключение

Разработанный способ вычисления мощности является логическим завершением /-критерия и позволяет рассматривать его как законченную процедуру принятия статистического решения в отношении проверяемой гипотезы. Предложенный порядок вычисления и вариант их автоматизации позволяет достаточно просто и без больших временных затрат провести статистический анализ и обосновать состоятельность статистических выводов, поскольку в результате проведенных вычислений становятся известными все статистические ошибки (первого и второго рода). Решение в отношении проверяемой гипотезы принимается на основании сравнения вычисленных вероятностей и статистических ошибок с заданными в начале исследования значениями. Предложенный способ вычислений может представлять интерес для исследователей, не имеющих специальной математической подготовки, но использующих в своей работе методы математической статистики.

Литература (references)

1. Лямец Л.Л., Евсеев А.В. Методика проверки гипотезы о нормальном распределении малой выборки в фармакологических исследованиях // Вестник Смоленской государственной медицинской академии. -2019. - №1, Т.18. - С. 55-66. [Ljamec L.L., Evseev A.V. Vestnik Smolenskoj gosudarstvennoj medicinskoj akademii. Bulletin of the Smolensk state medical Academy. - 2019. - N1, V.18. - P. 55-66. (in Russian)]

2. Медик В.А., Токмачев M.C., Фишман Б.Б. Статистика в медицине и биологии: Руководство. В 2-х томах / Под редакцией Ю.М. Комарова. Т.1. Теоретическая статистика. - М.: Медицина, 2000. - 412 с. [Medik V.A., Tokmachev M.S., Fishman B.B. Statistika v medicine i biologii: Rukovodstvo. T.1. Teoreticheskaja statistika. Statistics in medicine and biology: a Guide. V.1 Theoretical statistics. - Moscow: Medicine, 2000. -412 p. (in Russian)]

3. Гланц С. Медико-биологическая статистика. Пер. с англ. - М.: Практика, 1998. - 459 с. [Glanc S. Mediko-biologicheskaja statistika. Medico-biological statistics. - Moscow: Praktika, 1998. - 459 p. (in Russian)]

4. Сидоренко Е.В. Методы математической обработки в психологии. - СПб.: ООО «Речь», 2003. - 350 с. [Sidorenko E.V. Metody matematicheskoj obrabotki v psihologii. Methods of mathematical processing in psychology. - Saint-Petersburg: LLC "Speech", 2003. - 350 p. (in Russian)]

Информация об авторах

Лямец Леонид Леонидович - кандидат технических наук, доцент, заведующий кафедрой физики, математики и медицинской информатики ФГБОУ ВО «Смоленский государственный медицинский университет» Минздрава России. E-mail: LLL190965@yandex.ru

Евсеев Андрей Викторович - доктор медицинских наук, профессор, заведующий кафедрой нормальной физиологии ФГБОУ ВО «Смоленский государственный медицинский университет» Минздрава России. E-mail: hypoxia@yandex.ru

Козлова Евгения Карповна - старший преподаватель кафедры физики, математики и медицинской информатики ФГБОУ ВО «Смоленский государственный медицинский университет» Минздрава России. E-mail: fmmi@smolgmu.ru

Колпакова Марина Анатольевна - старший преподаватель кафедры физики, математики и медицинской информатики ФГБОУ ВО «Смоленский государственный медицинский университет» Минздрава России. E-mail: fmmi@smolgmu.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.