Научная статья на тему 'Методика описательного статистического анализа номинальных признаков в выборках малого объема, полученных в результате фармакологических исследований'

Методика описательного статистического анализа номинальных признаков в выборках малого объема, полученных в результате фармакологических исследований Текст научной статьи по специальности «Математика»

CC BY
543
38
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВЫБОРОЧНЫЙ МЕТОД / НОМИНАЛЬНЫЕ ПРИЗНАКИ / ОПИСАТЕЛЬНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ / ИНТЕРВАЛЬНЫЕ ОЦЕНКИ / ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ / SAMPLING METHOD / NOMINAL CHARACTERISTICS / DESCRIPTIVE STATISTICAL ANALYSIS / INTERVAL ESTIMATES / STATISTICAL HYPOTHESIS TESTING

Аннотация научной статьи по математике, автор научной работы — Лямец Леонид Леонидович, Евсеев Андрей Викторович

Цель. Цель теоретического исследования заключалась в разработке методики описательного статистического анализа номинальных признаков, т.е. признаков, измеренных в номинальной шкале. Методика разрабатывалась для анализа результатов экспериментальных фармакологических исследований, которые обычно по объективным причинам представлены выборочными совокупностями (выборками) малого объема с числом единиц наблюдений не более 30. Методика представляет собой алгоритм вычислительных действий, который позволит обеспечить проведение статистического анализа номинальных признаков, используемых для описания фармакологических эффектов. Методика. Проведен обзорный анализ публикаций по фармакологии, в которых для получения новых знаний и обоснования результатов исследований использовались статистические методы анализа экспериментальных данных. В результате обзора выявлены основные, наиболее часто встречающиеся исследовательские задачи, требующие статистического анализа признаков, измеренных в номинальной шкале. Проведена систематизация вычислительных операций, необходимых для проведения статистического анализа номинальных признаков в типичных исследовательских задачах. На основе систематизированных вычислительных операций разработана методика (алгоритм статистического анализа) номинальных признаков, которая позволит обеспечить количественное обоснование индуктивных выводов в научных исследованиях и положений, выносимых на защиту в диссертационных работах по фармакологической тематике. Результаты. Разработана и обоснована методика для проведения описательного статистического анализа номинальных признаков в фармакологических исследованиях. Методика ориентирована на анализ выборок малого объема в типичных, наиболее часто встречающихся исследовательских задачах. Для реализации методики предложены способы автоматизации вычислений с использованием табличного процессора Excel. Заключение. В результате обзорного анализа публикаций по фармакологии проведена систематизация вычислительных операций, необходимых для проведения описательного статистического анализа номинальных признаков в типичных исследовательских задачах. На основе систематизированных вычислительных операций разработана методика (алгоритм статистического анализа) номинальных признаков. Показан практический пример автоматизации входящих в методику вычислений с использованием современных информационных технологий. Методика может представлять практический интерес для научных работников, осуществляющих исследования в области фармакологии и использующих в своей работе статистические методы анализа экспериментальных данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лямец Леонид Леонидович, Евсеев Андрей Викторович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODOLOGY OF DESCRIPTIVE STATISTICAL ANALYSIS OF THE NOMINAL CHARACTERISTICS IN THE SMALL SAMPLE SIZES OBTAINED A A RESULTS OF PHARMACOLOGICAL STUDIES

Objective. The aim of the theoretical study was to develop a method of descriptive statistical analysis of nominal characteristics, i.e. features measured in the nominal scale. The technique was developed to analyze the results of experimental pharmacological studies, which are usually for objective reasons represented by sample sets (samples) of small volume with the number of units of observations not more than 30. The technique is an algorithm of computational actions, which will provide a statistical analysis of the nominal characteristics used to describe the pharmacological effects. Method. A review analysis of publications on pharmacology, in which statistical methods of analysis of experimental data were used to obtain new knowledge and substantiate the results of studies, was carried out. The review identified the main, most common research tasks that require statistical analysis of features measured in the nominal scale. The systematization of computational operations necessary for the statistical analysis of nominal characteristics in typical research problems is carried out. On the basis of the systematized computational operations the technique (algorithm of the statistical analysis) of nominal signs which will allow to provide a quantitative justification of inductive conclusions in scientific researches and the positions taken out on protection in dissertations on pharmacological subjects is developed. Results. The technique for descriptive statistical analysis of nominal characteristics in pharmacological studies is developed and justified. The technique is focused on the analysis of small samples in typical, most common research problems. To implement the methodology, the methods of automation of calculations using the Excel spreadsheet are proposed. Conclusion. As a result of the review analysis of publications on pharmacology, the systematization of computational operations necessary for the descriptive statistical analysis of nominal characteristics in typical research problems is carried out. On the basis of systematic computational operations the technique (algorithm of statistical analysis) of nominal characteristics is developed. The practical example of automation of the calculations entering into a technique with use of modern information technologies is shown. The technique can be of practical interest for scientists who carry out research in the field of pharmacology and use in their work statistical methods of analysis of experimental data.

Текст научной работы на тему «Методика описательного статистического анализа номинальных признаков в выборках малого объема, полученных в результате фармакологических исследований»

УДК 519 253

МЕТОДИКА ОПИСАТЕЛЬНОГО СТАТИСТИЧЕСКОГО АНАЛИЗА НОМИНАЛЬНЫХ ПРИЗНАКОВ В ВЫБОРКАХ МАЛОГО ОБЪЕМА, ПОЛУЧЕННЫХ В РЕЗУЛЬТАТЕ ФАРМАКОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ © Лямец Л.Л., Евсеев А.В.

Смоленский государственный медицинский университет, Россия, 214019, Смоленск, ул. Крупской, 28

Резюме

Цель. Цель теоретического исследования заключалась в разработке методики описательного статистического анализа номинальных признаков, т.е. признаков, измеренных в номинальной шкале. Методика разрабатывалась для анализа результатов экспериментальных фармакологических исследований, которые обычно по объективным причинам представлены выборочными совокупностями (выборками) малого объема с числом единиц наблюдений не более 30. Методика представляет собой алгоритм вычислительных действий, который позволит обеспечить проведение статистического анализа номинальных признаков, используемых для описания фармакологических эффектов.

Методика. Проведен обзорный анализ публикаций по фармакологии, в которых для получения новых знаний и обоснования результатов исследований использовались статистические методы анализа экспериментальных данных. В результате обзора выявлены основные, наиболее часто встречающиеся исследовательские задачи, требующие статистического анализа признаков, измеренных в номинальной шкале. Проведена систематизация вычислительных операций, необходимых для проведения статистического анализа номинальных признаков в типичных исследовательских задачах. На основе систематизированных вычислительных операций разработана методика (алгоритм статистического анализа) номинальных признаков, которая позволит обеспечить количественное обоснование индуктивных выводов в научных исследованиях и положений, выносимых на защиту в диссертационных работах по фармакологической тематике.

Результаты. Разработана и обоснована методика для проведения описательного статистического анализа номинальных признаков в фармакологических исследованиях. Методика ориентирована на анализ выборок малого объема в типичных, наиболее часто встречающихся исследовательских задачах. Для реализации методики предложены способы автоматизации вычислений с использованием табличного процессора Excel.

Заключение. В результате обзорного анализа публикаций по фармакологии проведена систематизация вычислительных операций, необходимых для проведения описательного статистического анализа номинальных признаков в типичных исследовательских задачах. На основе систематизированных вычислительных операций разработана методика (алгоритм статистического анализа) номинальных признаков. Показан практический пример автоматизации входящих в методику вычислений с использованием современных информационных технологий. Методика может представлять практический интерес для научных работников, осуществляющих исследования в области фармакологии и использующих в своей работе статистические методы анализа экспериментальных данных.

Ключевые слова: выборочный метод, номинальные признаки, описательный статистический анализ, интервальные оценки, проверка статистических гипотез

METHODOLOGY OF DESCRIPTIVE STATISTICAL ANALYSIS OF THE NOMINAL CHARACTERISTICS IN THE SMALL SAMPLE SIZES OBTAINED A A RESULTS OF PHARMACOLOGICAL STUDIES Lyamets L.L., Evseev A.V.

Smolensk State Medical University, 28, Krups^j St., 214019, Smolensk, Russia

Abstract

Objective. The aim of the theoretical study was to develop a method of descriptive statistical analysis of nominal characteristics, i.e. features measured in the nominal scale. The technique was developed to

analyze the results of experimental pharmacological studies, which are usually for objective reasons represented by sample sets (samples) of small volume with the number of units of observations not more than 30. The technique is an algorithm of computational actions, which will provide a statistical analysis of the nominal characteristics used to describe the pharmacological effects.

Method. A review analysis of publications on pharmacology, in which statistical methods of analysis of experimental data were used to obtain new knowledge and substantiate the results of studies, was carried out. The review identified the main, most common research tasks that require statistical analysis of features measured in the nominal scale. The systematization of computational operations necessary for the statistical analysis of nominal characteristics in typical research problems is carried out. On the basis of the systematized computational operations the technique (algorithm of the statistical analysis) of nominal signs which will allow to provide a quantitative justification of inductive conclusions in scientific researches and the positions taken out on protection in dissertations on pharmacological subjects is developed.

Results. The technique for descriptive statistical analysis of nominal characteristics in pharmacological studies is developed and justified. The technique is focused on the analysis of small samples in typical, most common research problems. To implement the methodology, the methods of automation of calculations using the Excel spreadsheet are proposed.

Conclusion. As a result of the review analysis of publications on pharmacology, the systematization of computational operations necessary for the descriptive statistical analysis of nominal characteristics in typical research problems is carried out. On the basis of systematic computational operations the technique (algorithm of statistical analysis) of nominal characteristics is developed. The practical example of automation of the calculations entering into a technique with use of modern information technologies is shown. The technique can be of practical interest for scientists who carry out research in the field of pharmacology and use in their work statistical methods of analysis of experimental data.

Keywords: sampling method, nominal characteristics, descriptive statistical analysis, interval estimates, statistical hypothesis testing

Введение

В настоящее время в доступных литературных источниках по статистическому анализу экспериментальных данных определено большое количество показателей и количественных характеристик (математических конструктов), которые могут быть использованы для описания, объяснения и прогнозирования процессов и явлений в исследуемых статистических совокупностях.

Разнообразие математических конструктов и их семантика дает широкую возможность для разработки программ научных исследований и количественного обоснования их результатов. В связи с этим разнообразием вычислительных действий и соответствующих им математических конструктов возникает необходимость в разработке рациональных методик статистического анализа экспериментальных данных, которые соответствуют целям и задачам конкретного научного исследования.

Первичная статистическая информация может быть получена на основе измерений с использованием номинальных шкал. Эти шкалы также называются шкалами наименований или классификационными шкалами. Номинальный тип шкал соответствует простейшему виду измерений. При этом объектам присваиваются шкальные значения - числа, которые используются лишь как «имена» или символы.

Простейшей номинальной шкалой является дихотомическая шкала. Дихотомическая шкала имеет всего две градации, которые кодируются соответствующими числовыми или (и) буквенными символами. В отношении градаций справедливы следующие утверждения. Все измеряемые единицы наблюдения, отнесенные к одной градации, эквивалентны между собой по определенному регистрируемому свойству. Единицы наблюдения, отнесенные к разным градациям, между собой не эквивалентны. Иные отношения между градациями не определены. Эти особенности номинальной дихотомической шкалы требуют применения соответствующих методов статистического анализа. Примером дихотомии при выполнении фармакологических исследований может служить обнаружение побочного действия после применения лекарственного препарата. При этом побочный эффект либо существует, либо отсутствует. Другой вариант дихотомии наблюдается, например, при проведении опытов по оценке острой токсичности химических соединений, претендующих на включение в перечень лекарственных средств [3]. В

результате измерения в дихотомической шкале отражают либо гибель опытного животного, либо его выживание после введения тестируемой дозы.

Примером дихотомии также является развитие у пациента ощущения эйфории или дисфории после введения морфиноподобных наркотических средств. Из клинических примеров дихотомию можно проиллюстрировать эффектом местных анестетиков при выполнении проводниковой анестезии - чувствительность сохраняется или исчезает, рефлекс регистрируется или отсутствует.

Кроме дихотомических шкал существуют политомические номинальные шкалы, которые имеют три и более градаций измеряемого свойства. Политомия также широко представлена в фармакологических исследованиях. В частности, при постановке экспериментов по оценке влияния веществ на сердечную деятельность могут выявляться (или не выявляться) те или иные эффекты, такие, например, как инотропное действие (изменение силы сокращения), хронотропное действие (изменение частоты сокращений), дромотропное действие (изменение распространения возбуждения по элементам проводящей системы сердца), батмотропное действие (изменение возбудимости миокарда). Следует отметить, что каждый из этих эффектов может быть как положительным, так и отрицательным, что, в свою очередь, является уже проявлением дихотомии

[2, 4].

В качестве другого примера политомии может служить эксперимент по оценке спектра антибактериальной активности химиотерапевтических веществ, которые способны оказывать эффект в отношении различных видов бактерий, риккетсий, грибов, простейших. При этом вещество может либо убивать инфекционный агент, либо ограничивать его размножение, что следует рассматривать как дихотомию.

Для выявления и количественного описания индуктивных закономерностей на основе номинальных признаков, используются соответствующие методы статистического анализа и математические конструкты. Обычно статистическое исследование начинается с описательного количественного анализа.

Ниже приводится методика описательного количественного анализа номинальных признаков, которая ориентирована на исследователей, не имеющих специального математического образования, и построена на основе анализа типичных целей и задач, описанных в публикациях и литературных источниках по фармакологическим исследованиям. Предусмотренные методикой вычисления достаточно просто автоматизируются с использованием доступных информационных технологий. Вычисления и полученные на их основе математические конструкты обеспечивают количественное описание закономерностей в спланированных фармакологических исследованиях.

Таким образом, целью исследования явилась разработка методики описательного статистического анализа номинальных признаков, т.е. признаков, измеренных в номинальной шкале.

Методика

В основе любого научного исследования лежат соответствующие целям и задачам исследования научные методы. Для практической реализации выбранного научного метода в конкретном исследовании разрабатывается методика, которая представляет собой определенную процедуру или взаимосвязанную последовательность действий.

Особенность данного исследования заключается в том, что его целью являлась разработка методики статистического анализа номинальных признаков. Очевидно, что решение задачи, направленной на достижение этой цели изначально не имеет строго определенного алгоритма и является поисковой или эвристической. Поэтому для решения исследовательской задачи, использовались эвристические правила морфологического анализа и синтеза, разработанные швейцарским астрономом Ф. Цвики в 1930-х гг. Правила предписывают упорядоченный и систематизированный обзор всех возможных вариантов решений поставленной задачи. Они позволяют реализовать идеи системного подхода для решения данной поисковой задачи и содержат общие рекомендации по организации интеллектуальных действий. Правила морфологического анализа и синтеза формулируются следующим образом: на основании анализа имеющейся информации выбирается группа основных элементов рассматриваемого объекта или системы; для каждого элемента выбирается множество альтернативных вариантов реализации; комбинируя варианты, получают множество решений, из которых синтезируется наиболее рациональное.

Для решения поставленной эвристической задачи были выделены основные морфологические единицы - этапы реализации разрабатываемой методики. На основе анализа публикаций по фармакологии и статистическому анализу данных в доступной литературе для каждого этапа было составлено несколько возможных вариантов его реализации. Затем на основе комбинирования вариантов был осуществлен синтез наиболее рационального эвристического решения, основанного на соответствующих математических конструктах. Обязательным условием для разрабатываемой методики являлась возможность автоматизировать все необходимые вычисления с использованием современных информационных технологий.

Основными этапами разрабатываемой методики (морфологическими единицами) были выбраны следующие действия: 1) описание типичности и вариации номинального признака с использованием выборочных точечных и интервальных оценок; 2) проверка гипотезы о статистической связи (сопряженности) между номинальными признаками и оценка силы статистической связи между ними; 3) вычисление мощности используемых статистических критериев.

Результаты исследования и их обсуждение

В результате решения поисковой задачи на основе эвристических правил была разработана методика анализа номинальных признаков, отражающих основные и побочные фармакологические эффекты в выборочных статистических исследованиях. Корректное применение методики предполагает, что исследователем спланирована и проведена последовательность однотипных независимых испытаний (схема Бернулли), направленных на проверку каких-либо предположений опытным путем. Математический аппарат методики основан на выборочном методе статистического исследования. В основе лежат следующие положения. Объектом статистического исследования является формально определенная через множество признаков включения статистическая совокупность, которая в случае применения выборочного метода называется генеральной. Предметом исследования являются закономерности, присущие номинальным признакам, каждый из которых имеет определенное число градаций. Для количественного описания типичности проявления градаций можно использовать соответствующие этим градациям относительные частоты (вероятности) pt. Применение выборочного метода статистического исследования основано на том, что подлежащая исследованию генеральная совокупность не может быть исследована сплошным методом, т.е. практически не может быть проведено бесконечно большое количество испытаний. Поэтому все генеральные статистические показатели, в том числе и генеральные вероятности pt, являются величинами неизвестными. Для их оценки из генеральной совокупности на основе принципа случайного отбора формируется выборочная совокупность (выборка) ограниченного объема N. Выборочные совокупности, объем которых меньше 30 единиц наблюдения условно считаются малыми.

Методика включает в себя три основных этапа статистического анализа. Первый этап имеет своей целью вычисление выборочных точечных и интервальных оценок для вероятностей pt, а также вычисление количественных оценок вариации исследуемых номинальных признаков. Также можно сказать, что цель первого этапа состоит в количественном описании статистических закономерностей, присущих типичности и вариации исследуемых номинальных признаков.

Для примера рассмотрим применение вычислительных операций для одного номинального признака A , имеющего к градаций. Пусть первичные экспериментальные данные получены в результате исследования выборочной совокупности объемом N единиц наблюдения. Соответственно проведено N однотипных независимых испытаний. В каждом испытании регистрируется проявившаяся градация номинального признака A . Если номинальный признак имеет к градаций, то для каждой градации At, 1 < i < к , вычисляются абсолютные частоты fi ее проявления в N испытаниях. Для автоматизации вычислений можно использовать статистическую функцию СЧЕТЕСЛИ табличного процессора Microsoft Excel.

Для абсолютных частот f i вычисляются соответствующие им эмпирические относительные

частоты или эмпирические вероятности pt. Вычисление эмпирических вероятностей производится

_ f

по следующей формуле: pt = ^, 1 < i < к .

Эмпирические вероятности pi являются приближенными точечными оценками соответствующих неизвестных генеральных вероятностей pt. Так как выборка, включающая в себя случайным образом отобранные единицы наблюдения для проведения однотипных независимых испытаний, является случайным продуктом, то, следовательно, эмпирические вероятности pt, вычисленные на основе результатов проведенных испытаний, являются случайными величинами. Возникает необходимость оценить неизвестную величину через случайную величину. Оценить неизвестные генеральные вероятности pt через случайные выборочные величины pt можно с использованием интервальных вероятностных оценок - доверительных интервалов. Формальная запись доверительного интервала имеет вид: P(a < pt < b) = y , где у - доверительная вероятность, at и bt - границы доверительного интервала. По сути, доверительный интервал считается определенным, если для заданной вероятности у вычислены границы доверительного интервала. В приведенной формальной записи символ P означает вероятность события, записанного в скобках в виде двойного неравенства. В данной методике для расчета границ доверительного интервала использован метод, основанный на биномиальном распределении [1]. Для вычисления границ доверительного интервала сначала необходимо задать доверительную вероятность у и, следовательно, определить уровень значимости а = 1 - у. Для медико-биологических исследований вполне приемлемой является доверительная вероятность у = 0,95 и уровень значимости а = 1 - 0,95 = 0,05 . Для заданного объема выборочной совокупности или числа испытаний N и

вычисленной для градации At абсолютной частоты fi нижняя граница доверительного интервала

f

вычисляется по следующей формуле: at =--К—-г, где F1(d1;d2;v) - квантиль

fi +(N - f +1)-F1(d1; d2; v)

порядка v = 1 - а/2 статистического F-распределения (Фишера) со степенями свободы dj = 2(n - f +1) и d2 = 2f. Верхняя граница доверительного интервала вычисляется по формуле:

b. =-(f +1 F(d3;d.4'v)—^, где F2(d3;d4;v) - квантиль порядка v = 1 -а/2 статистического F-

N - fi +\fi + 1)-F2 (d3; dA; v)

распределения (Фишера) со степенями свободы d3 = 2(f +1) и d4 = 2(N - f). Автоматизировать вычисление квантилей F1(d1; d2; v) и F2 (d 3; d 4; v) можно в программе Microsoft Excel с использованием статистических функций FРАСПОБР (а/ 2; d1; d2) и FРАСПОБР (а/ 2; d3; d4) соответственно.

Вычисленный доверительный интервал имеет важное практическое значение. Он позволяет дать интервальную вероятностную оценку неизвестной генеральной вероятности pt. На основании анализа первичных данных можно обоснованно полагать, что с вероятностью у неизвестный генеральный показатель pt принадлежит интервалу [at ,b. ]. Формальная запись этого вывода имеет вид: P(pt <a[ai,bt])=y. С практической точки зрения интервальные оценки надежнее точечных оценок pt.

Количественная оценка вариации номинального признака позволяет судить об однородности результатов, полученных в однотипных независимых испытаниях. Вариация - это явление, присущее статистической совокупности (множеству единиц наблюдения) и выражающееся в том, что измеряемый признак варьирует, изменяется при переходе от одной единицы наблюдения к другой. Важно отметить, чем меньше вариация, тем больше однородность проведенных измерений и наоборот. Если, например, при проведении измерений с использованием номинального дихотомического признака все единицы наблюдения были отнесены к одной градации, то очевидно, что вариация отсутствует и результаты измерения максимально однородны. Следовательно, показатель, количественно оценивающий вариацию, должен быть равен нулю. В случае если все единицы наблюдения распределились поровну между двумя градациями, то вариация максимальна и однородность таких измерений минимальна. Для оценки вариации номинального признака A можно использовать коэффициент изменчивости категорий (IQV, от англ. index of qualitative variation). Этот коэффициент вычисляется как отношение наблюдаемой вариации к максимально возможной и может принимать значения от 0 до 1.

ормула для расчета ЩУ имеет вид: ^V = -

к | N2 -X /2 1=1

Ы1 (к 1) ' ГДе N * объем выборочной совокупности

(число испытаний); к - число градаций номинального признака; / - абсолютные частоты в градациях А1, 1 < 1 < к .

Пусть, например, признак А дихотомический, т.е. к = 2 . Абсолютные частоты градаций А1 и А2 исследуемого признака соответственно равны / = N ; /2 = 0 . В данном случае вариация признака отсутствует, поскольку все единицы наблюдения в результате измерений отнесены к одной градации А1. Градация А2 не встретилась ни разу. Величина ЩУ, количественно оценивающая

вариацию, равна нулю: IQV = -

2| N2 -X /2 1=1

2^2 - N2)

., ч - . = 0. Если при исследовании N (2 -1) N

дихотомического признака А (к = 2) абсолютные частоты градаций А1 и А2 соответственно равны /1 = N12 ; /2 = N12, то вариация будет максимально возможной. Величина ^У, количественно

оценивающая вариацию, равна единице: IQV = -

2| N2-X/2 1=1

Г

2

__V

N2 -

^2

N

— + —

4 4

Л ^

/у _

N2 (2 -1)

N

= 2 -1 = 1.

На этом вычислительные операции первого этапа методики можно считать законченными. Эмпирические вероятности р для градаций номинального признака А , интервальные оценки для вероятностей для этих градаций Р(р 1 е [а, Ь1 ])=^ и количественная оценка вариации через коэффициент ЩУ, по сути являются важными элементами формального описания статистических закономерностей, присущих типичности и вариации исследуемого номинального признака. Результаты вычислений в текстах научных работ и публикаций удобно представлять табличном виде. Пример табличного представления статистических закономерностей для дихотомического признака приведен в табл. 1.

Таблица 1. Пример табличного представления статистических закономерностей для дихотомического признака

Градации признака А 1 Абсолютные частоты / Вариации признака ^У Эмпирические вероятности р Доверительный интервал (7 = 0,95)

нижняя граница верхняя граница

А, /1 ^У р1 а1 Ь

А 2 /2 р2 а2 Ь2

Данные, приведенные в табл. 1, количественно выражают статистическое распределение исследуемого номинального признака, полученное на основе анализа результатов однотипных независимых испытаний. Предлагаемая формализация представляет собой законченное индуктивное умозаключение, так как выявление статистических закономерностей проводилось от анализа частных случаев к общему выводу.

Второй этап методики имеет своей целью выявление статистической сопряженности (статистической взаимосвязи) между двумя номинальными признаками А и В, которые измеряются у одной и той же единицы наблюдения исследуемой выборочной совокупности при проведении однотипных независимых испытаний. Число градаций признаков А и В обозначим соответственно через к и т .

С целью упрощения будем рассматривать номинальные дихотомические признаки: к = 2 и т = 2 . При необходимости вычислительные операции по аналогии могут быть распространены и для случая, когда один из признаков или оба признака являются политомическими. Предполагается, что для исследуемых признаков уже реализован первый этап методики и полученные эмпирическим путем статистические распределения для обоих признаков представлены в форме табл. 1.

Результаты экспериментальных измерений удобно представить в виде таблицы сопряженности признаков. Для дихотомических признаков А и В их сопряженность в исследуемой выборочной совокупности может быть представлена в табл. 2. Предложенная табличная форма с учетом адаптации под заданное число градаций номинальных признаков может быть использована для формализации статистической информации как при непосредственном проведении научных исследований, так и для наглядного представления конечных результатов в текстах диссертаций и научных публикациях.

Таблица 2. Таблица сопряжённости дихотомических признаков

Градации признаков В 1 В 2 Всего по признаку А

А\ /11 1,2 /А1

А 2 /21 /22 /А2

Всего по признаку В /В1 /В2 N

В таблице 2 использованы следующие обозначения: /А1 - число единиц наблюдения, у которых зафиксирована градация признака А1; /А2 - число единиц наблюдения, у которых зафиксирована градация признака А2; /В1 - число единиц наблюдения, у которых зафиксирована градация признака В1; /В2 - число единиц наблюдения, у которых зафиксирована градация признака В2;

/11 - число единиц наблюдения, у которых зафиксированы градации признаков А1 и В1 ; /12 -число единиц наблюдения, у которых зафиксированы градации признаков А1 и В2 ; /21 - число единиц наблюдения, у которых зафиксированы градации признаков А2 и В1 ; /22 - число единиц наблюдения, у которых зафиксированы градации признаков А2 и В2.

Для выявления статистической сопряженности номинальных признаков необходимо один из признаков рассматривать как факторный (группировочный), а другой - как результативный. Если признак А является группировочным, а признак В - результативным, то в этом случае вариация

т

признака В до группировки вычисляется по формуле: ЩУВ =—

( т \

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

N2 -¿/В

. ]=' У

г2 (т-

Если

N2 (т -1)

группировочным является признак В , а признак А - результативным, то в этом случае вариация

признака А до группировки вычисляется по формуле: ЩУА = -

к N2 -¿/А

'=1

А" N2 (к -1) •

Для случая дихотомических признаков т = 2 и к = 2 указанные формулы примут вид:

Юу = 2 - /I - /в2 ) . Юу = 2 - /I - /12 )

^В N 2 ; N 2 .

После группировки выборочной совокупности на основе градаций признака А вариацию признака В в образованных группах (внутригрупповую вариацию) можно оценить по формуле:

т

Г т \

/А'

У=1 У

= — 2 ,-г-^-, 1 <' < к ; где индекс ВА' указывает на оценку вариации в статистическом

/А •(т -1)

распределении признака В, которое соответствует ' -ой градации признака А; к - число градаций группировочного признака А .

В результате группировки выборочной совокупности на основе градаций признака В вариацию признака А в образованных группах (внутригрупповую вариацию) можно оценить по формуле:

к

22

1ЯУАВ! = \.2 —, 1 < ] < т; где индекс АВ] указывает на оценку вариации в статистическом

к {/В] ^ /]

/В] ■ (к -1)

распределении признака А , которое соответствует ] -й градации признака В ; т - число градаций группировочного признака В .

Если признаки A и B дихотомические, как показано в таблице 2, то формулы для оценки

2 (/Ai - 'fii fi2) _

2 f2

внутригрупповых вариаций признака B в группах Ai и A2 имеют вид: IQVBAi = 2

fAi

2(/2 _ /2 _ /2 )

внутригрупповая вариация признака B в группе Ai с объемом fAi ; IQVBA2 = VA2—^—^^

fA

' A2

внутригрупповая вариация признака В в группе А2 с объемом /А2 .

Формулы для оценки внутригрупповых вариаций признака А в группах В1 и В2 имеют вид:

2(/Bi fii f2i)

= ——^^ - внутригрупповая вариация признака А в группе В1 с объемом /В1;

IВ1

2( 12 - 12 _ 12)

^^АВ2 = —^—^^ - внутригрупповая вариация признака А в группе В2 с объемом /В2.

/В2

Средние значения из внутригрупповых вариаций фV вычисляется по следующим формулам:

_ I(/А * ШвА1)

1=1 _

N

IQVba = —-—--среднее значение из внутригрупповых вариаций при группировке признака

£ f • IQVabj)

В по признаку А ; IQVAB = --—- - среднее значение из внутригрупповых вариаций при

группировке признака А по признаку В ;

Для таблицы 2 формулы для вычисления средних значений из внутригрупповых вариаций имеют

/а1 • ШВА1 + /А2 • ШвА2 . ТТ^Т- _ /В1 " ^АВ1 + 1в2 " ^АВ2

вид: IQVвA = 'А1 * ВА1 ^А2 " ВА2 ; IQVAB = N

Для количественной оценки результатов группировки используется межгрупповая вариация BGV . В случае группировки признака В по признаку А межгрупповая вариация BGVBA вычисляется по

I(/^ -(те -^в*))

следующей формуле: BGVBA = —-—-. При осуществлении группировки признака А

по признаку В межгрупповая вариация BGVAB вычисляется по формуле:

BGK, =

£ f •(iQva _ iQvABj ))

АВ N

Для таблицы 2 формулы для вычисления межгрупповой вариации имеют вид:

Шу = /А1 \IQVb - IQVвA1)+ /А2 \IQVB - IQVвA2 ) . BGV = /в1 • {ША - IQVAB1)+ /в2 - IQVAB2 )

ВА N т ш N '

Проведение группировки, по своей сути, приводит к расщеплению вариации. Формальная запись этого результата имеет вид: IQVB = IQVBA + BGVBA - при группировке признака В по признаку А ;

IQVA = IQVAB + BGVAB - при группировке признака А по признаку В .

Вариация признака В до группировки IQVB равна сумме межгрупповой вариации BGVBA и

среднему значению из внутригрупповых дисперсий IQVBA . Соответственно вариация признака А до группировки IQVA равна сумме межгрупповой вариации BGVAB и среднему значению из внутригрупповых дисперсий IQVAB .

Отношение межгрупповой вариации BGV к общей вариации до группировки IQV называется

эмпирическим коэффициентом детерминации ц2. Формулы для вычисления имеют следующий

2 BGV„A „ , 2 BGVJB вид: Пва =- - при группировке признака В по признаку А ; пАВ =- - при группировке

IQVB IQVA

признака А по признаку В .

Корень из эмпирического коэффициента детерминации называется эмпирическим

корреляционным отношением п = . Этот показатель используется для количественной оценки

любого вида статистической связи между номинальными признаками. Для рассматриваемых

, |BGVBA группировок вычисления производятся по следующим формулам: пВА = - - при

V Шв

BGVAB

группировке признака В по признаку А; пАВ = -- при группировке признака А по

V IQVA

признаку В . Эмпирическое корреляционное отношение п есть величина, лежащая в интервале от нуля до единицы включительно. Чем больше значение п, тем сильнее статистическая связь между номинальными признаками. Для качественной оценки статистической связи можно использовать шкалу Чеддока [1], представленную в табл. 3.

Таблица 3. Шкалу Чеддока для качественной оценки эмпирического корреляционного отношения

Корреляционное отношение п 0,1-0,3 0,3-0,5 0,5-0,7 0,7-0,9 0,9-1,0

Характеристика силы связи Слабая Умеренная Заметная Высокая Весьма высокая

На этом второй этап методики статистического анализа можно считать законченным.

Целью третьего этапа методики является проверка гипотезы о значимости эмпирического корреляционного отношения, оценка мощности статистического критерия и формулировка выводов о состоятельности эмпирического корреляционного отношения. Для проверки значимости эмпирического корреляционного отношения формулируются следующие статистические гипотезы:

- гипотеза H0 - эмпирическое корреляционное отношение п значимо не отличается от нуля, т.е. статистическая связь не является значимой;

- гипотеза Hl - эмпирическое корреляционное отношение значимо отличается от нуля, т.е. статистическая связь является значимой.

Для проверки статистической гипотезы H0 необходимо зафиксировать ошибку первого рода (уровень значимости) а и выбрать соответствующий статистический критерий. Уровень значимости, например, можно зафиксировать на уровне 0,05. Для проверки гипотезы H0 следует использовать критерий Фишера. Расчетное значение статистики критерия Fp вычисляется по

, ^ BGVBA-(n - к)

формулам: Fp = ±-^ - если группировка производится по признаку A ;

iqvba •(к -1)

^ BGVAB^N - m)

F = -- если группировка производится по признаку B .

р iqvab -(m-1)

Величина p, отражающая вероятность появления статистики Fp при истинной H0, вычисляется

да

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

по формуле: p =J Fdu , где F = F (u, df, df2 ) - функция плотности распределения вероятности

fp

Фишера со степенями свободы df1 и df2 ; u - переменная величина в функции распределения, по которой производится интегрирование. Формулы для вычисления степеней свободы имеют следующий вид: df = к -1 и df2 = N - к - при группировке признака B по признаку A (признак A

- группировочный); df = m -1 и df2 = N - m - при группировке признака A по признаку B (признак B - группировочный).

Для автоматизации вычисления вероятности p можно использовать табличный процессор Microsoft Excel, в котором имеется встроенная статистическая функция FPACn( Fp ; df; df2). Если величина p > а, то нет оснований отклонить гипотезу H0, эмпирическое корреляционное отношение п значимо не отличается от нуля, т.е. статистическая связь не является значимой. Если величина p < а, то есть основание отклонить гипотезу H0, эмпирическое корреляционное

отношение п значимо отличается от нуля, т.е. статистическая связь является значимом и ее можно классифицировать по шкале Чеддока.

Для оценки состоятельности статистических выводов необходимо вычислить мощность Б-критерия Фишера. Для этого используется нецентральное распределение Фишера Рнц = Рнц(и, у, df2), где у = ¥р - параметр нецентральности. Мощность 1 -в для Б-критерия

вычисляется на основании следующего выражения: 1 -в = |FH4 du, где нижний предел

v

интегрирования V = F. Значение Fp вычисляется в результате решения следующего уравнения:

да

а = J F du . При заданном значении а , например а = 0,05 , и вычисленных степенях свободы df1 и

v

df2 для решения этого уравнения можно использовать статистическую функцию FРАСПОБР(а; df1; df2). Для вычисления мощности F-критерия 1 -в целесообразно воспользоваться электронный ресурс Keisan online calculator, находящийся в открытом доступе по электронному адресу https://keisan.casio.com.

На практике приемлемой обычно считается мощность статистического критерия 1 - в0, равная или превышающая 0,8, что соответствует вероятности ошибки второго рода в0 меньшей или равной 0,2. Следовательно, статистические выводы об эмпирическом корреляционном отношении п можно считать состоятельными, если выполняются два условия: p <а и (l -в)^(1 - в0). Если p <а, но при этом (1 -в)<(1 - в0), то в этом случае гипотезу H0 на заданном уровне значимости а можно отклонить, но при этом критерий не обладает требуемой чувствительностью (мощностью). Требуется увеличение объема экспериментальных данных. С другой стороны, если для малой выборки условия p <а и (1 -в)^(1 - в0) выполняются, то это означает, что даже имеющегося малого объема экспериментальных данных вполне достаточно для утверждения о состоятельности статистических выводов.

Пример практического применения методики

Покажем применение описанной выше методики на практическом примере. В спланированных фармакологических исследованиях изучалась выборочная совокупность объемом N = 26. В ней исследовались два фармакологических эффекта, которые измеряются политомическими признаками A и B . Каждый признак имеет три градации, т.е. к = 3 и m = 3 . Экспериментальные данные представлены в приведенной ниже таблице сопряженности признаков (табл. 4).

Таблица 4. Пример экспериментальных данных

Градации признаков B1 B 2 B 3 Всего по признаку A

A1 15 1 0 16

A 2 1 3 1 5

A 3 0 2 3 5

Всего по признаку B 16 6 4 26

Эмпирические вероятности для градаций признака A : p1 =16 = 0,616; p2 = — = 0,192;

26 26

p3 = — = 0,192. 3 26

Вычислим доверительные интервалы (у = 0,95) для эмпирических вероятностей градаций признака A . Учитывая, что а = 1 -у, вычислим величину v = 1 -а/2 = 1 -0,05/2 = 0,975 . Для градации Aj вычисляются степени свободы d1 = 2(N - f +1) = 2(26 -16 +1) = 22; d2 = 2f = 2 -16 = 32; d3 = 2(f +1) = 2(16 +1) = 34 ; d4 = 2(n - f ) = 2(26 -16) = 20 . Далее в программе Microsoft Excel с использованием статистических функций FРАСПОБР(а/ 2; d1; d2 ) и FРАСПОБР(а/2; d3; d4) вычисляются квантили F1 (d1; d2; v) и F2 (d3; d4; v) :

Е^;¿2;у) = ЕРАСП0БР(0,025; 22; 32)= 2,13 ; Е^;¿2;у) = ЕРАСП0БР(0,025; 34; 20) = 2,32 .

Границы доверительного интервала для эмпирической вероятности градации А1 вычисляются по

/ (/ +1)-Еу)

следующим формулам: а1 = -

/ +(М - / +1)-Е1(ё1; йг; у) °'4°6; Ь N - у. + (/ +1)-Е2 (¿3; ¿4; у)' Аналогичным образом рассчитываются доверительные интервалы для оставшихся эмпирических вероятностей градаций признака А и эмпирических вероятностей градаций признака В . Количественные оценки вариации признаков А и В до группировки производится по формулам:

■ = 0,798 .

Ша =■

к\ N2 -X /а

1110

= 0,821;

N2 (к -1) 1352 ' ~ В N * (т -1) 1352

Результаты статистического анализа первого этапа методики представлены в таблицах 5 и 6.

( т \

N2-1/В-

.

N2 (т -1)

1104

= 0,817 .

Таблица 5. Результаты статистического анализа первого этапа методики для признака А

Градации признака А. Абсолютные частоты / Вариации признака ^У Эмпирические вероятности Р1 Доверительный интервал (7 = 0,95)

нижняя граница верхняя граница

А, 16 0,821 0,616 0,406 0,798

А 2 5 0,192 0,065 0,393

А 3 5 0,192 0,065 0,393

т

.=1

Таблица 6. Результаты статистического анализа первого этапа методики для признака В

Градации признака В> Абсолютные частоты /> Вариации признака ^У Эмпирические вероятности Р> Доверительный интервал (7 = 0,95)

нижняя граница верхняя граница

В, 16 0,817 0,616 0,406 0,798

В 2 6 0,231 0,089 0,437

в 3 4 0,153 0,043 0,347

В соответствии со вторым этапом методики произведем вычисление эмпирических корреляционных отношений. Вычислим внутригрупповые вариации в группах А1:

3

№а1 =-

( 2 3 2^ -I /2

у у

/I -(3 -1)

3

= 0,176;

№А2 =-

3

-I /2

у j=1 у

/а2 "(3 - 1)

3

= 0,84;

№а3 =-

( 3 2^ -I /2

у у

/2 -(3 -1)

= 0,72 .

Вычислим внутригрупповые вариации в группах В .

Шав! =■

3\/в\-I /2

г2 I ,2 _1=1

/в2 -(3 -1)

3

= 0,176;

^АВ2 =■

Г 3 Л

2 -I У2

32 £и У ¿2

у у

/в2 "(3 - 1)

3

= 0,917 ;

Шав3 =■

Г 3 2Л

/в3 -I /¿2

у ••=' у /в23 -(3 -1)

= 0,563 .

_ x (/а. - шва1 )

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Средние из внутригрупповых вариаций: IQVBA = —-= 0,4082;

26

Шав =

I (/В - АВ•)

•=1

26

- = 0,4063.

I f -(iQVb -!QvBÄi))

Межгрупповые вариации: BGVba = —-—-= 0,4084 ;

I(/В/ -(JQVA -IQVABJ)) BGVAB = ^---= 0,415.

~ BGVBA 0,4084 n„n„

Эмпирические корреляционные отношения: nBA = ^ jqу v q j = 0,707 :

Пав = BGVb 0418 = 0 AB y IQVa \ 0,821

По шкале Чеддока зависимость между признаками A и В можно классифицировать как высокую. В соответствии с третьим этапом методики проверим гипотезу о незначимости эмпирических корреляционных отношений при а = 0,05, вычислим мощность статистического критерия и оценим состоятельность статистических выводов при заданной ошибке второго рода ß0 = 0,2 .

Вычислим статистики Fp : Fp = BGVba '(N - k) = 11.506 ; Fp = BGVab '(N - m) = 11,741.

p p IQVba-(к -1) p IQVab-(m -1)

Вычислим в программе Microsoft Excel вероятности p для проверки значимости величин цва и Пав соответственно. Для этого используем статистические функции: p = FPACn(11,506; 2; 23) = 0,00034; p = FРАСП(11,741; 2; 23) = 0,00031. Очевидно, что эмпирические корреляционные отношения цва = 0,707 и пАВ = 0,711 являются значимыми (значимо отличаются от нуля), так как для них соответственно выполняются условия p = 0,00034 < а = 0,05 и p = 0,00031 < а = 0,05 .

Для а = 0,05 ; f = 2 и df2 = 23 в Microsoft Excel вычислим значение статистики Fp . Для этого воспользуемся функцией FРАСПОБР(0,05■;2;23) = 3,422 ; т.е. FKp = 3,42 В завершении с

использованием электронного ресурса Keisan online calculator вычислим мощности статистического критерия. В результате вычислений получаем значения мощностей 1 -ß = 0,818 и 1 -ß = 0,826 для параметров нецентральности Fp = 11.506 и Fp = 11,741 соответственно. В результате можно обоснованно утверждать, что вычисленные эмпирические корреляционные отношения пва = 0,707 и = 0,711 являются значимыми, так как в обоих случаях p < 0,05 и мощности критерия удовлетворяет условию 1 - ß > 0,8 . Следовательно, статистические выводы о статистической взаимосвязи между исследуемыми признаками являются состоятельными.

Заключение

В результате проведенного теоретического исследования описана и обоснована методика статистического анализа номинальных признаков, используемых для измерения фармакологических эффектов. Вычислительные операции могут быть полностью автоматизированы в программе Microsoft Excel. Для вычисления мощности статистического критерия на основе нецентрального F-распределения можно использовать электронный ресурс Keisan online calculator, находящийся в открытом доступе. Это особенно важно для сокращения временных затрат на проведение вычислений.

Разработанный на основе методики программный модуль существенно упрощает работу для специалистов, не имеющих базового математического образования. По своей сути, предложенный в методике алгоритм статистического анализа можно рассматривать как технологию обработки первичной информации с целью получения формализованной информации более высокого порядка, которая выражает индуктивные закономерности.

Методика позволяет представить выявленные индуктивные закономерности для типичности, вариации и статистической взаимосвязи между номинальными признаками как новое знание, полученное в результате проведения научного исследования.

Литература (references)

1. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицине и биологии: Руководство. В 2-х томах / Под редакцией Ю.М. Комарова. Т. 1. Теоретическая статистика. - М.: Медицина, 2000. - 412 с. [Medik V.A., Tokmachev M.S., Fishman B.B. Statistika v medicine i biologii: Rukovodstvo. V2-h tomah /Pod redakciej Ju.M. Komarova. T. 1. Teoreticheskaja statistika. Statistics in medicine and biology: a Guide. In 2 volumes / Edited by Yu.M. Komarov. V. 1. Theoretical statistics. - Moscow: Medicine, 2000. - 412 p. (in Russian) ]

2. Евсеев А.В., Сурменёв Д.В., Евсеева М.А. и др. Сравнительный анализ эффективности металлокомплексных и аминотиоловых антигипоксантов в эксперименте // Обзоры по клинической фармакологии и лекарственной терапии. - 2018. - Т.16, №2. - С. 18-24. [Evseev A.V., Surmenjov D.V., Evseeva M.A. i dr. Obzory po klinicheskoj farmakologii i lekarstvennoj terapii. Reviews of clinical pharmacology and drug therapy. - 2018. - V.16, №2. - P. 18-24. in Russian)]

3. Сосин Д.В., Евсеев А.В., Шабанов П.Д. Безопасность новых протекторов острой гипоксии // Обзоры по клинической фармакологии и лекарственной терапии. - 2012. - Т.10, №4. - С. 58-64. [Sosin D.V., Evseev A.V., Shabanov P.D. Obzory po klinicheskoj farmakologii i lekarstvennoj terapii. Reviews of clinical pharmacology and drug therapy. - 2012. - V.10, №4. - P. 58-64. in Russian)]

4. Evseev A.V., Surmenev D.V., Evseeva M.A. et al. The impact of the new metal-complex (Znll) selenium-containing compound nQ2721 on the resistance of rats to acute hypoxic hypoxia // Chronicles of Pharmaceutical Science. -2018. - V.2, Iss.2. - P. 493-501.

Информация об авторах

Лямец Леонид Леонидович - кандидат технических наук, доцент, заведующий кафедрой физики, математики и медицинской информатики ФГБОУ ВО «Смоленский государственный медицинский университет» Минздрава России. E-mail: lll190965@yandex.ru

Евсеев Андрей Викторович - доктор медицинских наук, профессор, заведующий кафедрой нормальной физиологии ФГБОУ ВО «Смоленский государственный медицинский университет» Минздрава России. E-mail: hypoxia@yandex.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.