Научная статья на тему 'Статистическая обработка качественных (категориальных) данных в фармакологических исследованиях'

Статистическая обработка качественных (категориальных) данных в фармакологических исследованиях Текст научной статьи по специальности «Математика»

CC BY
566
95
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
категориальные шкалы / фармакологические исследования / множественные сравнения / дескриптивная статистика / heart electrical field / atrium / alcoholic cardiomyopathy / white outbred rats

Аннотация научной статьи по математике, автор научной работы — Цорин Иосиф Борисович

В статье рассматриваются описательная (дескриптивная) статистика данных, измеренных в качественных (категориальных) шкалах, и критерии для определения статистической значимости различий между выборками. Особое внимание уделяется проблеме множественных сравнений такого рода данных. Для каждого метода приводятся примеры обработки данных, получаемых в фармакологических исследованиях.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Цорин Иосиф Борисович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Statistical processing of qualitative (nominal) data in pharmacological research

The article deals with descriptive statistics of data measured using qualitative (categorical) scales and criteria for determining the statistical significance of differences between samples. Special attention is paid to the problem of multiple comparisons of data measured using nominal scales. For each method, examples of data processing obtained in pharmacological studies are given

Текст научной работы на тему «Статистическая обработка качественных (категориальных) данных в фармакологических исследованиях»

Статистическая обработка качественных (категориальных) данных в фармакологических исследованиях

Цорин И. Б.

Лаборатория фармакологического скрининга ФГБНУ «НИИ фармакологии имени В.В. Закусова», Москва

Резюме. В статье рассматриваются описательная (дескриптивная) статистика данных, измеренных в качественных (категориальных) шкалах, и критерии для определения статистической значимости различий между выборками. Особое внимание уделяется проблеме множественных сравнений такого рода данных. Для каждого метода приводятся примеры обработки данных, получаемых в фармакологических исследованиях. Ключевые слова: категориальные шкалы; фармакологические исследования; множественные сравнения; дескриптивная статистика

Для цитирования:

Цорин И.Б. Статистическая обработка качественных (категориальных) данных в фармакологических исследованиях // Фармакокинетика и фарма-кодинамика. - 2019. - № 3. - С.3-18. DOI: 10.24411/2587-7836-2019-10050

Statistical processing of qualitative (nominal) data in pharmacological research

Tsorin IB

FSBI «Zacusov Institute of Pharmacology», Moscow Resume. The article deals with descriptive statistics of data measured using qualitative (categorical) scales and criteria for determining the statistical significance of differences between samples. Special attention is paid to the problem of multiple comparisons of data measured using nominal scales. For each method, examples of data processing obtained in pharmacological studies are given. Keywords: heart electrical field; atrium; alcoholic cardiomyopathy; white outbred rats

For citations:

Tsorin IB. Statistical processing of qualitative (nominal) data in pharmacological research. Farmakokinetika i farmakodinamika. 2019;3:3-18. (In Russ). DOI: 10.24411/2588-0519-2019-10050

При проведении фармакологических исследований достаточно часто данные измеряют в качественных шкалах, среди которых выделяют два типа: порядковые (ординальные) и категориальные или номинальные. В порядковых шкалах измерения производятся в баллах или в уровнях интенсивности процесса (лёгкая форма заболевания, средней тяжести, тяжёлая). Категориальные (номинальные) шкалы дают ответ о принадлежности объекта к той или иной категории: «есть реакция»/«нет реакции», пол — мужской/женский, глаза — голубые/карие/чёрные и т. д. Однако исследователи, проводя статистическую обработку категориальных данных, часто не учитывают ограничения, которые имеет тот или иной статистический критерий. При этом ошибки допускаются уже в числовом описании полученных результатов. Именно описанию и обработке данных, регистрируемых в категориальных (номинальных) шкалах, и посвящена настоящая работа.

Описательная (дескриптивная) статистика

Как уже указано выше, используя номинальную шкалу, определяют принадлежность объекта к тому или иному классу. Номинальные шкалы бывают дихотомическими (биноминальными, альтернативными), когда имеется только две градации ответа (выжил/ умер, самец/самка и т. д.), и полиноминальными, когда градаций ответа больше двух (например, глаза

голубые, зелёные, карие). В этих шкалах можно посчитать количество объектов в классах — абсолютные и относительные частоты. (Абсолютные частоты (т.) — числа, показывающие, сколько раз отдельные варианты встречаются в данной выборке, относительные частоты или частности или веса (ж) — отношение абсолютной частоты к общему объёму выборки). Никакие другие математические операции с номинальными данными невозможны [1].

Для дихотомической шкалы формула вычисления относительной частоты выглядит следующим образом

_ m w = p = — n

(1)

где т — абсолютная частота;

п — объём выборки.

Относительная частота вариант, не обладающих изучаемым признаком, обозначается буквой q и выражается соотношением д = (п - т) / п = 1 - р .

Иногда относительную частоту выражают в процентах, тогда вышеприведённая формула приобретает следующий вид.

m

p = m 100 n

(2)

Согласно теореме Бернулли относительная частота события (р) с увеличением п стремится к вероятности осуществления события в одном испытании (р) и является абсолютно корректной оценкой этой вероятности [1—3].

Если дихотомический признак наблюдается в 0 или 100 % случаев, то при относительно небольшой выборке (п < 1000) такой результат чаще всего связан с чисто случайными вариациями. В таких случаях при расчёте относительной частоты в формулу следует внести поправку [2]:

или

_ т +1 Р = п + 2 '

- т +1 1пп р =--100

п+2

(3)

(4)

т(п - т)

(5)

для относительных частот

Sр=7 р(1 - р)=4м, (6)

если частоты альтернативных вариант выражены в процентах

Sр =у1 р(100 - р), (7)

Эти статистики одинаково характеризуют варьирование обеих альтернативных групп [3].

Так как относительная частота является выборочной приближённой оценкой вероятности единичного

события, то для этой статистики может быть рассчитана стандартная ошибка [3]:

sр г п

(8)

В том случае, когда относительная частота события равна 0 или 1, Sр рассчитывают с помощью скорректированной формулы [2].

Ь =

р(1 - р) п + 3

(9)

Исследователи фармакологи при описании данных, измеренных в номинальных шкалах, часто выражают полученные результаты в процентах. Однако следует помнить, что, работая с небольшими выборками (п < 20), необходимо пользоваться абсолютными частотами или указывать и те, и другие показатели [4]. Используя относительные частоты, исследователи от дискретной переменной переходят к непрерывной, что в случае малых выборок может привести к ошибке в интерпретации. Эти ошибки связаны с тем, что при малых выборках доверительные интервалы относительных частот в выборках, имеющих распределение близкое к биномиальному (именно такое распределение наблюдается обычно в фармакологических исследованиях), очень велики. Необходимо также отметить, что при п < 100, проценты следует вычислять с точностью до целых, при объёме выборки более 100 — до десятых [4].

Полиноминальные шкалы и действия с ними мы рассматривать не будем, так как в экспериментальной фармакологии они практически не применяются.

Помимо статистики, характеризующей математическое ожидание генеральной совокупности, желательно определять показатели вариации признака.

В случае измерения признака с помощью дихотомической шкалы в качестве характеристик варьирования служат выборочные стандартные (средние квадратичные) отклонения частот sm и sр, которые определяют по следующим формулам: для абсолютных частот

где р — скорректированная, как описано выше (формула 3), относительная частота.

Пример 1. В опытах на 33 крысах было показано, что окклюзия и последующая реперфузия коронарной артерии вызывают фибрилляции желудочков у 24 животных [5]. Необходимо рассчитать выборочные статистики, описывающие генеральную совокупность. В результате расчётов были получены следующие оценки:

р = 24/33 = 0,73 (формула 1);

Sm

24(33 - 24)

33

3 (формула 5);

sр =у10,73*0,27 - 0,44 (формула 6);

^ =

0,73*0,27

33

0,08 (формула 8).

В том же эксперименте было показано, что нарушения ритма сердца возникают у всех 33 крыс. В этом случае в расчёт относительной частоты вносят поправку, описанную выше, и он принимает следующий вид:

р = 34/35 = 0,97 (формула 3);

Ь =

0,97*0,03

36

0,03 (формула 9).

При измерениях с помощью дихотомической шкалы, часто применяемых в фармакологических и токсикологических исследованиях, значительную информацию может дать расчёт доверительного интервала вероятности события. Если объём выборки мал (пр < 5 и щ < 5), то для определения доверительного интервала используют свойства биномиального распределения. Интервальные оценки статистики р с доверительной вероятностью — являются решениями двух уравнений:

Ё СХРХ (1 - рн )п-х =

х=т т

Ё СХРХ (1 - ре )п-х =

1 - р;

2 ;

1 + р

х=0

V =

п

где п — объём выборки;

m — количество успехов;

P — доверительная вероятность.

Решение этих уравнений является достаточно нетривиальной задачей, в связи с этим для относительно небольших п пары решений рн и рв табулированы [6]. В таблицах [7, 8] указаны границы доверительных интервалов биномиального распределения для соответствующих п, т и р.

Пример 2. При введении 2 доз препарата 2 группам мышей по 6 штук в каждой в 1-й группе погибло 3 животных, во 2-й — 6. Каковы 95 % доверительные интервалы гибели мышей в обеих группах? По таблице [7] находим, что при п = 6 и m = 3 — 95 % доверительный интервал вероятности события составляет 0,12 <p < 0,88, а при m = 6 - 0,54 <p < 1,00.

Если объём выборки и статистика p достаточно велики, и биномиальное распределение можно аппроксимировать нормальным распределением, то рн и рв можно рассчитать, используя свойства этого распределения.

Действительно, если при больших значениях п статистика p имеет приближенно нормальное распределение, то её математическое ожидание р с доверительной вероятностью 1-а находится в интервале:

Р--г- * ^/2 < р < р + -Т= * г«/2,

пп

где Z (1-а/2) квантиль верхнего хвоста стандартного нормального распределения (при а = 0,05, Zа/2 = 1,96).

Квантили стандартного нормального распределения можно найти в математико-статистических таблицах [7, 8] или рассчитать, используя модуль «Вероятностный калькулятор» ППП <^а^юа». Тоже относится к квантилям распределений Стьюдента и X2. С помощью модуля «Вероятностью калькулятор» можно также рассчитать точные вероятности квантилей, полученных при проведении того или иного статистического теста.

Так как для биномиального распределения а =

= 4р(1 - р) , то

- ypg-p)

* Za/2 < p < p +

4m - p)

¿a/2>

от двойного неравенства переходим к неравенству с

^ Vp(i - p)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

модулем | p - p \< -

* za/2. Для того, чтобы

компенсировать ошибку, вносимую нормальной вероятностной кривой в точные значения с биномиальным распределением, в приведённое неравенство вводят поправку Йейтса на непрерывность, равную 1/(2п). В этом случае неравенство приобретает следующий вид: | р - р | -1 /(2п) р( — * /2. Возведя

п

обе части неравенства в квадрат, получаем квадратное неравенство относительно р. Решение этого неравенства рн < р < рв, где

pH =

pe =

2np + zj/2 - 1 - Za/2 >/Z2a/2 - (2 + 1 / n) + 4p(nq + 1)

2(n+za/2)

2np + zl/2 + 1 + Za/24Zl/2 + (2 - 1/ n) + 4p(nq - 1)

2(n + ^/2)

(10)

где д = 1 - р. Описанные формулы дают хорошую аппроксимацию доверительных интервалов долей в том случае, если пр > 5 и пд > 5.

Если 0,25 < р < 0,75 , то формула расчёта доверительных границ несколько упрощается:

- pq 1 ^ pq 1 лп

p - Za/2J— -— < p < p + Za/2J— + — , (11) V n 2n V n 2n

Если n < 30 , то вместо нормального распределения пользуются соответствующими квантилями распределения Стьюдента при числе степеней свободы v = n — 1 [6].

Пример 3. В опытах на 25 крысах было показано, что окклюзия и последующая реперфузия коронарной артерии вызывают фибрилляции желудочков у 17 животных. Необходимо вычислить, используя формулы 10 и 11, 95 % доверительный интервал вероятности возникновения этих нарушений ритма. í0 024 24 = 2, 06;p = 0,68;q = 0,32. Так как p и q точечные оценки p и q, то можно полагать, что p ~ p и q ~ q, тогдаnp ~ np = 17 > 5;nq ~ nq = 8 > 5. При использовании полной формулы (10) получаем 0,455 <p < 0,848, использование упрощённой формулы

(11) даёт достаточно близкие доверительные границы 0,467 <p < 0,892. Вычисленные доверительные интервалы близки к показателям, полученным с помощью таблицы доверительных интервалов биномиального распределения — 0,465 <p < 0,851.

В тех случаях, когда условия применения аппроксимации нормальным распределением не соблюдаются, а таблицей доверительных интервалов биномиального распределения невозможно воспользоваться, можно использовать угловую трансформацию Р. Фишера, который доказал, что величина ф = 2arcsin1/p

(12) имеет приблизительно нормальное распределение (угол ф выражен в радианах). При расчёте с помощью этого метода сначала определяют величину ф, затем

её доверительный интервал ф± za/2j4n (13). Полученные значения границ ф пересчитывают в p по формуле p = sin2 ф/2 (14) [2]. Если n < 30 пользуются соответствующими квантилями распределения Стьюдента при числе степеней свободы v = n — 1.

Пример 4. Используем данные примера 3. В этом

случае ф = 2 arcsin ^0,68 = 2 х 0,97 = 1,94 (формула 12), доверительный интервал ф, соответственно, равен 1,94 ± 2,0^^>/25 (формула 13), т. е. 1,528 <ф< 2,352.

Тогда sin2 ^ < p < sin2 ^ (формула 14), т. е.

0,479 < p < 0,852. Рассчитанный доверительный интервал мало отличается от показателей, полученных с помощью таблицы биномиального распределения в предыдущем примере.

Несколько по-иному рассчитывают доверительный интервал при p близком к 0 или 1 (p = 0 или p = 1), если невозможно воспользоваться таблицами доверительных интервалов биномиального распределения. В том случае, если p = 0, нижней границей доверительного интервала является 0, верхнюю границу можно определить по следующим формулам:

Рв (15)

п + ^/2

рв=1 - пуа, (16)

где Z (1 — а/2) квантиль верхнего хвоста стандартного нормального распределения [9].

Если изучаемый эффект проявился у всех участвующих в эксперименте животных, верхняя граница доверительного интервала равна 1, а нижнюю границу можно определить по следующим формулам:

pH =

n + Z¿/2

pH =KI a,

(17)

(18)

Пример 5. В опытах на 35 крысах изучали влияние вещества А на угнетение дыхания, вызываемое соединением М, соединение предотвратило гибель всех животных. Надо найти 95 % доверительный интервал вероятности отсутствия эффекта соединения М. По формуле 15 получаем доверительный интервал 0 <р < 0,099; по формуле 16 -рв = 1- 3^0,05 = 0,082, интервал равен 0 <р < 0,082. По таблице доверительных интервалов биномиального распределения получаем 0 < р < 0,100. Таким образом, с вероятностью более 95 % можно утверждать, что при продолжении экспериментов доля животных, которые погибнут, будет находиться в интервале от 0 до 0,100. Таким образом, использованные формулы дают вполне достаточное приближение. Проверка гипотез об однородности двух выборок, измеренных в дихотомической (альтернативной) шкале

В фармакологических исследованиях очень часто возникает необходимость оценить различия между выборками, в которых оцениваемые показатели измерены в дихотомической шкале. Кроме того, часто

возникает необходимость перейти от количественной шкалы к альтернативной. Такие данные в статистике называют независимыми испытаниями Бернулли. Они обладают следующими свойствами:

1. Каждое отдельное испытание имеет ровно два возможных исхода, взаимно исключающих друг друга.

2. Вероятность данного исхода всегда одна и та же в любом испытании.

3. Все испытания независимы друг от друга.

Для совокупностей и выборок эти свойства формулируются следующим образом:

1. Каждый член совокупности принадлежит одному из двух классов.

2. Доля членов, принадлежащих к одному и тому же классу, неизменна; Каждый член выборки извлекается из совокупности независимо от других [6].

3. Данные, измеренные в шкале такого рода, представляют, как было указано выше, в виде абсолютных или относительных частот.

Блок-схема алгоритма выбора метода для сравнения выборок данных, описываемых в дихотомической шкале, приведена на рис. 1, объяснения к нему см. далее в тексте.

Сравнение двух независимых выборок

Предположим, существует две генеральные совокупности объектов неопределённой численности, в каждой из которых неизвестная относительная частота (доля) объектов, имеющих некоторое свойство, равна р1 и р2. Разница этих генеральных долей равна р2 — р= = d. Необходимо определить, существует ли эта разница. С этой целью необходимо из генеральных совокупностей извлечь выборки объёмом п1 и п2, подсчитать в обеих выборках количество объектов т1 и т2, обладающих вышеуказанным свойством, рассчитать выборочные доли р = —1 и р2 = —2 (доля объектов, у которых п п

отсутствует изучаемый признак, равна 1 — р = д). Разница между выборочными долями р2 - р1= d служит оценкой разницы между генеральными долями. Далее следует определить статистическую значимость этого различия.

С этой целью определяют нулевую гипотезу (Н0): D = 0. Альтернативная гипотеза (Н1) может быть двухсторонней (Б Ф 0) или односторонней (Б > 0 или Б < 0).

К решению этой задачи существуют различные подходы. Если п1 и п2 достаточно велики, а именно ПгРгЯг > 9 для i = 1, 2 и 0,25 < р1 < 0,75, можно воспользоваться тем, что биномиальное распределение при больших N и р, близком к 0,5, приближается к нормальному распределению [9]. Тогда отношение разности между долями к её стандартной ошибке даёт

случайную величину z =

d |/ *

которая следует рас-

пределению близкому к нормальному распределению. Н0 отвергают в пользу двухсторонней Н1, если ZфакI > zкp, а/2 для принятого уровня значимости а, где zкр. а/2 (1— а/2) — квантиль верхнего хвоста стандартного нормального

n

Рис. 1. Блок-схема алгоритма выбора метода для статистической обработки данных, измеренных в дихотомической шкале (объяснения см. в тексте)

распределения. В случае односторонней Н1 используют неравенство ¿фЖт > ?кр, а.

Ошибка разности долей равна:

% =

==п+ п2 рд 1 2

пп

(19)

где р и д средневзвешенные доли двух выборок.

(20)

р = т + р2 п

п + п

т>+ т2 = . =

• д = 1 - р,

п + п

Таким образом, если доли выражены абсолютными частотами, то из формул 19 и 20 получаем:

%

т + т2

п + п Следовательно,

1 -

т^+ т2 п + п )

п + п

пп

(21)

7 =

р2 - Р1

р (1 - р)

пп2

р2 - Р1

1 / \

т+т2 1 т1+ т2 п + п

V п + п 1 п + п п1п2

\ / щ - т1 / п1 \

(22)

1 -

т-у + т2

п + п

п + щ пп

глядит следующим образом [6, 9]:

|р2 - р1 I-0,5(1/ п +1/ п2)

7 = -

== п + п2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

рд-—-пп

\т2/ п - т_/ п I -0,5(1/ п +1 / п2)

(23)

п + п

1-

т^+ т2 п + п

п + п пп

Описываемый критерий разработан в большинстве статистических пакетов программ.

Для разности долей генеральных совокупностей можно рассчитать 100(1 — а)% доверительный интервал. Пусть 7а/2 обозначает величину, отсекающую долю вероятности а/2 от верхнего хвоста стандартной нормальной кривой ((1 — а/2)-квантиль). Тогда интервал, включающий истинную разность пропорций, с вероятностью 1-а будет выглядеть следующим образом [6]:

(р2 - л) - 7

а/2.1

Ж + М2 - 0,5

' п щ

'1+1Л п п

< (р2 - Ю + ^ ррд- + ^ + 0,5

Л| п п

'1 1л

— + —

V п п /

< Р2 - Р1 <

(24)

Однако формула 22 даёт несколько завышенные значения 2, в результате вероятность ошибки I рода уменьшается. Этот факт связан с тем, что нормальное распределение, являющееся непрерывным, используется для аппроксимации дискретного распределения. Для того, чтобы нивелировать эту ошибку, Йейтс ввёл поправку на непрерывность, которая равна —0,5(1/п1 + 1/п2). В окончательном виде формула вы-

В том случае, если 0 в доверительный интервал разности не попадает, различия статистически значимы на уровне а.

Пример 6. На мухах дрозофилах дикого типа изучали антимутагенную активность нового соединения А. Результаты исследований показали, что в потомстве мух, обработанных препаратом Д, мутации наблюдались у 225 особей из 300 (75 %). При обработке родителей препаратом Д и изучаемым соединением мутации возникали у 130 мух из 270 (48 %). Необходимо определить статистическую значимость различий.

Н0: D = 0 (различия случайны). Н1: D < 0 (изучаемое соединение уменьшает количество мутаций).

Уровень значимости: а = 0,005, критерий односторонний.

Используя формулу 23 получаем:

| т2 / п2 - т / п | -0,5(1 / п1 +1/ п) _

г = -

т+т

' п + п

1 -

^ + т2 П[ + П2

п + п пп

1130 / 270 - 225 / 3001 -0,5(1 /300 +1 / 270)

225 +130 300+270

1-

225 +130 1270 + 300

300 + 270 ) 270*300

= 6,52 > ^005 = 2,58.

Таким образом, изучаемое вещество статистически значимо уменьшает количество мутаций, вызываемых препаратом Д. При этом 95 % доверительный интервал разности изучаемых генеральных совокупностей, рассчитанный по формуле 24, будет следующим:

0 75*0 25 0 48*0 52 (0,48- 0,75)-1,96./ * 0,25 + 0,48 0,52

300

270

- 0,51 — + — |< Р2 - Р < .300 270 / 2 1

0 75*0 25 0 48*0 52

< (0,48 -0,75) +1,96. 0,75 0,25 + 0,48 0,52 +

300 270

+ 0,5 (— + А-1;

1300 270 )

-0,351 < Р2 -Р1 < -0,189

В том случае, если условия применения вышеописанного критерия не соблюдаются, может быть использован метод проверки равенства долей, основанный на угловой трансформации (ф-преобразовании Фишера). При анализе с помощью этого метода в доли вводят поправку Йейтса на непрерывность, равную 0,5/п, которую вычитают из большей доли и прибавляют к меньшей доле. Затем находят ф;- = , где I = 1, 2. Рассчитывают отношение разности ф2 — ф1 к её ошибке, которую рассчитывают по формуле

=л — + —, т. е.

Ф2 -Ф1 Ф/ п1+1/ п2

= (Ф2 -Ф1>

пп п + п

(25)

распределения. В том случае, если количество степеней свободы V = п1 + п2 — 2 < 30, используют соответствующие квантили распределения Стьюдента [2, 3].

Для данного критерия действуют следующие ограничения:

1. Ни одна из долей не должна быть равна 0.

2. Если объём одной выборки равен 2, то во второй должно быть не менее 30 наблюдений: п1 = 2 ^ п2 > 30. Если п1 = 3, то п2 > 7. Если п1 = 4, то п2 > 5. При пх, п2 > 5 возможны любые сопоставления [10]. При этом следует учитывать, что выражение результатов в виде относительных частот при п < 20 является не совсем адекватным [4].

Пример 7. На лабораторных крысах изучали тератогенное действие нового вещества. Оказалось, что в контрольной группе нарушения в формировании скелета возникали у 6 эмбрионов из 30 (р1 = 0,2), в опытной группе — у 21 из 35 (р2 = 0,6). Нужно определить, насколько значима разница.

Н0: D = 0 (различия между выборками не значимы).

Н:: D Ф 0 (различия между выборками статистически значимы).

Уровень значимости: а = 0,05, критерий двухсторонний.

Так как рх < 0,3, то следует применить угловую трансформацию Фишера.

ф1 = 2агсзт^/0,2 +1/60 « 0,9683 ;

Ф2

= 2ага5т70,6 -1/70 «1,7462 :

где 1/60 и 1/70 поправки Йейтса на непрерывность равные 1/(2п). Тогда из формулы 25 получаем

= (Ф2 -Ф1).

пп п + п

<4,421 > 7005 = 2,58 .

Следовательно, мы отвергаем Н0 на уровне значимости а = 0,01 и полагаем, что препарат обладает тератогенным действием.

Во многих случаях при сравнении совокупностей, описываемых с помощью дихотомической шкалы, удобно пользоваться методами, основанными на анализе таблицы 2 х 2 (таблица два на два; табл. 1).

Таблица 1

Изучение тератогенного действия нового вещества

Нулевую гипотезу D = 0 отвергают на уровне значимости а в пользу двухсторонней Н^ D Ф 0 в том случае, если ^.1 > Тф.,а/2, где гкр.,а/2 - (1 - а/2) квантиль верхнего хвоста стандартного нормального распределения. В случае односторонней гипотезы (й > 0 или D < 0) Н0 отвергают, если |т,ас.| > гкр,а, где г^а - (1-а) квантиль верхнего хвоста стандартного нормального

Выборка Эффект присутствует Эффект отсутствует Всего

1 А В А + В

2 С й С + й

Всего А + С В + й N = А + В + С + й

Примечание: А, В, С, й — абсолютные частоты изучаемого эффекта.

Одним из методов, используемых для анализа такой таблицы, является критерий хи-квадрат (х2). Метод основан на предположении, что относительная частота р проявления эффекта в обеих выборках

7 = ^рас.

одинакова, поэтомур = (А + С) / N. Тогда ожидаемые абсолютные частоты эффекта будут равны

Таблица 2

и

f{= (A + B) p = (A + B)(A + С)/N f2 = (С + D) p = (С + D)(A + С)/N

X2 = g gi f - f 'И'5)2

i=1 j=1

f'

(26)

Тератогенное действие нового вещества

в выборках 1 и 2, соответственно. Таким образом, ожидаемые частоты в каждой ячейке таблицы равны произведению сумм, пересекающихся строки и столбца деленному на общее количество объектов (Ы). Большое расхождение между фактическими частотами (f) и ожидаемыми частотами (f') — показатель того, что пропорции в этих двух выборках различаются (f' следует рассчитывать с точностью до 0,01). Статистика критерия х2 основывается именно на этом предположении. Формула для вычисления критерия х2 в случае, когда имеются две выборки, описываемые с помощью дихотомической шкалы, выглядит следующим образом:

Группы Повреждения скелета есть Повреждения скелета отсутствуют Всего

Контроль А = 6 B = 24 A + B = 30

Опыт С = 21 II С + D = 35

Всего A + С = 27 B + D = 38 N=A + B + С+D =65

Рассчитываем ожидаемые частоты: fA = 30*27/65 = 12,46; f'= 30*38/65 = 17,54; f'= 35*27/65 = 14,54; fD = 35*38/65 = 20,46.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Тогда по формуле 26 получаем:

2 (|6 -12,461 -0,5)2 (| 24 -17,541-0,5)2 X2 = --—1—— + --1-— +

12,46

17,54

г=2 с=2

где ^^ указывает на необходимость просуммиро-

I=1 у=1

вать эти отношения по строкам и столбцам, 0,5 — поправка Йейтса на непрерывность. Полученную статистику сравнивают с критическим значением Хкр,а^, где V = (г — 1)(с — 1) — число степеней свободы, где г и с — количество строк и столбцов таблицы, соответственно (в разбираемом случае V =1). Если рассчитанная х2 — Хкр.^а, то нулевая гипотеза о равенстве пропорций отвергается на уровне значимости а. Критические значения распределения х2 даны в соответствующих таблицах [7, 8]. Критические значения квантилей распределения х2 можно рассчитать, используя модуль «Вероятностный калькулятор» ППП "Statistica", в этом же модуле можно рассчитать точные вероятности квантилей, полученных при проведении статистических тестов.

Данный критерий разработан в практически во всех пакетах программ математической статистики [2, 6, 9, 11, 12].

Критерий х2 имеет следующие ограничения: 1. общее количество изучаемых объектов должно быть не менее 30 (Ы > 30); 2. ожидаемая частота в каждой ячейке таблицы 2 х 2 должна быть не менее 5 (f' > 5). Описываемый критерий является двухсторонним [6, 11, 12].

Пример 8. Используем данные примера 7.

Н0: D = 0 (различия между выборками не значимы).

Н:: D Ф 0 (различия между выборками статистически значимы).

Уровень значимости: а = 0,05, критерий двухсторонний.

Построим таблицу 2 х 2 (табл. 2).

(| 21 -14,541-0,5)2 ++

14,54 (| 14 - 20,461 -0,5)2

20,46

2

Скр.,1;0,01

9,06 > Хкр.-1:0_01 = 6,63.

Таким образом, мы отвергаем Н0 на уровне значимости р < 0,01 и полагаем, что изучаемое вещество обладает тератогенным действием.

В некоторых случаях возникает необходимость обобщения нескольких таблиц сопряжённости 2 х 2, обрабатываемых с помощью критерия х2. Например, такая необходимость возникает при анализе экспериментов, проведённых в различных лабораториях. В этих случаях используют тест Мантела—Ханзела. Представим, что мы имеем k таблиц 2 х 2. Для каждой i-ой таблицы (Ai + С)/Nt — доля изучаемых объектов, ответивших на воздействие положительной реакцией (см. табл. 1). Соответственно, Ai /(Ai + Bi) и Ci /(Ci + D) доля положительных реакций в каждой их 2 выборок i-ой таблицы. Для того чтобы объединить результаты всех k анализируемых таблиц 2 х 2 и сравнить сразу эффекты у всех используемых в эксперименте объектов необходимо рассчитать объединённую статистику МН [2, 6]:

Щ4- (4 + C)(4+Bi)/ nJ|

MH = ■

X(4 + C)(B, + Di)(4 + B)(C +Di)/[N?(Nl -1)] i=1

(27)

2

i=1

Указанная выше статистика учитывает различия между наблюдаемым и ожидаемым числом положительных реакций и имеет распределение %2 с 1 степенью свободы. Если рассчитанная статистика превышает табличное значение для критического уровня значимости, то нулевая гипотеза об отсутствии различий в эффекте отклоняется на указанном уровне значимости [2].

Пример 9. В 2 лабораториях проводили эксперименты по изучению противофибрилляторного действия нового вещества. В 1-й лаборатории в контрольной группе фибрилляции желудочков (ФЖ) возникали у 24 крыс из 33; в опытной группе — у 6 из 20 (табл. 3, а). Во 2-й лаборатории в контрольной группе ФЖ возникали у 15 животных из 20; в опытной группе у 4 из 19 (табл. 3, б). Имело смысл объединить результаты, полученные в обоих экспериментах.

Таблица 3

Изучение противофибрилляторного действия нового вещества

Группа ФЖ возникают ФЖ отсутствуют Всего

Контрольная группа А! = 24 В, = 9 33

Опытная группа С1 = 6 Ь 4 20

Всего 30 23 53

Группа ФЖ возникают ФЖ отсутствуют Всего

Контрольная группа А2 = 15 В2 = 5 20

Опытная группа С2 = 4 Ь2 = 16 20

Всего 19 21 40

количества объектов в выборках. Однако современные статистические программы позволяют обрабатывать с помощью этого критерия достаточно большие выборки, так ППП «Statistica» поддерживает этот метод при N < 500. Процедура основана на переборе всех возможных вариантов заполнения таблицы 2 х 2. Вначале по формуле гипергеометрического распределения вычисляют вероятность случайного получения фактически наблюденной таблицы 2 х 2 (см. табл. 1):

(А + В)!(С + D)\( А + С )!(В + D)!

Р

набл.

А! В! С! D! N!

(28)

(N1 = 1*2*3*..0! = 1 — по определению).

Затем вычисляют вероятности всех других таблиц, имеющих такие же суммы по строкам и столбцам. При этом важны только те таблицы, вероятность получения которых не превышает таковой наблюдаемой таблицы (Р " Рнабл.). Полученные вероятности суммируют, если полученная сумма меньше или равна заданному уровню значимости, то нулевую гипотезу отвергают [2, 6, 11, 13].

Пример 10. На 2 группах мышей изучали частоту летального исхода, вызываемого двумя дозами одного и того же вещества. Меньшая доза вызвала смерть 1 мыши из 6, большая доза — 6 особей из 9. Необходимо выяснить, имеется ли в данном случае зависимость доза—эффект.

Н0: Л = Л2 (мыши в обеих выборках гибнут с одинаковой частотой).

Н Л < Л2 (во 2 выборке животные умирали чаще). Критерий односторонний, а = 0,05.

Составим таблицу 2 х 2 (табл. 4).

По формуле 28 рассчитаем

Н0: D = 0 (различия между опытными и контрольными выборами не значимы).

Н:: Б Ф 0 (различия статистически значимы). Уровень значимости: а = 0,05, критерий двухсторонний.

По формуле 27 получаем:

Таблица 4

МН = -

{(24 - 30*33/53) + (15 -19 * 20 / 40}2 30 * 23 * 33 * 20 / (532 * 52) +19 * 21 * 20 * 20 / (402 * 39) = 20,68 >£,0.001,1 =10,83.

Таким образом, Н0 об отсутствии статистически значимых различий между опытными и контрольными выборками должна быть отвергнута на уровне значимостир < 0,001.

Ограничений, свойственных критерию %2, лишен метод точной вероятности Фишера. С помощью этого метода можно анализировать малые выборки (п. > 3, где . = 1, 2) при любом распределении частот по ячейкам таблицы 2 х 2. Вместе с тем, метод точной вероятности Фишера трудоёмок при исполнении в ручную, при этом трудоёмкость резко возрастает с увеличением

Частота летального исхода

Доза Погибли Выжили Всего

Меньшая доза А = 1 В = 5 А + В = 6

Большая доза С = 6 Ь = 3 С + Ь = 9

Всего А + С = 7 В + Ь = 8 Ж=А+В+С+ Ь= 15

Р =

± набл.

6 !* 9 !* 7 !* 8! 1!*5!*6!*3!*15!

0,0783.

Будем уменьшать значения в ячейке А (наименьшее), не изменяя сумм по строкам и столбцам. Рас-6!*9!*7!*8!

считаем Р1 =---« 0,0056. Таким образом,

1 0!*6!*7!*2!*15!

односторонняя Р1-стор. = Рнабл. + Р1 = 0,0783 + 0,0056 = = 0,0839 > а = 0,05. Итак, мы принимаем нулевую гипотезу и полагаем, что увеличение дозы препарата не приводит к росту летальности.

Для того, чтобы рассчитать двухстороннюю вероятность, надо увеличивать значения в той же ячейке, не изменяя сумм по строкам и столбцам. Полученные

а

б

вероятности, не превышающие Рнабл., просуммировать с Р1-сторон. Попробуем рассчитать вероятности:

6!* 9!* 7!* 8!

Р2 =

Рз =

Р4 =

Рб =

2!*4!*5!*4!*15!

6!*9!*7!*8! 3!*3!*4!*5!*15!'

6!*9!*7!*8! 4!*2!*3!*6!*15! 6!*9!*7!*8!

= 0,2937; 0,33916; = 0,1958;

6!*0!*1!*8!*15!

льно, Р2-стор =

= 0,0839 + 0,0336 + 0,0014 = 0,1189.

0,0014.

Следовательно, Р2-СТОр = Л-отор + Р5 + Р6 =

Чтобы проверить гипотезу, необходимо подсчитать статистику В, которая равна количеству смен — на + (ячейка D).

Н0 против односторонней Н: Р < (1 — Р) на уровне значимости а отклоняют, если В > Ьа^Д/2, где константа Ъа^д/2 — верхняя а-процентная точка биномиального распределения при объёме выборки N и р = 0,5, в противном случае нулевую гипотезу принимают.

Н0 против односторонней Н: Р > (1 — Р) на уровне значимости а отклоняют, если В < N — Ьа^Д/2), в противном случае нулевую гипотезу принимают.

Н0 против двухсторонней Н: Р Ф (1 — Р) на уровне значимости а отклоняют, если В > Ьа КД/2 или В < N— — — ЬаМД/2, где а = а:+ а2 (ЬаМД/2 находят в таблицах)

Сравнение двух зависимых выборок

В практике работы исследователя фармаколога достаточно часто возникают ситуации, когда надо сравнивать у одних и тех же объектов реакции, оцениваемые с помощью альтернативной шкалы, до и после введения препарата. С этой целью используют критерий МакНимара (разработан в большинстве пакетов программ). При этом принято обозначать отсутствие реакции знаком минус, проявление изучаемой реакции знаком плюс. При регистрации результатов положительный ответ до и после введения обозначают

знаком ++, отрицательный ответ до и после —--,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

смену отрицательного ответа на положительный--+,

смену положительного ответа на отрицательный — + —.

Для проведения статистической обработки необходимо построить таблицу 2 х 2 следующего вида (табл. 5):

Таблица 5

Регистрация результатов

Параметр После Сумма ответов «до»

- +

ДО + А В А + В

— С Б С + Б

Сумма ответов «после» А + С В + Б

[11, 14]. Метод разработан в большинстве статистических программных пакетов.

Пример 11. В опытах на 20 спинальных (нарушение связи головного и спинного мозга) лягушках изучали местноанестезирующее действие нового вещества.

0 действии соединения судили по отдергиванию лапки в ответ на воздействие определённой концентрации кислоты до и после аппликации раствора вещества на нерв. Результаты опытов показали, что при первом испытании отдергивание лапки наблюдалось у 15 лягушек из 20. При испытании, проведённом после аппликации вещества, у 13 лягушек из 15, показавших в первом испытании положительную реакцию, отдергивание лапки отсутствовало. В то же время у

1 животного, у которого в предыдущем испытании реакция отсутствовала, после аппликации изучаемого соединения она появилась. Необходимо было выяснить, действительно ли вещество уменьшает частоту реакции в ответ на раздражение кожи кислотой.

Н0: Р = (1 — Р) = 0,5 — препарат не влияет на частоту реакции в ответ на раздражение кожи кислотой.

Н Р > (1 — Р) — препарат уменьшает частоту изучаемой реакции.

Уровень значимости а = 0,05, критерий односторонний.

Построим таблицу 2 х 2 (табл. 6).

Таблица 6

Изучение местноанестезирующего действия нового вещества

В ячейке А представляют количество изменений «до — после» от + к —, в ячейке D — от — к + (в ячейках В и С количество ответов, оставшихся без изменений). Именно основываясь на результатах, записанных в А и Б, проводят статистический анализ при помощи критерия МакНимара. Если сумма частот в диагональных ячейках А + Б = N < 50, то можно воспользоваться биномиальным распределением [2, 11, 14].

В этом случае Н0: Р = (1 — Р) = 0,5, т. е. количество смен плюс на минус равно количеству смен минус на плюс (Р — вероятность смены положительного ответа на отрицательный).

Параметр После Сумма ответов

Нет реакции + Есть реакция

ДО + Есть реакция А = 13 В = 2 А + В = 15

Нет реакции С = 4 Б = 1 С + Б = 5

Сумма ответов «после» А + С = 17 В + Б = 3

Из табл. 6 находим, что смена направленности реакции после введения препарата произошла у 14 лягушек N = 14). В том числе отрицательная реакция сменилась на положительную у 1 животного (статистика В = 1). Находим, что Ь0,0009;14,1/2 = 13, тогда В = = 1 = N - Ьо,ооо9;14,'л = 1. Следовательно, при р = 0,0009 мы можем отвергнуть нулевую гипотезу и предположить, что изучаемое вещество обладает местноа-нестезирующем действием.

В том случае, если N = А + Ь > 50, для анализа с помощью критерия МакНимара может быть использовано распределение %2. При этом может быть применен упрощённый способ расчёта %2:

2 (| А - Ь|-1)2 .

X2 = ^-!-, V = 1

Л А + Ь '

(29)

X2 =

проксимируем дискретное биномиальное распределение непрерывным нормальным распределением, то из Щ следует вычесть поправку на непрерывность,

которая равна —. Поправка на непрерывность ис-

2п

пользуется только в том случае, если | ^р В результате получаем следующее выражение: | т / п - р01 -1 /(2п)

1

dp \> —. р 2п

^факт

Р0(1 - рь)

(30)

где |А—Ь| — значение разности между частотами ячеек А и Ь по модулю, 1 в числителе — поправка на непрерывность. Если рассчитанное х2 -Хкр.,а^, то нулевая гипотеза отвергается в пользу двухсторонней Н:: Р Ф 1 - Р или А Ф Ь [2, 6, 11-13].

Пример 12. Возьмём данные предыдущего примера и увеличим все частоты в 4 раза. Тогда А = 52, Ь = 4.

Н0: Р = 1 - Р = 0,5.

Н°: Р Ф 1 - Р.

Уровень значимости а = 0,05, критерий двухсторонний.

По формуле 29 рассчитаем

(| 52 - 41 -1)2 = 47^ = 52 + 4 = 56 = = 39,45 >> хкр.;0,05,1 = 3,84.

Таким образом, на уровне значимостир < 0,05 мы можем отвергнуть нулевую гипотезу.

Сравнение выборочной и генеральной частот

Иногда исследователю приходится оценивать различия между известной генеральной долей р0 и

долей (относительной частотой) р = т, полученной

п

в экспериментальной выборке, где п - объём выборки, т - абсолютная частота изучаемого признака. В качестве нулевой гипотезы принимают предположение о том, что р = р0. Если экспериментальная выборка достаточно велика пр(1 - р) > 9 и 0,25 < р < 0,75, можно воспользоваться тем, что биномиальное распределение при большом объёме выборки и р близком к 0,5 приближается к нормальному распределению. Тогда отношение разности dp = р - р0 к её ошибке даёт случайную величину г = | d |/sdp (где

р /рр(1 - ръ) ч „

sdp =У-), которая при числе степеней свободы (п - 1) более 30 следует распределению близкому к нормальному распределению. Так как мы ап-

Н0 отвергают в пользу двухсторонней Н1, если Zфакт>zкра/2 для принятого уровня значимости а, где 2кра/2 (1_а/2)-квантиль верхнего хвоста стандартного нормального распределения. В случае односторонней Н используют неравенство 2факт^Кр.,а [6, 9].

При п < 50 можно воспользоваться биномиальным критерием. Процедура анализа с помощью этого критерия выглядит следующим образом.

Необходимо проверить Н0: р = р0, где р0 - ранее выявленная вероятность возникновения изучаемого события в генеральной совокупности.

Предположим, что М - число успехов в экспериментальной выборке объёма п.

Тогда, если М > тап,р0 Н0 следует отвергнуть на уровне значимости а в пользу альтернативной односторонней Н1:р >р0, где та,п,р0 - верхняя а-процентная точка биномиального распределения при объёме выборки п и р = р0. Значения та п р0 даны в таблицах

[7, 8].

В случае альтернативной гипотезы р < р0 Н0 следует отвергнуть на уровне значимости а, если М < сап,р0, где сап, р0 - нижняя а-процентная точка биномиального распределения при объёме выборки п и р = р0.

В большинстве таблиц биномиального распределения представлены вероятности верхних хвостов, однако на основе этих таблиц можно рассчитать а-процентные точки нижних хвостов: сап,р0 = = Щ\-а),п,Р0 -1. Например, при р0 = 0,3 и п = 10 необходимо найти такую нижнюю альфа процентную точку, чтобы уровень значимости а был не более 0,05. Тогда 1 - а > 0,95. По таблице находим, что т0.97181(),0.3 = 1, следовательно, с0.0282,10,0 3 = 0. Следует учесть, что при маленьких объёмах выборок и низких р0 нижние а-процентные точки, достаточные для того, чтобы отвергнуть Н0 на приемлемом уровне значимости, не могут быть найдены.

Если р0 = 0,5, биномиальное распределение приобретает симметричный характер и в этом случае с = п — т

*"а,п,р0 "1и,п,р0 '

Если р0 > 0,5, то иногда удобнее перейти к оценке количества «неуспехов».

В случае Н:: р Фр0, Н0 следует отвергнуть на уровне значимости а, если М > та1,п,р0 или М < са2,п,р0,

п

где тип,р0 - верхняя а1-процентная точка; са2Л Р0 — нижняя а2-процентная точка, а1 + а2 = а.

При невыполнении условий, необходимых для того, чтобы отвергнуть нулевую гипотезу, Н0 следует принять [11, 14].

Пример 13. Из многочисленных статей известно, что двухсторонняя перевязка сонных артерий в течение 24 ч вызывает гибель 80 % крыс линии ^Маг. В одном из экспериментов погибло 3 крысы из 10 [15]. Соответствуют ли эти данные результатам других исследователей?

Так как р0 = 0,8 > 0,5, то следует подсчитывать количество «неуспехов», т. е. выживаемость. В этом случае р0 = 0,2. Тогда полагаем:

Н0: р = рй = 0,2

Н Р > Й0.

Уровень значимости а = 0,01, критерий односторонний.

Количество «неуспехов» М = 7 = Ьь.0009,10,0.2 = 7. Таким образом, на уровне значимости, равном 0,0009, Н0 следует отвергнуть и принять альтернативную гипотезу о том,что вероятность выживания животных в данном опыте была более 0,2. Итак, полученные результаты противоречат многочисленным данным литературы.

Если п > 50, то с помощью распределения %2 может быть получена достаточно точная аппроксимация биномиального критерия при любых р0. В случае дихотомической переменной тестовая статистика %2 рассчитывается по следующей формуле [11]:

- ^ (| -^наб. - /ож. 1 -0,5)2

X

i=1

/ож

(31)

Уровень значимости а = 0,01, критерий двухсторонний.

Составим следующую таблицу данных (табл. 7):

Таблица 7

Результаты исследования Параметр Погибли Выжили

/наб 18 42

f

J о»

| f . — f | - 0,5

1 •'наб. •/ож.1 '

48

12

29,5

29,5

Из таблицы по формуле 31 получаем:

X2 =1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(1Лаб,- Хж>0,5)2

i=1

29,52 , 29,52

■ + -

12

./ож.

> 90,65 >>хКр.,0.01,1 = 6,635.

где: /наб — наблюдаемая частота; /ож — ожидаемая частота (в случае выполнения Н0); /наб — / | — абсолютная величина разности наблюдаемой и ожидаемой частот;

2

0,5 — поправка на непрерывность; ^ — указывает на

i=1

необходимость суммирования отношений по обоим значениям.

Ожидаемые частоты рассчитываются следующим образом: / = прп, / = п — пр0.

г ож.р ^^"'ож, q г 0

Н0 следует отвергнуть на уровне значимости а в пользу двухсторонней Н:: р Ф р^ если храсч. ^ Х^.,а,у, где V — число степеней свободы; V = k — 1 ^ — число градаций признака). Для дихотомической переменной V =1. Критические значения распределения %2 даны в таблицах и могут быть рассчитаны с помощью пакетов программ.

Пример 14. Возьмём данные из примера 13 и увеличим выборку в 6 раз. В результате получим, что при ожидаемой смертности р0 = 0,8 из 60 животных погибло 18. Отличается ли действительная вероятность гибели от ожидаемой?

Н0: р = рй = 0,8.

Н р ф рй.

Таким образом, Н0 следует отвергнуть в пользу альтернативной гипотезы: р Фр0 = 0,8.

Методы сравнения нескольких выборок (k > 2) номинальных данных

Выше мы рассмотрели методы, позволяющие сравнить параметры двух статистических совокупностей. По своей сути в фармакологических исследованиях это выявление эффекта воздействия одного фактора, имеющего 2 уровня (градации). Однако в большинстве исследований действующих факторов и их градаций бывает, как правило, больше. Очень часто при такой ситуации исследователи проводят попарное сравнение большого количества групп с помощью методов, предназначенных для оценки различий 2 групп. Такой подход является грубой ошибкой, так как в этом случае вступает в силу эффект множественных сравнений.

Рассмотрим пример. Исследовали влияние соединений А и В на уровень артериального давления. Эксперимент проводили на 3 группах спонтанно гипертензивных крыс: I — в течение месяца получает вещество А; II — вещество В; III — эквивалентный объём растворителя. Статистическая обработка с помощью стандартного критерия показала, что в каждом из трёх сравненийр < 0,05, т. е. вероятность ошибки I рода менее 5 %. Однако это не совсем так. В действительности, так как мы допускаем 5 % процентную ошибку в каждом из сравнений, вероятность ошибки будет значительно больше. В общем случае эта вероятность равна: P = 1 — (1 — p)k, где k — количество сравнений, р — принятый нами критический уровень значимости. При небольшом количестве сравнений P' = pk. Следовательно, в нашем случае вероятность ошибиться хотя бы в 1 из сравнений составляет не многим менее 15 % [13].

При проведении статистического анализа нескольких выборок, измеренных с помощью количественных шкал, используют дисперсионный анализ или его не-

параметрические аналоги с дальнейшей обработкой с помощью критериев множественных сравнений. Для анализа дихотомических данных была разработана модификация дисперсионного анализа, основанная на том, что при достаточно больших выборках биномиальное распределение хорошо аппроксимируется нормальным распределением. Однако этот анализ требует больших выборок, которые редко используются в экспериментальной фармакологии, программы для его проведения не разработаны, метод трудоёмок при выполнении вручную. В связи с этим дисперсионный анализ качественных признаков в настоящей статье разбираться не будет. Читатель может ознакомиться с ним в соответствующей литературе [16, 17].

Критерий х2

Для сравнения нескольких независимых выборок часто применяют критерий х2. Ранее мы рассмотрели критерий хи-квадрат для сравнения двух выборок (таблица 2 х 2). Однако этот метод может использован в более общих случаях (матрица г*с, где г, с > 2). В общем случае число степеней свободы равно (г - 1)*(с - 1), тогда, если V = (г - 1)*(с - 1) > 1, то поправка на непрерывность не нужна и формула вычисления хи-квадрат принимает следующий вид:

X2 =11 , (32)

с=1}=1 Л

где г - число строк матрицы; с - число столбцов матрицы; / - наблюдаемая частота признака (реакции); / - ожидаемая частота признака в том случае, если справедлива Н0 о равенстве частот признака в изучаемых выборках. Ожидаемые частоты в каждой ячейке матрицы равны произведению сумм, пересекающихся строки и столбца, деленному на общее количество объектов (N1. Большое расхождение между фактическими частотами (/а) и ожидаемыми частотами (/) -показатель того, что пропорции в анализируемых выборках различаются ( / следует рассчитывать с точностью до 0,01). Статистика критерия х2 основывается именно на этом предположении [2, 6, 11-13].

Полученную статистику сравнивают с критическим значением х2,а, где V = (г - 1)(с - 1) - число степеней свободы. Если рассчитанная х2 ^ , то нулевая гипотеза о равенстве пропорций отвергается на уровне значимости а. Критические значения распределения х2 даны в таблицах [7, 8] или можно рассчитать в модуле «Вероятностный калькулятор» ППП «Statistica». Метод разработан во всех пакетах статистических программ.

Критерий х2 для матрицы, большей, чем 2 х 2, имеет следующие ограничения: 1. общее количество изучаемых объектов должно быть не менее 50 N > 50); 2. ожидаемая частота в каждой ячейке матрицы должна быть не менее 1 (/ > 1), а доля клеток с

ожидаемой частотой меньше 5 не должна превышать 20 %. Описываемый критерий является двухсторонним [6, 11-13].

Если нулевая гипотеза об отсутствии различий между выборками будет отвергнута, то следует выявить различия между отдельными выборками. С этой целью сравнивают наиболее близкие выборки, если статистически значимых различий нет, то их объединяют и сравнивают с другими выборками. При этом следует использовать поправку Бонферрони, т. е. а для Хщ.,^ определяют следующим образом:

а = а0/к,

где а0 -критический уровень значимости; k — количество сравнений [12, 13]. Пример 15. На трансляционной модели алкогольной кардиомиопатии (АКМП) методом ДНК-комет изучали влияние препарата А на количество кардио-миоцитов, у которых повреждение ДНК составляло 75 % и более («ghost cells»). Результаты исследования представлены в табл. 8 [18].

Таблица 8

Влияние препарата на количество кардиомиоцитов с повреждение ДНК >75 %

Параметр Интактные крысы Крысы с АКМП АКМП + А

Клетки с повреждением <75 % A 593/601,35 B 543/522,67 C 521/532,98

«ghost cells» D 49/40,65 E 15/35,33 F 48/36,02

Н0: Различия между выборками отсутствуют.

Н:: У контрольных крыс с АКМП «ghost cells» встречаются реже, чем у интактных животных и крыс с АКМП, получавших препарат А.

Критический уровень значимости а = 0,05.

*В числителе наблюдаемая частота, в знаменателе — ожидаемая.

Рассчитаем ожидаемые частоты:

Ячейка A: fe =(A+D)*(A+B+C)/N = 642*1657/1769 = = 601,35;

Ячейка B: fe =(B+E)*(A+B+C)/N = 558*1657/1769 = = 522,67;

Ячейка C: fe =(C+F)*(A+B+C)/N = 569*1657/1769 = = 532,98;

Ячейка D: fe =(A+D)*(D+E+F)/N = 642*112/1769 = = 40,65;

Ячейка E: fe =(B+E)*(D+E+F)/N = 558*112/1769 = = 35,33;

Ячейка F: fe =(C+F)*(D+E+F)/N = 569*112/1769 = = 36,02.

Так как количество объектов превышает 50 и ожидаемая частота в ячейках более 5, можно применить критерий х2. По формуле 32 рассчитаем наблюдаемую величину

x2 = sz

' ' (fo - fe )2 _ (593 - 601,35)2

=1J=1 fe

601,35

(558 - 522,67)2 (569 - 532,98)2 + 522,67 + 532,98 + (49 - 40,65)2 (15 - 35,33)2 (48 - 36,02)2

40,65

35,33

36,02

= 22,337.

Число степеней свободы данной матрицы равно 2. Рассчитанное х2 = 22,337 >> 12,125 = х2;0,000014.

Таким образом, Н0 об отсутствии различий между выборками отвергается прир < 0,000014. Теперь необходимо выяснить, какие выборки различаются между собой. Начнём со сравнения 1 и 2 выборок. Составим таблицу 2 х 2 (табл. 9). Число степеней свободы в данном случае будет равно 1.

Сравнение между выборками

Параметр Интактные АКМП+ А

Клетки с повреждением <75 % A 593/590,58 B 521/523,42

"ghost cells" C 49/51,42 D 48/45,58

Рассчитаем ожидаемые частоты: Ячейка А: / =(A+C)*(A+B)/N = 642*1114/1211 = = 590,58; е

Ячейка В: / =(B+D)*(A+B)/N = 569*1114/1211 = = 523,42;

Ячейка С: / =(A+C)*(C+D)/N=642*97/1211 = 51,42; Ячейка Ь:/ =(B+D)*(C+D)/N = 569*97/1211 = = 45,58.

Рассчитаем по формуле 26:

2 _ -2с=2 (| /а - / | -0,5)2 (|593 - 590,58 - 0,5)2

х2 = ЕЕ-

i=1 j=1

fe

590,58

(1521 - 523,421 - 0,5)2 (49 - 51,42 - 0,5)2

+ _!-!-+ J-!-+

523,42 (|48 - 45,58 - 0,5)2 45,58

51,42

= 0,1659 = х2

0,6838-

Объединённая выборка Контроль с АКМП

Клетки с повреждением <75% A 1114/1134,33 B 543/522,67

"ghost cells" C 97/76,67 D 15/35,33

Рассчитаем ожидаемые частоты: Ячейка А: / =(A+C)*(A+B)/N = 1211*1657/1769 = = 1134,33;

Ячейка В: / =(B+D)*(A+B)/N = 558*1657/1769 = = 522,67;

Ячейка С: / =(A+C)*(C+D)/N = 1211*112/1769 = = 76,67;

Ячейка Ь: / =(B+D)*(C+D)/N = 558*112/1769 = = 35,33.

Рассчитаем по формуле 26:

=2 с=2(|/а - /е|-0,5)2_ (|1114 - 1134,33| - И2

х2 = ЕЕ

i=1 j=1

fe

1134,33

(543 - 522,671 - 0,5)2 (97 - 76,67 - 0,5 )2

+ VI--+ ^--'— +

Таблица 9

522,67

((5 - 35,33 - 0,5 )2 35,33

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

76,67

= 17,358 = х2;

0,000031-

Таким образом, интактные животные и крысы с АКМП, получавшие препарат А, практически не различаются. В связи с этим их можно объединить и сравнить с контрольными крысами с АКМП (табл. 10).

Таблица 10

Сравнение с контрольной группой

Таким образом, контроль с АКМП статистически значимо отличается от объединённой выборки (с учётом поправки Бонферрони р = 0,000062).

На основании полученных данных можно сделать вывод о том, что препарат А восстанавливает количество «ghost cells» в условиях АКМП до уровня, имеющегося у интактных животных.

В тех случаях, когда критерий х2 не может быть использован из-за имеющихся ограничений, обработку нескольких выборок биноминальных данных можно провести с помощью критерия точной вероятности Фишера. Первоначально этот критерий был разработан Рональдом Фишером для сравнения двух выборок (таблица 2 х 2) и основывался на гипергеометрическом распределении. В дальнейшем критерий точной вероятности Фишера был модифицирован для анализа таблиц 2хк [19—21]. Метод основан на многомерном гипергеометическом распределении. Представим, что мы имеем таблицу из 2-х строк (R1, R2) и к столбцов. В каждом столбце находится nlJ + n2J объектов, характеризуемых каким-то бинарным признаком (J = 1, ..., к). В строке R находится n + nl2 + ...+ п1к объектов, имеющих признак А+, в строке R2 — n21 + n22 +...+ п2к, имеющих признак А-. Сумма объектов в 1-й строке равна R1, во 2-й — R2. Общее количество

к

объектов в таблице N = ^(nj + п2j ) = R + R2. Тогда

J=1

вероятность именно такого распределения объектов равна:

P (п)=т^ П сп

CN J=1

•( п j +n2 j )'

где Cm =

m !*(n - m)!

(число сочетаний из n по m),

n

знак П обозначает произведение. Путём перебора

1=1

таких таблиц с неизменным количеством объектов по строкам и столбцам находят вероятности, меньшие или равные полученной в эксперименте, и суммируют их. Эта сумма и будет вероятностью ошибки I рода (вероятность отвергнуть верную нулевую гипотезу).

Различия между отдельными выборками находят, сравнивая их с помощью одномерного критерия точной вероятности Фишера и используя при этом поправку Бонферрони.

Так как перебор возможных таблиц очень трудоёмок, этот критерий сложно рассчитать вручную. Он реализован в программе doctorstat 2хс, которая свободно распространяется в интернете.

В предлагаемом ниже примере мы рассчитаем только конкретную вероятность полученной в эксперименте таблицы.

Пример 16. На трёх группах крыс по 6 животных в каждой изучали влияние 2 доз вещества А на частоту возникновения аритмий, вызываемых аконитином: 1 группа контроль — аконитин; аконитин + вещество в дозе 1; аконтин + вещество в дозе 2. Данные представлены в табл. 11.

Таблица 12

Р = С6С4 С6

С11 С18

6!6!6!11!7! 5!1!4!2!6!0!18!

=0,00283.

Таблица 11

Частота возникновения аритмий

Параметр Группа 1 Группа 2 Группа 3

С аритмиями 5 2 0

Без аритмий 1 4 6

Проверка реакции объектов

Объекты Условия

1 2 k

1 хи Х21 Хк1

2 Х12 Х22 Хк2

п Х1п Х2п X

Нулевая гипотеза заключается в том, что в генеральной совокупности частота реакции на стимул при различных условиях (обработках) одинакова. Альтернативная гипотеза утверждает, что доля реакций при различных условиях не одинакова.

Для того, чтобы проверить Н0, рассчитаем показатель Q:

Л2 Г ,г „ Л2

(к-1)

Q =

k I п Л I k п

¿I IХ- IIXI

i=!■ V1^ ) V i1^

п k

п ( k Л2

kIIX -I IXI

1=1 i=1 1=1 V i=1 )

(33)

Однако вероятность ошибки первого рода несколько больше. Рассчитаем её с помощью программы: р = 0,0181. Таким образом, различия между выборками статистически значимы. Сравнивая 2-ю и 3-ю выборки с 1-й, получаем, что 1-я и 2-я группы практически не различаются (с учётом поправки Бонферрони р = 0,48), в то время как в 3-й — частота возникновения аритмий статистически значимо уменьшается (с учётом поправки Бонферрони р = 0,03).

В этом подразделе мы до сих пор рассматривали методы анализа нескольких независимых выборок номинальных данных. Однако иногда возникает необходимость сравнивать несколько зависимых выборок, когда оценка эффекта измеряется с помощью дихотомической шкалы. В этом случае может быть применён критерий Кокрена, который является расширением критерия Мак-Нимара [11—13].

Представим ситуацию, что проверяют реакцию п объектов на стимул в k (к > 2) различных условиях (табл. 12). Реакцию измеряют в дихотомической шкале (наличие реакции 1; отсутствие — 0).

где: i = 1, ..., k — номера условий (обработок, столбцов);

1 = 1, ..., п — номера объектов (строк). Показатель О имеет распределение х2 при числе степеней свободы V = k — 1. Если О > _1),а , то Н0 отвергают прир < а.

Для дальнейшего попарного сравнения обработок можно использовать критерий Мак-Нимара с поправкой Бонферрони.

Метод разработан в пакете программ "Statistika".

Пример 17. На 15 мышах изучали влияние препарата А на появление реакции замирания в ответ на резкий звук. Тестирования проводили до введения вещества, через 5, 15 и 30 минут после него (табл. 13).

Н0: Препарат А не влияет появление реакции замирания.

Н:: Препарат А изменяет частоту появления реакции замирания.

Критический уровень значимости а = 0,05.

Число степеней свободы V =3

Рассчитаем:

(к -1)

О =-

k ( п V ( k п

¿11х - ЕЕх

i=1 V1=1 ) V i=1 1=1

2

п k п ( k Л2

kЕЕХ-Е ЕX

1=1 i =1 1 =1 V i=1

3[4*350 -1296] = 6,24 = х2.

4*36 - 94

0,1005

Таким образом, нулевая гипотеза должна быть принята при р = 0,1005. Проводить сравнение отдельных пар выборок нет необходимости.

Таблица 13

Изучение реакции животных на резкий звук

Условия

Номера Исход- 5 минут 15 минут 30 минут £

животных ный после после после вве-

уровень введения введения дения

1 0 0 1 1 2

2 1 0 0 1 2

3 1 0 1 1 3

4 1 0 1 1 3

5 0 1 1 2

6 0 1 0 1 2

7 1 1 0 1 3

8 1 0 1 2

9 1 0 1 1 3

10 1 1 1 1 4

11 0 0 0 1 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

12 1 0 0 1 2

13 1 1 1 3

14 0 0 1 1 2

15 0 0 1 1 2

£ 9 5 10 12

И так, мы разобрали методы статистической обработки качественных (дихотомических) данных при различном дизайне постановки эксперимента.

Глоссарий

р — вероятность осуществления события в одном испытании;

р — относительная выборочная частота (доля);

р0 — генеральная доля;

sm — стандартное отклонение абсолютной частоты;

sp — стандартное отклонение относительной частоты;

Sp — стандартная ошибка относительной выборочной частоты;

квантиль в математической статистике — значение, которое заданная случайная величина не превышает с фиксированной вероятностью;

zа — квантиль стандартного нормального распределения с критической вероятностью а;

V — число степеней свободы;

Н0 — нулевая гипотеза, которая предполагает, что сравниваемые величины не различаются;

Н: — альтернативная гипотеза, которая предполагает наличие статистически значимых различий.

СВЕДЕНИЯ ОБ АВТОРАХ

Цорин Иосиф Борисович

Автор, ответственный за переписку

e-mail: tsorinib@yandex.ru

ORCID ID: 0000-0002-3988-7724

SPIN-код: 4015-3025

д. б. н., в. н. с. лаборатории

фармакологического скрининга ФГБНУ «НИИ

фармакологии имени В.В. Закусова», Москва

Tsorin Iosif Corresponding author

e-mail: tsorinib@yandex.ru ORCID ID: 0000-0002-3988-7724 SPIN-code: 4015-3025

Doctor of biological sciences, leading researcher of laboratory ofpharmacological screening FSBI «Zakusov Institute of Pharmacology», Moscow

Литература / References

1. Халафян А.А. STATISTICA 6. Математическая статистика с элементами теории вероятностей. — М.: Издательство Бином; 2010. [Halafian AA. STATISTICA 6. Matematicheskaya statistika s elementami teorii veroyatnostej. Moscow: Izdatel'stvo Binom; 2010. (In Russ).]

2. Сергиенко В.И., Бондарева И.Б. Математическая статистика в клинических исследованиях. Издание 2-е. — М.: «ГЭОТАР-МЕДИА»; 2006. [Sergienko VI, Bondareva IB. Matematicheskaya statistika v klinicheskih issledovaniyah. Izdanie 2-e. Moscow: «GEOTAR-MEDIA»; 2006. (In Russ).]

3. Лакин Г.В. Биометрия. — М.: «Высшая школа»; 1990. [Lakin GV. Biometriya. Moscow: «Vysshaya shkola»; 1990. (In Russ).]

4. Ланг Т. А., Сесик М. Как описывать статистику в медицине. — М.: Практическая медицина; 2011. [Lang TA, Secic M. How to reportstatistics in medicine. Moscow: Prakticheskaya medicina; 2011. (In Russ).]

5. Цорин И.Б. Фармакологическая защита ишемизированного миокарда: антагонисты кальция, специфические брадикардические средства, антигипоксанты. Диссертация на соискание ученой степени доктора биологических наук. — М.: 1997. [Tsorin I.B. Pharmakologicheskaya zashchita ishemizirovannogo miokarda: antagonisty kal'ciya, specificheskie bradikardicheskie sredstva, antigipoksanty. [dissertation] Moscow: 1997. (In Russ).] URL: http://medical-diss.com/docreader/394996/a#?page=1 (ссылка активна на 01.01.2019).

6. Флейс Дж. Статистические методы для изучения таблиц долей и пропорций. — М.: «Финансы и статистика»; 1989. [Fleiss JL. Staistical Methods for Rates and Proportions. Moscow: «Finansy i statistika»; 1981. (In Russ).]

7. Большев Л.Н. Смирнов Н.В. Таблицы математической статистики. Издание 3-е. — М.: «Наука»; 1983. [Bolshev LN, Smirnova HV. Tablicy matematicheskojstatistiki. Izdanie 3-e. Moscow: «Nauka»; 1983. (In Russ).]

8. Ликеш И., Ляга И. Основные таблицы математической статистики. — М.: «Финансы и статистика»; 1985. [J. Likes, J. Laga. Zakladni Staticke Tabulky. Praha: 1978. (In Russ).]

9. Медик В.А., Токмачев М.С. Математическая статистика в медицине. — М.: «Финансы и статистика»; 2007. [Medic VA, Tokmachev MS. Matematicheskaya statistika v medicine. Moscow: «Finansy i statistika»; 2007. (In Russ).]

10. Сццоренко Е.В. Методы математической обработки в психологии. — СПб.: Речь; 2001. [Sidorenko EV. Metody matematicheskoj obrabotki vpsihologii. ST. PETERSBURG: Rech'; 2001. (In Russ).]

11. Рунион Р. Справочник по непараметрической статистике. — М.: «Финансы и статистика»; 1982. [Runyon RP. Nonparametric statistics. Acontemporary approach. Addison-Wesley Pablishing Company; 1977. (In Russ).]

12. Петри А., Сэбин К. Наглядная медицинская статистика. Издание 3-е. - М.: «ГЭОТАР-МЕДИА»; 2015. [Petrie A, Sabin C. Medical statistics at a glance. Third edition. Wiley-Blackwell. A John Wiley & Sons, Ltd., Publication; 2009. (In Russ).]

13. Гланц С. Медико-биологическая статистика. — М.: Практика; 1998. [Glantz St.A. Primer of biostatistics. Fouth Edition. McGraw-Hill. Health Professions Division. New York; 1994. (In Russ).]

14. Холлендер М., Вулф Д.А. Непараметрические методы статистики. — М.: «Финансы и статистика»; 1983. [Hollander MH, Wolfe DA. Nonparametric statistical methods. John Wiley and Sons. New York, London, Sydney, Toronto; 1973. (In Russ).]

15. Силкина И.В. Анализ цреброваскулярных и нейропротекторных эффектов афобазола. Диссертация на соискание ученой степени кандидата биологических наук. — М.: 2005. [Silkina IV. Analiz crebrovaskulyarnyh i nejroprotektornyh effektov afobazola. [dissertation] Moscow: 2005. (In Russ).] URL: http://medical-diss.com/docreader/175732/ d#?page=1 Ссылка активна на 01.01.2019.

16. Плохинский Н.А. Биометрия. Издание 2-е. — М.: «Издательство Московского Университета»; 1979. [Plohinskij NA. Biometriya. Izdanie 2-e. Moscow: «Izdatel'stvo Moskovskogo Universiteta»; 1979. (In Russ).]

17. Крамаренко С.С. Дисперсионный анализ качественных признаков // Крымский малакологический сайт. 2006. [Kramarenko SS. Dispersionnyj analiz kachestvennyh priznakov. KrymskiJ mala^lo^^es^

saJt. 2006. (In Russ).] URL: http://www.malacology.narod.ru/download/ kramarenko_2006_disp.html.

18. Жанатаев А.К., Мирошкина И.А., Цорин И.Б., и др. Повреж-денность ДНК в клетках миокарда крыс с экспериментальной алкогольной кардиомиопатией: модифицирующие эффекты фабомотизола и триметазидина // Фармакокинетика и фармакодинамика. — 2018. — № 2. — С. 28—31. [Zhanataev AK, Miroshkina IA, Tsorin IB, et al. DNA damage in myocardial cells of rats with experimental alcoholic cardiomyopathy: modifying effects of fabomotizole and trimetazidine. Farmakokinetika i farmakodinamika. 2018;2:28—34. (In Russ).]

DOI: 10.24411/2587-7836-2018-10012.

19. Metha C.R., Patel N.R. A network algoritm for the exact treatment of the 2 х к contingency table. Communications in Statistics — Theory and Methods. 1980;9(6):649—664.

20. Metha CR, Patel NR. A Network Algorithm for Performing Fisher's Exact Test in r х c Contingency Tables. J. Amer. Statist. Assoc. 1983;78(382):427-434. DOI: 10.1080/01621459.1983.10477989

21. Requena F, Ciudad NM. A major improvement to the network algoritm for Fisher's exact test in contingency tables. Computational Statistics & Data Analysis. 2006;51(2):490—498. DOI: 10.1016/j.csda.2005.09.004

i Надоели баннеры? Вы всегда можете отключить рекламу.