Четырехпольная таблица частот - Бритва Оккама
в мире статистики
Часть 2. Как увидеть лес за деревьями? Г. П. Тихова
ООО «ИнтелТек Лаб», Петрозаводск
Fourfold frequency table - Occam's Razor in the world of statidtics Part 2. How can we see the forest among the trees?
G. P. Tikhova
IntelTeckLab Ltd, Petrozavodsk
В первой части данной статьи [1] мы подробно разобрали на конкретном примере алгоритм построения четырехпольной таблицы, а также процедуры анализа заключенных в ней данных и интерпретации результатов. Рассмотренные параметры далеко не исчерпывают все возможности анализа, которые предоставляет эта маленькая таблица. Кроме того, запись результатов в табличной форме хотя и правомерна, но часто неудобна для восприятия, в особенности в том случае, когда таких однотипных таблиц много и рассчитанные из них параметры хотелось бы сравнить между собой, чтобы выявить те факторы, которые наиболее информативны или наиболее сильно влияют на исследуемый показатель.
Для продолжения разговора об анализе четырехпольной таблицы сопряженности признаков нам необходимо вновь привести здесь ту таблицу, которая была рассчитана в предыдущей статье на основе данных мультицентрового исследования, проведенного для регистрации и изучения осложнений спинномозговой анестезии (СМА) при операции кесарева сечения (КС) (табл. 1).
Итак, в предыдущей статье мы узнали, что, анализируя данные этой таблицы, можно ответить на многие вопросы с уверенностью, степень которой выражается числом от 0 до 1. Например, мы можем сказать, во сколько раз исходная
склонность к гипотонии увеличивает риск развития артериальной гипотонии (АГ) во время операции КС под спинальной анестезией. Мы также можем определить, на сколько процентов указанный фактор увеличивает вероятность развития АГ у каждой пациентки в случае обнаружения у нее в анамнезе исходной склонности к гипотонии, а также среди скольких пациенток с такой патологией мы обязательно получим хотя бы одну с изучаемым осложнением в операции. Но и это еще не все, что мы можем узнать из нашей маленькой таблицы.
В обычной жизни мы часто используем понятие шанса. Мы говорим, например, что шансы попасть под дождь сегодня вечером оцениваем, как 1 к 9, если небо ясное, или 9 к 1, если уже в момент нашего заявления слышим приближающиеся раскаты грома. Понятно, что в первом случае мы более уверены, что не попадем под дождь, а во втором - почти не сомневаемся, что нам его не миновать. Однако мы указали конкретные числа, выражающие нашу уверенность в одном и в другом случае. Что именно означают эти числа? Какую дополнительную информацию они нам несут? С математической точки зрения первое утверждение «шансы попасть под дождь составляют 1 к 9», означает, что по нашей оценке вероятность намокнуть сегодня вечером в 9 раз
Таблица 1. Четырехпольная частотная таблица, сформированная для статистического анализа зависимости частоты АГ во время операции КС под СМА от исходной склонности к гипотонии
Арт. гипотония есть Арт. гипотонии нет Всего в строке
Исходная склонность к гипотонии есть 46 121 167
Исходная склонность к гипотонии отсутствует 324 1787 2111
Всего в столбце 370 1908 2278
ш
меньше, чем вероятность насладиться приятной прогулкой. Аналогично, если мы скажем, что эти шансы составляют, например 5 к 3, то вероятность дождя в 5/3 (примерно в 1,7) раза больше, чем вероятность его отсутствия. Таким образом, указывая шансы, мы неявно определяем, во сколько раз вероятность интересующего нас события больше/меньше, чем вероятность его антипода, негласно предполагая, что третьего не дано: одно из двух событий обязательно состоится, но только одно из двух, а не оба одновременно. Поскольку, как мы выяснили в прошлом примере, сумма вероятностей (или частот) двух значений дихотомической переменной равна 1 или, в процентах, 100%, то, указывая шансы для одного из этих значений, мы автоматически определяем вероятности двух взаимоисключающих событий, иными словами, двух единственно возможных значений дихотомической переменной «дождь». Чтобы подсчитать вероятность каждого из указанных событий, надо сложить оба числа (1+9 = 10), а затем разделить на эту сумму каждое из двух чисел по очереди (и умножить на 100%, если нам привычнее воспринимать относительные частоты в процентах). В нашем примере для первого утверждения мы получим, что вероятность дождя равна 10%, а вероятность его отсутствия 90%. Очевидно, что если из указанных в числовом виде шансов можно рассчитать вероятности, то возможно и обратное: зная вероятности, или частоты, двух взаимоисключающих друг друга событий, можно рассчитать шансы для того из них, которое нас наиболее интересует. Как это сделать, покажем уже на нашем клиническом примере.
Итак, в нашем исследовании мы получили, что среди пациенток, которые имели в анамнезе исходную склонность к гипотонии, АГ во время операции КС под СМА наблюдалась у 46, а без осложнения операция прошла у 121 пациентки. Таким образом, шансы такого осложнения СМА, как артериальная гипотония, в группе пациенток с исходной склонностью к АГ составляют 46 к 121, или 0,38 к 1 (46/121 = 0,38 и 121/121 = 1). Это означает, что в данной группе вероятность
развития артериальной гипотонии как следствия СМА при операции КС в 2,6 (1: 0,38) раза меньше, чем вероятность избежать этого осложнения. Аналогичным образом подсчитаем шансы развития интраоперационной АГ в группе, где у пациенток отсутствовала исходная склонность к гипотонии, и получим в результате 0,18 к 1 (324/1787 = 0,18 и 1787/1787 = 1), т. е. вероятность АГ у пациенток данной группы (при отсутствии исходной склонности к гипотонии) в 5,5 (1: 0,18) раза меньше, чем вероятность перенести операцию КС под СА без этого осложнения. Для удобства дальнейшего анализа отобразим полученные результаты в виде таблицы (табл. 2).
Обратите внимание, что для правильного расчета шансов интересующего нас осложнения таблица должна иметь такой же строгий порядок расположения исходных данных, как и для расчета всех других параметров, рассмотренных в предыдущей статье: в первом столбце всегда записываются частоты исследуемого события (АГ в нашем случае), а в первой строке частоты в группе риска (или исследования). Только в этом случае можно получить корректные результаты. Шансы записываются всегда как некоторое число R к 1. Конечно, можно найти такое сочетание целых чисел, которое будет отражать полученные шансы без десятичных знаков, но всегда удобнее принять за единицу вероятность того, что исследуемое событие (осложнение, исход) не произойдет, и тогда второе число будет означать, во сколько раз это изучаемое событие более вероятно в рассматриваемой популяции, чем его отсутствие. Этим объясняется и тот факт, что в таблице в столбце «шансы» обычно записывают только одно число, предполагая по умолчанию, что шансы второго события равны 1. Так, в нашей таблице шансы в группе с исходной склонностью к АГ записаны как 0,38, что фактически соответствует записи 0,38 к 1 (или 0,38:1). Еще одно важное замечание касается порядка записи чисел. Единице всегда соответствует вероятность того из двух возможных событий, которое нас менее интересует. В нашем примере мы исследуем факторы влияния на развитие АГ при операции КС под СМА,
Таблица 2. Шансы интраоперационной АГ в группе исследования и группе сравнения, вычисленные по абсолютным частотам
Арт. гипотония есть Арт. гипотонии нет Шансы АГ
Исходная склонность к гипотонии есть 46 121 0,38
Исходная склонность к гипотонии отсутствует 324 1787 0,18
Таблица 3. Шансы интраоперационной АГ в группе исследования и группе сравнения, вычисленные по относительным частотам
Арт. гипотония есть Арт. гипотонии нет Шансы
Исходная склонность к гипотонии есть 27,5% 72,5% 0,38
Исходная склонность к гипотонии отсутствует 15,3% 84,7% 0,18
поэтому к единице мы приравниваем частоту, соответствующую отсутствию данного осложнения в группе.
Шансы в группе можно рассчитать также, исходя из полученных относительных частот (табл. 3).
В этом случае расчет шансов в группах проводится точно так же, как и при использовании абсолютных частот: для группы с исходной склонностью к гипотонии 27,5/72,5 = 0,38, и для группы сравнения 15,3/84,7 = 0,18. Понятно, что результаты получаются такие же, как при использовании предыдущего расчетного алгоритма.
Запишем эту таблицу в общем виде, чтобы иметь возможность указать расчетные формулы (табл. 4).
Итак, мы получили значение шансов развития АГ при КС, которое в группе с исходной склонностью к гипотонии равно 0,38. Что означает это число для нашего исследования? Как его можно интерпретировать в терминах исследуемого процесса? Чтобы разобраться в этом вопросе, для начала представим себе, что развитие и отсутствие АГ во время операции КС под СМА равновероятно в данной группе. Это означает, что полученные эмпирические частоты должны быть приблизительно равны друг другу, т. е. р1 = 100%-р1, или то же самое, записанное иначе р1/(100%-р1) = 1. Второе равенство означает, что шансы в группе должны приблизительно равняться 1 (строго говоря, не иметь статистически значимого различия с 1). Если шансы в группе статистически значимо меньше 1, то это означает, что <1, т. е. р1/(100%-р1)
<1, или р1< (100%-р1). Последнее неравенство указывает на то, что вероятность развития изучаемого события в группе меньше, чем вероятность его отсутствия. Возвращаясь к нашему
примеру, вероятность развития АГ во время операции в группе исследования меньше, чем вероятность операции без осложнения в этой же группе. Чтобы узнать, во сколько раз частота исследуемого события меньше частоты его отсутствия в данной группе, надо 1 разделить на полученное значение шансов. В нашем примере получим, что в группе с исходной склонностью к гипотонии вероятность развития АГ в 2,6 раза меньше, чем вероятность отсутствия этого осложнения. Такой же анализ мы можем проделать и в группе сравнения (где исходная склонность к гипотонии не наблюдалась) и получим, что вероятность развития АГ во время операции в этой группе также меньше, чем вероятность операции без этого осложнения, но значение шансов другое (Odds2= 0,18), поэтому одна вероятность меньше другой уже в 5,5 раза. Сравнение двух полученных значений шансов (0,38 и 0,18) наводит на мысль о том, что под воздействием фактора «исходная склонность к гипотонии» соотношение вероятностей развития и неразвития АГ во время операции меняется. В группе, где этот фактор наблюдался, развитие АГ очевидно более вероятно, чем в группе сравнения, где этого фактора не было. Статистически это подтверждает расчетный параметр, который называется отношение шансов (Odds Ratio) OR = Odds1/Odds2 = 0,38/0,18 = 2,1. Если отношение шансов (ОШ) статистически значимо превышает 1, это означает, что в группе исследования под воздействием изучаемого фактора (исходная склонность к гипотонии) соотношение вероятностей развития и отсутствия исследуемого события (АГ во время операции КС под СМА) смещается в пользу развития этого события (интраоперационной АГ). Говоря простым языком, в нашем примере вероятность развития АГ во время операции КС под СМА
Таблица 4. Формулы расчета шансов в группах исследования и сравнения
Арт. гипотония есть Арт. гипотонии нет Шансы
Исходная склонность к гипотонии есть Р1 100%-Pj Odds1 = p1/(100%-p1)
Исходная склонность к гипотонии отсутствует P2 100%-p2 Odds2 = p2/(100%-p2)
ш
становится более вероятной в группе с исходной склонностью к гипотонии.
Расчет ОШ несколько напоминает процедуру нахождения относительного риска (ОР), о котором подробно рассказано в части 1 данной статьи. Однако не следует путать эти два параметра, они отражают взаимозависимые, но все-таки разные свойства исследуемой популяции. ОР показывает, во сколько раз частота изучаемого осложнения (исхода, симптома) в группе риска (или воздействия) больше/меньше частоты этого осложнения в группе сравнения. ОШ указывает, в каком направлении и во сколько раз изменяется отношение частоты изучаемого осложнения к частоте его отсутствия при переходе от группы риска к группе сравнения.
В некоторых источниках по биомедицинской статистике утверждается, что величину ОШ можно использовать как приближенное значение ОР и наоборот. Это, вообще говоря, неверно. При определенных условиях расхождение этих величин может быть очень существенным, и подобные приближения могут привести к неправильным выводам. Например, в нашем примере, ОР = 1,79, а ОШ = 2,1. Если бы мы приняли значение ОШ в качестве приближения величины ОР, то получили бы, что частота в группе исследования увеличивается под воздействием исследуемого фактора более чем в 2 раза, что, очевидно, неверно, так как в реальности значение ОР не дотягивает даже до 2.
Не следует забывать и о том, что, как и всякая статистическая оценка некоторой величины, рассчитанная по выборочным данным, ОШ всегда должно сопровождаться своей стандартной ошибкой или доверительным интервалом на заданном уровне значимости. Этот вопрос мы также подробно рассмотрели в предыдущей статье [1].
Статистическая обработка дихотомических данных, полученных в ходе исследования, завершается формированием четырехпольной таблицы сопряженности признаков (или нескольких таких таблиц) и расчетом по ней всех интересующих статистик, но анализ данных на этом еще не заканчивается. Его финальный этап, самый сложный и самый важный, - это интерпретация полученных результатов. На его успех и продуктивность влияют многие факторы, но одним из решающих является техника представления информации и правильный выбор графического отображения результатов расчетных процедур.
Вид таблицы, которая содержит итоги обработки данных, как ни странно, очень важен
и напрямую влияет на эффективность и корректность выработки заключений и выводов исследования. Даже если выделить из всего множества изучаемых факторов, например, лишь три, и указать для них все полученные результаты, то количество чисел и доверительных интервалов будет слишком велико, чтобы эти результаты можно было легко воспринимать и делать по ним содержательные выводы. Чтобы не утонуть в потоке информации, порождаемом статистической обработкой дихотомических данных, мы предлагаем при оформлении результатов исследования соблюдать следующий стандарт:
1. Для каждого изучаемого фактора риска (воздействия) организуется отдельная таблица рассчитанных статистик.
2. Все таблицы оформляются единообразно, чтобы взгляд читателя, да и самого автора, легко мог выделить те параметры, которые его наиболее интересуют, а не сканировать мучительно долго все пространство таблиц в поисках нужных ему оценок, которые разбросаны в разных таблицах по разным местам.
3. Наиболее информативные и важные статистики, на которых основываются выводы исследования, помимо табличного вида должны отображаться графически. Вид графиков должен неукоснительно соответствовать природе исследуемых данных (числовые, качественные, дихотомические) и методам их обработки. При строгом соблюдении этих трех правил оформление и интерпретация результатов будут проходить эффективно и плодотворно. Фактически этот алгоритм позволит создавать четкий план научной статьи в таблицах и графиках.
На примере реального исследования, проведенного аналитическим отделом нашей компании, рассмотрим подробнее, как это делается.
В нашем исследовании изучались факторы риска развития интраоперационной тошноты (ИОТ) как осложнения СМА при КС. Таким образом, мы имели дело с данными дихотомической природы, для статистической обработки которых сформировали четырехпольные таблицы сопряженности признаков (для каждого фактора отдельная таблица) и рассчитывали из них все значимые статистики, описывающие динамику интересующего нас осложнения под воздействием различных предполагаемых факторов риска. Для примера приведем здесь только 2 таблицы, соответствующие двум рассмотренным факторам риска (табл. 5 и 6): влияние на частоту ИОТ
Таблица 5. Минимальное СистАД во время операции КС под СМА
Частота ИОТ 95% ДИ
Группа 1 - САД < 90 11,0 ± 1,0% 8,0-13,0%
Группа 2 - САД > 90 7,0 ± 1,0% 6,0-8,0%
Значение параметра 95% ДИ
Шансы в группе 1 0,12 0,08-0.16
Шансы в группе 2 0,07 0,03-0,11
Отношение шансов 1,61 1,23-2,12
Относительный риск 1,54 1,16-2,05
Относительное увеличение риска 54,29 ± 12,69% 29,42-79,16
Абсолютное увеличение риска (атрибутивный риск) 3,7 ± 0,25% 3,21-4,19%
NN1 27,04 23,85-31,20
В группе, где минимальное СистАД во время СМА составило менее 90 мм рт. ст., частота тошноты была в полтора раза выше по сравнению с группой, минимальное СистАД во время СМА составило не менее 90 мм рт. ст. (ОР = 1,54, 95%ДИ 1,16-2,05).
Таблица 6. Техника разреза: По Пфанненштилю/Срединный
Частота ИОТ 95% ДИ
Группа 1 - разрез по Пфанненштилю 7,0 ± 1,0% 5,0-8,0%
Группа 2 - срединный разрез 15,0 ± 1,0% 11,0-19,0%
Значение параметра 95% ДИ
Шансы в группе 1 0,07 0,03-0,11
Шансы в группе 2 0,17 0,13-0,22
Отношение шансов 0,40 0,29-0,56
Относительный риск 0,44 0,33-0,60
Относительное увеличение риска -55,86 ± 11,70% -78,80 до -32,92
Абсолютное увеличение риска (атрибутивный риск) -8,28 ± 0,25% -8,89 до -7,66%
NN1 12 (для контр.) 13,06-11,24
В группе, где проводился разрез по Пфанненштилю, частота тошноты была более чем в 2 раза ниже, по сравнению с группой, где проводился срединный разрез (ОР = 0,44, 95%ДИ 0,33-0,60).
минимального систолического артериального давления во время операции (Сист.АД <90/Сист. АД > 90 мм рт. ст.) и хирургическая техника разреза (по Пфанненштилю/срединный разрез).
Такая организация результатов статистической обработки дихотомических данных позволяет предельно четко и во всей полноте описать эффект каждого изученного фактора риска (воздействия) и сравнить между собой эти факторы по всем характеристикам. Наиболее важными характеристиками эффекта являются отношение шансов и относительный риск. Для графического представления этих статистик разработан и принят в качестве стандарта специальный график, называемый график-лес (forest-graph). Название его объясняется тем, что при изображении на нем
эффектов нескольких факторов, этот график, действительно, напоминает схематичный набросок лесного массива. Позже в шутку этот график стали называть графиком Форреста по имени исследователя, который интенсивно применял данный вид графиков в своих работах. По иронии судьбы его звали Форрест. Шутка эта настолько распространилась в научной среде, что на сегодняшний день многие молодые специалисты воспринимают это название как настоящий научный термин и в некоторых статьях и даже книгах по доказательной медицине можно встретить вполне серьезные указания на график Форреста. Как же он выглядит, этот график-лес? На рисунке представлен график, отражающий эффекты обоих рассмотренных факторов на частоту ИОТ.
Влияние факторов риска на развитие ИОТ как осложнения СМА во время КС
Сравнение: группа с исходной склонностью к гипотонии/группа сравнения Исход: Интраоперационная тошнота
Минимальное СистАД во время КС под СМА 1,54 [1,16; 2,05]
Техника разреза (по Пфанненштилю/ срединный) -■- 0,44 [0,33; 0,6]
111111111 1 1 1
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 2 3 4 5
Частота меньше Частота меньше
в группе исследования в группе контроля
Графическое представление эффектов факторов риска, влияющих на частоту ИОТ, как осложнения СМА во время операции КС
В данном случае эффект выражен относительным риском, но аналогичный график можно построить и для отношения шансов. По горизонтальной шкале отложены значения относительного риска, начиная с 0 (поскольку ОР всегда только положителен). На уровне 1 проведена вертикальная ось, которая не имеет шкалы и служит для визуальной отметки нулевого эффекта на изучаемую частоту. Два горизонтальных отрезка отражают эффекты минимального СистАД и техника разреза на частоту ИОТ. Их конечные точки соответствуют 95% ДИ, а центральная точка значению ОР. Таким образом, одного взгляда на график достаточно, чтобы определенно ответить на вопросы: какие из факторов достоверно влияют на частоту (только те, отрезки которых не пересекают вертикаль на единичной отметке горизонтальной оси), какие факторы достоверно снижают частоту (те, отрезки которых целиком находятся левее указанной вертикали) и, наконец, какие факторы достоверно увеличивают частоту (те, отрезки которых целиком находятся правее указанной вертикали). Все очень наглядно, просто и понятно. Все результаты объективно доказаны и готовы для обсуждения, а также четкой формулировки выводов.
Аналогичный стандарт графического представления результатов исследования принят и для метаанализа. Однако об этом мы поговорим подробнее в следующих публикациях. В качестве упражнения и самоконтроля любознательный читатель может попробовать сформировать таблицу и построить форест-график по результатом нашего маленького исследования о влиянии исходной склонности к гипотонии на интраоперацион-ную АГ. В предыдущей и нынешней публикации
мы рассчитали все статистики, необходимые для этого построения. Отметим еще один вопрос, который остался открытым. Как решить, какой из двух параметров, относительный риск или отношение шансов, принять в качестве эффекта для его графического представления и построения заключений? Здесь нет готовых рецептов. В каждом конкретном исследовании специалист сам принимает решение, что для него важнее и критичнее: динамика частоты изучаемого события или динамика соотношения вероятностей события и его отсутствия под воздействием рассматриваемых факторов. Это зависит целиком и полностью от цели исследования и предпочтений автора. В общем случае эти две величины совершенно равноправны, и не будет ошибкой воспользоваться только одной из них или обеими одновременно для объективного доказательства выводов исследования. Коротко:
1. Шансы всегда рассчитываются для любого из двух возможных значений дихотомической переменной. Шансы показывают, во сколько раз вероятность наступления данного события больше вероятности отсутствия этого события. Чтобы узнать, во сколько раз вероятность наступления меньше, надо разделить 1 на значение, указанное шансами.
2. Для группы риска и сравнения можно рассчитать отношение шансов. Оно указывает, во сколько раз шансы исследуемого события больше в группе риска, чем в группе сравнения.
3. Относительный риск и отношение шансов — взаимосвязанные параметры, но отражают разные стороны проявления эффекта, поэтому отношение шансов, вообще говоря, не может использоваться в качестве приближенного
значения для относительного риска и наоборот.
4. Представление результатов статистической обработки дихотомических данных в стандартных таблицах позволяет ясно и всесторонне описать эффект каждого изученного фактора риска (воздействия) и сравнить между собой эти факторы по всем характеристикам.
5. Существует специальный вид графика, называемый форест-график, для отображения важнейших характеристик эффекта: отношения шансов и относительного риска. Этот график позволяет наглядно оценить достоверность и направление влияния фактора на изучаемое событие, а также оперативно сравнить силу
Литература
1. Тихова Г. П. Четырехпольная таблица частот - Бритва Оккама в мире статистики. Часть 1. Как рассчитывать относительный риск и другие параметры из четырехпольной
эффекта всех изучаемых факторов на интересующее событие. 6. Выбор ОШ или ОР в качестве числового выражения эффекта остается за исследователем и зависит от его целей и предпочтений. В общем случае эти два параметра являются равноправными для статистически достоверного доказательства наличия эффекта изучаемого фактора на интересующее событие. В настоящей статье мы разобрали на конкретном примере алгоритм расчета и интерпретации ОШ, а также указали табличный и графический стандарт оформления результатов статистической обработки дихотомических данных клинического исследования.
частотной таблицы // Регионарная анестезия и лечение острой боли. 2012; VI (3): 69-75.
&