Лекиия
МЕТОДОЛОГИЯ ОЦЕНКИ ИНФОРМАЦИОННОЙ ЗНАЧИМОСТИ ДИАГНОСТИЧЕСКИХ ТЕСТОВ В АНЕСТЕЗИОЛОГИИ И РЕАНИМАТОЛОГИИ
А. В. Бояркнна, А. Л. Потапов
EVALUATION TECHNIQUE TOR INFORMATIVE VALUE
or DIAGNOSTIC TESTS IN ANESTHESIOLOGY AND INTENSIVE
CARE
A. V. Boyarkina, A. L. Potapov
Медицинская академия им. С. И. Георгиевского ФГАОУ ВО « Крымский федеральный университет им. В. И. Вернадского», г Симферополь
S. I. Georgievskv Medical Academy, Simferopol. V. I. Vernadskv Crimea Federal University, Simferopol, Crimea
Выполнен анализ статистических показателей, характеризующих точность диагностических методов I! их комбинаций, включая чувствительность, специфичность, позитивную и негативную прогностическую ценность, отношение правдоподобия. Рассмотрен лучший на сегодняшний день метод оценки точности диагностических тестов - построение ROC-кривой и оценка площади под ной (Area Under Curve). Показаны преимущества и недостатки каждого из методов, описаны условия их использования в клинической практике.
Ключевые слова: диагностический тест, комбинированный тест, чувствительность, специфичность, прогностическая значимость, ROC-кривая, площадь под ROC-кривой.
The statistic rates describing the accuracy of diagnostic techniques and their combination have been analyzed including sensitivity, specificity, positive and negative prognostic value, plausibility relation. The best evaluation technique for diagnostic test accuracy at present has been studied, i.e. building up ROC-curve and evaluation of the area under it (Area Under Curve). Advantagesand deficiencies of each test have been presented, and their use in the clinical practice has been described.
Key words: diagnostic value, combined test, sensitivity, specificity, prognostic value, ROC-curve, area under curve.
Оценка точности диагностических тестов и правильная интерпретация их результатов в анестезиологии и реаниматологии являются ключевым моментом при постановке диагноза и выборе метода терапии. И врачу, и исследователю важно знать, надо ли проводить тест, какой из них даст более точный ответ, какова вероятность, что у пациента имеется искомое заболевание, изменится ли тактика лечения после получения результатов исследования. 11равильная оценка прогностическом ценности теста имеет ещё и экономическое значение, так как позволит обосновать затраты на практическое внедрение того или иного метода обследования.
11ель работы - описание некоторых базовых понятий, характеризующих точность диагностических методов, дающих возможность сравнивать тесты между собой и делать выводы о целесообразности проведения той или иной диагностической процедуры.
Чувствительность и специфичность. Существует два базовых понятия, характеризующих точ-
ность диагностических тестов: чувствительность и специфичность. Оба являются одинаково важными н не должны анализироваться но отдельности. Чувствительность (Sensitivity, SI:) - это вероятность позитивного результата теста у человека с заболеванием. специфичность (Specificity, SP) - это вероятность негативного результата при отсутствии заболевания у пациента. В данном контексте заболеванием может быть любое состояние или признак, который необходимо диагностировать.
В табл. 1 приведены показатели, необходимые для определения чувствительности н специфичности: TP (True-positive) - это пациенты с заболеванием н положительным результатом теста: FN (False-negative) - пациенты с заболеванием и отрицательным результатом теста; FP (False-positive) -пациенты без заболевания, по с положительным результатом теста; TN (True-negative) - без заболевания с отрицательным результатом теста (табл. 1).
SF и SI* будут рассчитываться по следующим формулам [3]:
Таблица 1
Показатели, необходимые ия определения ST и SP
Тест Заболевание состояние признак
есть нет
4- Истинно-положительный (TP) Ложноположителънын (FP)
- Ложноотриыательный (FN) Ист1шно-отрнлательньш (TN)
SE - [ТР/(ТР + FN)j х Ю0%;
SP-[TN/(TN + FP)]x 100%.
Исходя из этого, чувствительность - это вероятность TP среди всех пациентов с заболеванием, а специфичность - вероятность TN среди всех пациентов без заболевания. Чем ближе SE и SP к 100%. тем более точным является диагностический тест.
I [алример, надо оценить SE и SP шкалы тревожности HADS (Hospital Anxiety Depression Scale) для выявления пациентов, склонных испытывать сильную боль после операции (> 6 баллов по I I.PI 11). Результат < 7 баллов по шкале HADS считался отрицательным. > 8 баллон (наличие симптомов тревоги) - положительным. 11з 100 пациентов у 36 результаты теста были истинно-положительными (TP), у 26 пациентов - ложноотрицательными (PN), так как. несмотря на MADS < 7 баллов, интенсивность боли всё равно была > 6 баллов. Следовательно. SE - 36/(36 + 26) х юо% - 58%. У 32 пациентов тест оказался истинно-отрицательным (ТО) - при норме по шкале HADS боль была < 6 баллов, однако у 6 пациентов при наличии тревоги боль была низкой интенсивности (FP), следовательно. SP - 32/(6 + 32) х 100% - 84% (табл. 2).
Совсем немногие тесты одновременно высокочувствительны и высокоспецифичны. Поэтому в ряде случаев пациента подвергают дополнительным обследованиям. В этой ситуации диагностические тесты могут выполнять согласно двум алгоритмам: параллельно (интерпретируются вместе) или последовательно (результаты первого теста определяют. надо ли делать следующий). Преимуществами последовательного метода являются экономия и уклонение от ненужных тестов, а недостатком -возможное удлинение периода обследования, что может негативно повлиять на лечение пациентов в тяжёлом состоянии.
Для интерпретации параллельного алгоритма используют два правила: AND rule и OR rule.
I IepBoe правило исходит из следующего принципа: комбинированный тест считается положительным, если только оба теста (например, тест А и тест В) положительные. а отрицательным - в случае, если отрицательным является хотя бы одни из них. Второе правило исходит из другого принципа: если один или оба теста положительные, комбинированный тест считается положительным, комбинированный гест является отрицательным, если только оба теста. А и В, отрицательные |8.10|.
При применении правила AND rule расчёт чувствительности и специфичности комбинированного теста (SEC и SPC) проводится но формулам: SEc-SEaxSEbX 100%, SPC- [SPA+ SPB- (SPAx SPB)I x 100%. где SEa. SEb, SPa и SPb - чувствительность и специфичность тестов А и В.
При применении правила OR rule используют формулы:
SEc-[SEA+SEB-(SEAxSEB)]x Ю0%, SPc-SPAxSPBx 100%.
Для примера приведем SEC и SPC комбинации шкалы I IADS и генотппировання по гену катехол-О-метитрансферазы COMT1947G>A для выявления пациентов с сильной болью после операции при условии. что чувствительность и специфичность генетического теста составляют 88.7 и 36.8% соответственно 111 При использовании правила AND rule для такой комбинации тестов искомые показатели будут равны: SEC- (0.58 х 0.887) * 100% - 51.4%. SPC- [ОМ + 0,368- (ОМ х 0.368)1 X 100% - 89,9%. При применении OR rule - SEC- [0,58 + 0.887 -( 0.58 x 0.887 ) ] x 100% - 95,3%; SPc - ( 0.84 x 0,368) x 100% - 30,9%. Таким образом, специалист может заранее сделать выбор в пользу увеличения чувствительности. применяя правило OR rule, и. наоборот, в пользу повышения специфичности, используя правило AND rule, в зависимости от сложившейся клинической ситуации.
Применение высокочувствительных методов целесообразно, когда требуется сузить круг предполагаемых диагнозов. I(одобные методики снижают вероятность «пропуска» пациентов, однако дают mi юго « ложи ых тревог». в ысокосг юцифичи ые тесты повышают уверенность, что у пациента не выявлено «несуществующее»заболевание. 11а наш взгляд, для проведения скрининга пациентов на предмет развития сильной боли после операции более гуманными являются применение высокочувстви-
Таблгща 2
I Указатели, необходимые для расчета SE и SP шкалы I IADS относительно сильной боли после операции
Тест (шкала HADS) Признак
есть (бсаь > б баллов) нет (боль < 6 баллов)
+ (> 8 баллов) 36 (TP) 6 (FP)
- (0-7 баллов) 26 (FN) 32 (TN)
Лекция
тельного теста н использование правила OR rule. При этом максимальное количество пациентов с возможным развитием сильного болевого синдрома будет иод пристальным наблюдением специалистов, а число «пропусков» пациентов группы риска - минимальным.
ROC-кривые. В то время как некоторые тесты дают однозначные результаты (положительный или отрицательный). другие показывают различные числовые значения. 11апример, но вышеупомянутой шкале I IADS пациент может набрать от 0 до 21 балла. Для более точной оценки диагностической способности такого теста на начальном этане необходимо рассмотреть все значения в качестве «порогового» и рассчитать SE и SP для каждой точки. Тест считается положительным при значении HADS выше или равном пороговому значению, отрицательным -при HADS ниже порогового значения. Например, для точки 8 баллов гест считается положительным при HADS > 8 баллов, а отрицательным -при HADS < 8 баллов, для точки 11 баллов тест считается положительным при HADS > 11 баллов и отрицательным-при HADS< 11 баллов. При этом, помимо показателей SE и SP, рассчитывается частота ложиоположительных результатов (FPR):
FPR- 100- SP.
В табл. 3 приведены значения SE, SP и FPR для нескольких значений но шкале I IADS. Данные расчеты можно выполнять вручную или с помощью специальных статистических программ, например MedCalc 15.2 (табл. 3).
На следующем этапе необходимо отобразить полученные значения на графике, результатом чего п является ROC-кривая: по оси X отмечается частота ложиоположительных результатов (FPR). а но оси Y - чувствительность (рис. 1). Если ROC-кривая проходит возле диагональной линии, то диагностическая способность теста очень низка
Таблица 3
Показатели SE, SP и FPR для отдельных значений шкалы 1IADS при выявлении пациентов с сильной болью после операции
HADS (баллы) SE (%) SP(%) FPR
1 98.39 18.42 81.58
3 95.16 50,00 50
5 77,42 57.89 42,11
7 58.06 84,21 15,79
8 46.77 92.11 7.89
10 37,10 97,37 2,63
12 33,87 97,37 2,63
14 20.97 100.00 0
16 6.45 100.00 0
18 3.23 100.00 0
100 30
160
Я 40
20 0
О 20 40 60 60 100 ЮО-ЭреойсКу <РРР.)
Рис. 1. КОС-кривая шкалы НА 1)5 относительно развития сильной боли после операции
и разграничить пациентов с болезнью и без неё будет невозможно. Чем ближе ИОС-кривая клевому верхнему углу, тем лучше тест - 5Е и БР приближаются к ¡00%, ЕРИ - к 0 12.5, в. 11 ].
I [встроенная кривая для шкалы 11А05 тревоги относительно развития сильной боли после операции занимает среднее положение, что свидетельствует о приемлемых диагностических свойствах.
Для сравнения тестов между собой можно построить одновременно несколько графиков н посмотрен». какой в большей мере стремится клевому верхнему углу (рис. 2).
Визуальное сравнение 1ЮС-кривых не всегда позволяет выявить наиболее эффективную модель. Более точным методом сравнения является оценка площади под КОС-кривыми. Теоретически она изменяется отОдо 1,0, по поскольку модель всегда характеризуются кривой, расположенной выше положительной диагонали, то обычно говорят об из-
ЮО^ресйкЛу <РРР.)
Рис. 2. ROC-кpнвыe шкалы МАО? (верхняя) и геноти-пирования СОМТ1947С> А (нижняя) относительно развития сильной боли после операции
: У .......\----1 ™J / i т JT 1 i — „. * /} А 7 j
у' 1 / ' i / / /
JT / 1....."У )f
{ /л V i
• • ' / : 1 / 1 . ...j.. .. ...
менениях от 0,5 («бесполезный» классификатор) до 1.0(«идеальная» модель) [6|.
Показатель площади под ROC-кривой называется AUC (Area Under Curve). Рассчитать его можно с помощью численного метода трапеций 1111 или используя специальные статистические программы. Для оценки полученных значений AUC применяется экспертная шкала, но которой можно судить о качестве модели (табл. 4) [2]
Для шкалы HADS AUC составила 0.802 (95%-ный ДИ 0,710-0,875). Для генотипирования по гепу СОМТ 1947G > A AUC - 0.653 (95%-ный
Таблица 4
Качество прогностической модели в зависимости
от AUC
Интервал AUC Качество модели
0.9-1.0 Отличное
0.8-0.9 Очень хорошее
0.7-0.8 Хорошее
0.6-0.7 Среднее
0.5-0.6 Неудовлетворительное
ДИ 0,551-0,745). Следовательно, более диагностически точным тестом для прогноза сильной боли после операции является шкала (IADS тревоги.
Метод расчета AUC может быть использован и для оценки комбинированных тестов, однако для этого требуется освоение более сложных статистических моделей, таких как логистическая регрессия. а также применение современных программ статистического анализа (MedCalc, SPSS и др.).
Таким образом, метод построения ROC-кривых и расчёта AUC является одним из л учших для оценки диагностической точности тестов и всё чаще применяется специалистами при проведении клинических исследований.
Позитивная и негативная прогностическая ценность. Чувствительность и специфичность характеризуют диагностическую значимость теста, но они не дают информации, какова вероятность наличия заболевания у конкретного пациента. В этом случае более уместно использовать такие показатели, как позитивная и негативная прогностическая ценность (PPV, Positive Predictive Value; NPV, Negative Predictive Value), которые отвечают на следующие вопросы: «Какая вероятность, что у пациента есть заболевание при положительном результате теста?» и «Какова вероятность, что его нет при отрицатель-пом?». Значение PPV рассчитывается но формуле [ 41:
PPV - TP/ (TP + HP).
Для примера вернемся к данным табл. 2. Для шкалы I IADS PPV - 36/(36 + 6) х 100% - 85.7%.
Значение PPV отличается от SE теста, поскольку
•
показывает вероятность развития сильного болевого синдрома у конкретного пациента, а именно:
с тревогой по шкале 1IA DS > 8 баллов. SIL отражает вероятность того, что тревога по шкале I IADS > 8 баллов присутствует у пациентов с сильной послеоперационной болью.
Таким образом, показатель PPV помогает клиницисту' определить тактику лечения при положительном результате теста, a SE характеризует качество диагностического теста и помогает выбрать
лучший из них. %
Значение NPV рассчитывается по формуле [4]:
NPV - TN/ (TN + FN).
Исходя изданных табл. 2, для шкалы HADS NPV - 32/(32 + 26) х 100% - 55.2%. Следовательно, у пациента без клинически значимой тревоги (IIADS < 8 баллов) не разовьётся сильная боль после операции в 55.2% случаев. NPV отличается от показателя SP. который свидетельствует о вероятности отсутствия тревоги среди всех пациентов без сильной послеоперационной боли.
Значения PPV и NPV могут существенно отличаться в зависимости от распространенности заболевания. Чем ниже распространённость, тем ниже показатели прогностической значимости. В этом случае значения PPV и NPV могут рассчитываться с помощью теоремы Байеса, учитывающей распространённость заболевания в популяции (prevalence-prev.). В этом случае формулы меняются (4,9|:
PPV - [SE х prev/(SE х prev + (1 - SP) х (1 - prev))] х Ш0%,
NPV - [(SP x (1 - prev))/(( 1 - SE) x prev + SP x (1 - prev))] x 100%.
Пусть в данном исследовании распространённость сильной боли после операции составила 62% (0,62). 11 одстави в это значен не в формул ы. i юлу ч им. что для HADS тревоги PPV - 85.5%, NPV - 55.1%. Однако если взять распространённость сильной боли в течение первых суток после операции, как в исследовании М. Sommer et al., 2008, где она составила 30%. значения PPV и NPV будут резко отличаться и составят 60.8 н 82.3% соответственно |7|. Данный пример свидетельствует о важности учёта распространённости заболевания вне зависимости от того, какой показатель интересует специалиста в большей мере, PPV или NPV.
Отношение правдоподобия. Дополнительным методом оценки диагностического теста является отношение правдоподобия (I.R. Likelihood Ratio). Данное отношение может вычисляться для положительного результата теста (LR+), тогда оно показывает отношение вероятности получить положительный результат у пациента с заболеванием к вероятности получить положительный результат у пациента без него. Отношение правдоподобия для отрицательного результата теста (LR-) показывает отношение вероятности получить отрицательны й результат у пациента с заболеванием к вероятности получить отрицательный результат у пациента без него.
Лекция
Значение LR+ и LR- рассчитываются но формулам [4]:
LR+-SE/0 -SP).
LR- - (1 - SE)/SP.
Значение LR+ > 1 свидетельствует о связи теста с заболеванием, I.R- < 1 - о связи теста с отсутствием заболевания.
Для шкалы HADS относительно развития сильной боли (табл. 2) LR+ - 0,58/( 1 - 0.84) - 3.6: LR- - (1 - 0,58)/0,84 - 0.5. Полученное для LR+ значение 3,6 свидетельствует о том, что вероятность положительного результата теста ( 11А DS > 8 баллов) в 3,6 раза больше у пациента с сильной болью после операции, чем у пациента без болевого синдрома. Значение LR-, равное 0.5. свидетельствует о том. что вероятность получить отрицательный тест ( IIADS < 8 баллов ) у пациента без бол и в 2 раза превышает вероятность получить отрицательный тест у пациента с сильной болью после операции.
Таким образом, в настоящее время существует достаточно большой арсенал методов клинической оценки диагностических тестов, начиная от простых, таких как чувствительность, специфичность, позитивная п негативная прогностическая зна-
чимость. и. кончая такими «продвинутыми», как ROC-крнвые и AUC. В случае применения комбинированных тестов использование правил OR rule
и AND Rile позволяет повысить чувствительность
%
или специфичность в зависимости от конкретной кл и 11 ической с ту аци и.
ДЛЯ КОРРЕСПОНДЕНЦИИ:
Медицинская академия им. С. //. Георгиевского ФГАОУ ВО «Крымский федеральный университет им. В. И. Вернадского». 295006, Республика Крым, г. Симферополь. бульвар Ленина, д. 5/7.
Боя/жина Анна Викторовна
ассистент кафедры анестезиологии-реаниматологии и скорой медицинской помощи. E-mail: annaboiarkina@mailn4
Потапов Александр Леонидович
доктор медицинских наук, профессор кафедры анестезиологии-реаниматологии и скорой медицинской помощи.
E-mail: AL [email protected]
Литература
1. Бояркина А. В. Влияние психологических и генетических факторов на эффективность послеоперационной аналгезии опиоидами: Дне... канд мед. наук: 14.01.20. - СПб., 2015. - 157 с. http://szgniu.ruyds/upload-flies/ Диссертация Бояркинз.рсИ"
2. Паклин Н. Логистическая регрессия и ROC-анализ - математический аппарат [Электрон, ресурс). - 2015. - Режим доступа: http.v/basegroup. ntfcanmrniitytf articles/logistic
3. Altman D. G., Bland I. M. Diagnostic tests 1: sensitivity and specificity // BMJ. -1994. - Vol. 308 (6943). - R 1552.
4. AUman D. G.> Bland I. M. Diagnostic tests 2: predictive values // BM|. - 1994. -Vol. 309(6947).-P. 102.
5. DeLong E. R„ DeLong D. M> Clarke-Pear son D. L. Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach // Biometrics. - 1988. - VoL 44> H> 3. - P. 837-845.
6. Hanley I A > McNeil B. ). The meaning and use of the area under a receiver
operating characteristic (ROC) curve // Radiology. - 1<*82. - VoL 143, K* 1. -P 29-36.
7. SommerM . de Rilke I. M.,van Kleef M. et d. The prevalence of postoperative pain in a sample of 1490 surgical inpatients // Eur. I. AnaesthesloL - 2008. -Vol.25>KM.-P.267-274
8. Parlkh R.. Mathal A., Parlkh S. et al. Understanding and using sensitivity, specificity and predictive values // Indian. J. Ophthalmol. - 2008. - VoL 56> KM. - P 45-50.
9. Weinstein S, Obuchowskl N. A.. Lieber M. L. Clinical evaluation of diagnostic tests //Am. J. Roentgenol. - 2005. - Vol. 134, № 1. - P. 14-19.
10. ZhouX. H> Obuchowskl N. A.,Modish D. K. StaUsUcal methods in diagnostic medicine // Biometrics. - 2003. - Vol. 59> № 1. - P. 203-204.
11. Zweig M. H > Campbell G. Receiver-operating characteristic (ROC) plots: A fundamental evaluation tool In clinical medicine // Clin. Chern. - 1993. -Vol. 39>K*4.-P 561-577.
References
1. BoyarkJna A. V. Vllya/ite pslkholo&chesklkh i genetlchesklkh faklorov na effek-ttvnosf posieoperatsionnoy anafyezti oploldaml. Diss. ka*d. med. nauk. (Effect of psychological and genetic factors on the efficiency of post-surgery analgesia with opioids Cand Diss.). 14.0120. St. Petersburg, 2015. 137 p. http://szgniu.iu/ds/upload»files«' JlHccepraiuta BoapKMHa.pdf
2. Paklln N. Loglsttchcskaya regre&ya / ROC-anatiz - tnatetnattcheskty apparaL (Logic regression and ROC-analysls - mathematical tool). (Epub.) 2015> Available at http://basegroup.ru/comraunlty/artlde8/logjstlc
3. A It man D.G.> Bland J.M. Diagnostic tests 1: sensitivity and specificity. BMf, 1994» vol 308 (6943)» pp. 1552.
4. Altman D.G.. Bland J.M. Diagnostic tests 2: predictive values. B\if. 1994>wL 309 (6947)> pp. 102.
5. DeLong E.R > DeLong D.M.> Clarke-Pearson D.L. Comparing tlie areas under two or more correlated receiver o-perating characteristic curves: a non-parametric approach. Biometrics 1988> vol. 44, no 3> pp. 837-845.
6. Hanley JA.> McNeil B.J The meaning and use of the area under a receiver operaung characteristic (ROC) curve. Radiology, 1982,vol. 143, no. l>pp. 29-36.
7. SommerM., de Rl Ike J.M., van Kleef M.etaL The prevalence of preoperative pain in a sample of 1490 surgical Inpatients. Eur. /. Anaesthesiol> 2008. vol. 25> no 4, pp. 267-274.
8. Parlkh R.. Matlial A., Parlkh S. et al. Understanding and using sensitivity, specificity and predictive values. Indian. /. Ophthalmol, 2008, vol. 56, no 1, pp. 4 >-50.
9. Weinstein S.,Obuchowskl NA„ Lleter Ml. Clinical evaluation of diagnostic tests. Am. /. Roentgenol, 2C05, vol. 184, no. 1, pp. 14-19.
10. Zhou X.H., Obuchowskl NA., Mcdtsh D.K Statistical methods In diagnostic medicine. Biometrics, 2003, vol 59, no 1, pp. 203-204.
11. Zweig M.H* Campbell G. Receiver-Derating characteristic (ROC) plots: A fundamental evaluation tool In clinical medicine. Gin. Chern., 1993, voL 39, no 4> pp. 561-577.