Научная статья на тему 'Теоретический анализ показателей предсказательной эффективности бинарных генетических тестов'

Теоретический анализ показателей предсказательной эффективности бинарных генетических тестов Текст научной статьи по специальности «Клиническая медицина»

CC BY
516
118
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Экологическая генетика
Scopus
ВАК
RSCI
Область наук
Ключевые слова
ГЕНЕТИЧЕСКИЕ АССОЦИАТИВНЫЕ ИССЛЕДОВАНИЯ / ОТНОШЕНИЕ ШАНСОВ / ПРЕДСКАЗАТЕЛЬНЫЙ ГЕНЕТИЧЕСКИЙ ТЕСТ / AREA UNDER CURVE (AUC) / AUC / GENETIC ASSOCIATION STUDIES / ODDS RATIO / PREDICTIVE GENETIC TESTING

Аннотация научной статьи по клинической медицине, автор научной работы — Рубанович Александр Владимирович, Хромов-борисов Никита Николаевич

Представлен свод формул для показателей распознающей и предсказательной способностей бинарных генетических тестов. Охарактеризована их зависимость от распространенности заболевания и частоты встречаемости генетического маркера. Показано, что при отношении шансов OR 5,4, но лишь при условии, что его популяционная частота достаточно высока (pM > 0,3). Приведены формулы, позволяющие в исследованиях типа «случаи–контроли» получать косвенные оценки абсолютных и относительных рисков носительства маркера

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по клинической медицине , автор научной работы — Рубанович Александр Владимирович, Хромов-борисов Никита Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Theoretical analysis of the predictability indices of the binary genetic tests

A set of formulas for the indices of performance and predictive ability of the binary genetic tests is presented. Their dependence on disease prevalence and population frequency of a genetic marker is characterized. It is shown that a marker with the odds ratio OR 5.4, but only when its population frequency is rather high (>0.3). The formulas are presented that allow to obtain indirect estimates of absolute and relative risk of the disease for the carrier of a marker in the case-control studies

Текст научной работы на тему «Теоретический анализ показателей предсказательной эффективности бинарных генетических тестов»



БИОИНФОРМАТИКА

© А. В. Рубанович ', Н. Н. Хромов-Борисов 2-4

1 ФГБУН «Институт общей генетики им. Н. И. Вавилова РАН», Москва;

2 ГБОУ ВПО «Санкт-Петербургский государственный медицинский университет им. акад.

И. П. Павлова Минздрава РФ»;

3 ФГУ «Российский научно-исследовательский институт гематологии и трансфузиологии Федерального медико-биологического агентства», Санкт-Петербург;

4 ФГБУ «Российский научно-исследовательский институт травматологии и ортопедии им. Р. Р Вредена Минздрава РФ», Санкт-Петербург

& Представлен свод формул для показателей распознающей и предсказательной способностей бинарных генетических тестов. Охарактеризована их зависимость от распространенности заболевания и частоты встречаемости генетического маркера. Показано, что при отношении шансов OR < 2,2 маркер обладает заведомо низкой прогностической эффективностью во всех смыслах при любых частотах заболевания и маркера. Маркер может быть хорошим классификатором, если OR > 5,4, но лишь при условии, что его популяционная частота достаточно высока (рм > 0,3). Приведены формулы, позволяющие в исследованиях типа «случаи—кон-троли» получать косвенные оценки абсолютных и относительных рисков носительства маркера.

& Ключевые слова: генетические ассоциативные исследования; отношение шансов; АиС; предсказательный генетический тест.

Поступила в редакцию 03.08.2012 Принята к публикации 10.01.2012

УДК 57.087.1

теоретический анализ показателей предсказательной эффективности бинарных генетических тестов

ВВЕДЕНИЕ

Повсеместное распространение исследований статистических связей между генотипом и предрасположенностью к широко распространенным заболеваниям породило острую дискуссию о методах оценки прогностической эффективности маркеров, выявляемых в результате этих работ (Poste, 2011; Kraemer et al., 2011; Pepe et al., 2010; Kraft et al., 2009; Jakobsdottir et al., 2009; Tan et al., 2004). В большинстве случаев авторы сходятся во мнении о том, что высокие значения показателей сопряженности маркера с признаками не гарантируют возможности использования этого маркера для прогноза фенотипического проявления генотипа. В частности, многие авторы подчеркивают, что статистически высоко значимая сопряженность заболевания с генетическим маркером является необходимым, но не достаточным условием возможности использовать такой маркер для предсказания предрасположенности к заболеванию. Так, например, многочисленные гены, выявляемые при широкогеномном сканировании как сопряженные с раком предстательной железы, лишь на несколько процентов увеличивают предсказательную эффективность традиционных биомаркеров (PSA, Gleason score) (см., например, Aly et al., 2011 и редакторский комментарий Bjartell, 2011).

В этой связи нами было предпринято теоретическое исследование ситуаций, возникающих при попытках описания статистических связей «генотип — бинарный признак». В первую очередь нас интересовал вопрос: какие значения OR (отношения шансов) могут обнадежить исследователя? При каких OR на основе выявленной генетической ассоциации может быть создан эффективный биомаркер предрасположенности к заболеванию? Мы покажем, что ответы на эти вопросы существенно зависят от распространенности заболевания и частоты встречаемости маркера. Цель публикации — всесторонне исследовать функциональную зависимость стандартных показателей эффективности теста от трех независимых параметров: OR, популяционная частота маркера (pM) и распространенность заболевания (pD).

ОБЗОР ПОКАЗАТЕЛЕЙ ЭФФЕКТИВНОСТИ БИНАРНОГО ТЕСТА

Количество предложенных мер сопряженности качественных признаков давно превышает все разумные пределы. В работе (Tan et al., 2004) перечислен 21 показатель ассоциирования, характеризующий таблицу сопряженности из 4 чисел. Столь же многообразны попытки упорядочить возможные индексы и меры сопряженности. В недавней работе (Bossuyt, 2010) предлагается следующая классификация: 1) показатели точности (error-based) — чувствительность, специфичность и производные от них; 2) показатели информативности (information-based) — абсолютные риски при положительных и отрицательных результатах тестирования и отношения правдоподобий; 3) показатели сопряженности (association-based) — отношение шансов OR,

78

бномиформатика

относительные риски и показатель «каппа» Коуэна. Эта классификация выглядит не слишком естественной. Фактически к показателям точности отнесены все оценки, связанные с исследованиями типа «случаи — контроли», а к показателям информативности отнесены оценки, характерные для когортных исследований. Абсолютные риски отнесены к показателям информативности, а их отношение (относительный риск) к показателям сопряженности. Кроме того, при OR >> 1 показатель «каппа» и относительные риски могут быть сколь угодно малы, а высокое отношение правдоподобий не гарантирует высокий уровень абсолютных рисков.

Мы будем придерживаться следующей нехитрой классификации: 1) тотальные показатели, т. е. зависящие от всей таблицы сопряженности; 2) условные показатели, при вычислении которых используются либо только строки, либо только столбцы таблицы сопряженности. Во втором случае мы будем всячески подчеркивать симметричность ситуации — каждому показателю по строчкам соответствует аналогичный показатель по столбцам. Фактически это единственный способ не запутаться в многообразии возможных характеристик теста. Кроме того, подобная классификация продиктована структурой данных в «генетике предрасположенностей». Генетики редко имеют возможность провести популяционное исследование генотипов и вычислить вероятность совмещения генетического маркера и заболевания. Обычно удается оценить лишь условные вероятности носительства маркера при наличии заболевания (исследования по схеме «случаи— контроль»), либо вероятности развития заболевания при условии носительства маркера (когортные исследования с целевым выбором носителей маркера). Эти два варианта соответствуют вычислениям условных показателей по столбцам либо по строкам.

Показатели сопряженности маркера (М) и заболевания

Пусть совместное распределение вероятностей встречаемости маркера М и заболевания D задано в виде стандартной таблицы (матрицы) сопряженности 2 * 2

P =

fP(M,D) P{M,D)Л

(1)

УР(М,Б) Р{М,Щ,

с нормиро вкой Р(М,Ц) + Р(М,Ъ) + Р(М,Б) + Р(М,Ъ) = 1. Здесь мы предполагаем, что бинарные случайные величины_М и D принимают значения: М е {М,М} и О е {Р),Щ . Под маркером м понимается «предрасполагающий» генотип (аллель, гаплотип), сопряженный с заболеванием D. Под М имеется в видусовокупность альтернативных генетических вариантов. О означает отсутствие заболевания.

Введем обозначения для маргинальных сумм: рв = Р(М,В) +Р(М,Б) — распространенность заболевания, и _

р М = Р{М,Б) + Р{М,Б) — популяционная частота маркера. Легко проверяемое тождество р (м,п) - рмрв=Р(М, О) - (1 - рм) (1 - рв) = Рм (1-Ро ) - Р(М,Б) обусловливает возможность представления исходной матрицы р в виде:

(

P =

^

( 1 -Л

, (2)

РиРв Рм( 1-Р о)

^Рп(\~Рм) (\-Рм№-Рп))' Л"1 К В этой сумме первая матрица соответствует случаю независимых случайных величин М и D, а вторая — добавка, возникающая за счет их взаимодействия.

Далее мы будем рассматривать исключительно случай Д > 0 (положительная связь между маркером и заболеванием). Случай Д < 0 соответствует за мете М <г^М.

Величина А = Р(М, О) -рМрО является одной из возможных (но редко используемых) мер сопряженности М и D. Определения наиболее распространенных показателей статистической сопряженности перечислены в таблице 1.

таблица 1

ф) для матрицы сопряженности Р

Тотальные показатели сопряженности

OR P{M,D)P{M,D) Р (MJ))P(M,D)

ACC P(M,D) +Р (M,D)

А Р (M,D)-PmPd

r

KC 2Д/СРм Q-Pd ) + Рп (1-Рм))

Условные показатели сопряженности

Истинные позитивы Истинные негативы Отношение рисков Разность рисков

По столбцам SE = Р (М | D) SP = Р(М 1 D) LR = SE/(1 - SP) SE + SP - 1

По строчкам PPV = P(D\ M) NPV = P(D\ M) RR = PPV/(1 - NPV) PPV + NPV - 1

SE (Sensitivity) — чувствительность, т. е. вероятность наличия маркера у субъекта с болезнью; SP (Specificity) — специфичность, т. е. вероятность отсутствия маркера у субъекта без болезни; LR (Likelihood Ratio) — отношение правдоподобий; RR (Risk Ratio) — отношение рисков; PPV(Positive Predictive Value) — предсказательная ценность наличия маркера, т. е. вероятность наличия болезни у субъекта с маркером; NPV (Negative Predictive Value) — предсказательная ценность отсутствия маркера, т. е. вероятность отсутствия болезни у субъекта без маркера.

Тотальные показатели ассоциирования

К их числу относятся отношение шансов (OR), точность (ACC), коэффициент корреляции (r) и показатель «каппа» Коуэна (Cohen's kappa — кС) (Cohen, 1960).

Очевидное преимущество показателя OR состоит в его универсальности в смысле применимости к любой схеме исследований (случаи — контроли, когортные исследования). Остальные тотальные показатели могут непосредственно оцениваться лишь в популяционных исследованиях (без целевого выбора «только больные» или только «носители маркера»).

Интуитивно привлекательным для понимания является показатель ACC (другое название — FC, Fraction Correct (Mitchell, 2009a, b)), который определяется как доля случаев правильного срабатывания теста (след матрицы Р). Строго говоря, ACC не является показателем сопряженности, поскольку АСС > 0 при OR = 1. Более того, приpM»pD << 1 величина ACC слабо зависит от OR и близка к 1 даже в отсутствие статистической взаимосвязи.

В показателях r и к фактически используется разность А = P(M, D) - PMPD. Тем не менее, коэффициент корреляции r в генетических исследованиях предрасположенности практически не фигурирует, т. к. непосредственно оценивается лишь в популяционных исследованиях. Величина r в первую очередь отражает линейность взаимосвязи M и D, т. е. близость матрицы Р к диагональному виду. При этом в отличие от OR коэффициент корреляции может не регистрировать ситуации (быть близким к нулю), в которых носительство маркера является лишь необходимым (либо только достаточным) условием заболевания.

Показатель кс часто используют для проверки согласия между двумя способами диагностики или между мнениями двух диагностов. При этом считается, что согласие хорошее при 0,6 < кс < 0,8 и отличное при 0,8 < кс < 1,0 (Landis, Koch, 1977). На практике показатель кс близок к коэффициенту корреляции, но всегда кс<r с равенством при pM = pD . Точнее

( IPdQ-Pm) , /лЛ1 -Рd)^

1

r = кс — C 2

>кг,

го теста (positive/negative predictive value). Для каждой пары показателей можно определить относительные риски (LR и RR), которые всегда меньше OR. Двойственность определения условных показателей обусловливает выполнение тождеств:

SE _ SE-pM _ OR - LR _ pM

РРУ РРУ - рв ОР -РР рв

Ясно, что ОР > РР > ЬР при рм> рв, и ОР > ЬР > РР пРи Рм < Рв .

Показатель ЬР называют отношением правдоподобий и часто обозначают как ЬР+, имея в виду выполнение тождества

ЬЯ - Ж РР(Р\М)1(1-Р(Р\М))

+ " 1 - БР~ Р {М\Ъ)~ рв/(1~р в) которое позволяет интерпретировать ЬР+ как отношение апостериорных шансов заболеть после получения информации о носительстве маркера к априорным шансам заболевания до получения такой информации. При этом вводится аналогичный показатель для отрицательных результатов тестирования:

1 - SE ьр+ ррМУЦ - РфМ))

LR =-

SP

OR

РоЧ1 -Р о)

Мы будем рассматривать лишь LR = LR+ в виду его двойственности к условному показателю RR (относительный риск).

Среднюю эффективность теста часто характеризуют разностью абсолютных рисков:

Р(М | D) - Р(М \D) = SE-(l-SP)

(в исследованиях «случаи—контроли»),

P(D | М) - P(D | М) = PPV-( 1 -NPV)

(в когортных исследованиях).

Легко видеть, что показатели средней эффективности являются коэффициентами наклона соответствующих линий регрессии:

SE + SP-1 =

.'лЛ1 -Рв ) \ Р вО--Рм), Условные показатели ассоциирования Условные показатели (нижняя часть табл. 1) можно вычислять по столбцам либо по строчкам матрицы сопряженности в зависимости от схемы исследования. Обычно используют условные вероятности появления истинно позитивных и истинно негативных результатов тестирования. В исследованиях по схеме «случаи—контроли» по столбцам можно непосредственно оценить чувствительность ^Е) и специфичность ^Р) теста. При проведении когортных исследований непосредственной оценке поддаются двойственные показатели по строкам: предсказательная ценность для положительных (РРУ) и отрицательных ^РУ) результатов диагностическо-

Р (M,D)-PmPd Pd (1 -Pd)

= r-

■ = b

M\B

(3)

PPV + NPV-1 =

P (M,D)-PmPd PM( 1 -PM)

= r-

CT,.

D\M

где, &М =Рм(1 - Рм )> = Рм (1 - Рм X ЬМ\в и Ьв\м — наклоны линий регрессии М на D и D на М, соответственно. Имеются в виду регрессии, которые вычисляются после перекодировки: М,£> —> 0;М,£> ^ 1 .

Очевидно, что показатель ЬщМ являясь коэффициентом наклона регрессии D на М и разностью абсолютных рисков, характеризует среднюю диагностическую эффективность маркера, т. е. возможность предсказывать индивидуальную предрасположенность к заболеванию

D

80

биоинформатика

по результатам тестирования на носительство маркера. В отношении показателя в следующем разделе будет показано, что в некотором смысле этот показатель характеризует возможности маркера решать классификационные задачи. Ничего другого и не следовало ожидать: показатель Ьм^ являясь коэффициентом наклона регрессии М на Э, характеризует способность теста отличать выборки больных от выборок здоровых.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ясно, что коэффициент корреляции является средним геометрическим условных показателей эффективности теста:

r = J (SE + SP -1)( PPV + NPV -1).

Отметим также, что величины bMp и bDщ часто называют индексом Юдена (Youden, 1950) и суммарным предсказательным индексом (PSI, predictive summary index) (Linn, Grunau, 2006) соответственно.

ВЕРОЯТНОСТНЫЕ ИНТЕРПРЕТАЦИИ ПОКАЗАТЕЛЕЙ ЭФФЕКТИВНОСТИ ТЕСТА

Показатели PPV и NPV (а также производны й о т них показатель RR) имеют очевидную и практически важную интерпретацию — это условные вероятности развития заболевания при носительстве или отсутствии маркера. Прогностическая цанность двойствеиных показателей по столбцам (SE и SP) предстввляется менее очевидной. В этой связи рассмотрим несаолько ваз-можных вероятностных интерпретацив показателей, связанных с Ьщо яSE + SPяl.

При анализе эффективности количтственных маркеров успешно используется зависимость SE от 1 — SP (ROC-кривая). Площадь под этой кривой (AUC — Area Under Curve) равна вероятности того, что у случайно выбранного субъекта с болезнью значение мерного признака будет выше, чем у случайно выбранного субъекта без данной болезни (Fawcett, 2006). Для бинарного маркера ROC-кривая является кусочно-линейной (рис. 1), при этом соответствующая площадь равна

. „ 1 ,, ч se + sp лис = т(ьМ1п+1) = —т—.

Отметим также, что в работах, посвященных алгоритмам поиска межлокусных взаимодействий, показатель (SE + SP )/2 называют «балансовой точностью» (balanced accuracy, BA) (см., например, Winham et al., 2010).

В отношении показателя (SE + SP)/2 справедливо следующее

Утверждение 1. Пусть при тестировании одного больного и одного здорового индивидуума идентификация больного осуществляется следующим образом: больным объявляется носитель маркера, если результаты тестирования не совпадают, и больной выбирается случайно при совпадении результатов тестирования. Тогда вероятность правильной идентификации больного равна AUC = (SE + SP )/2.

Доказательство. Искомая вероятность равна

Р2л = B^P(M\D)P(M\D) + + вр{ef \ dpр(м \d) + + 1xE(M\D)P(M^)S + OxP(M|d)PxM\D) = ВПЕх x(l-SP) + |(l-SE)x SP + SEx xSP =1 SE +1 SP.

тт

Утверждение доказано. Таким образом, величина ьщП= (AUC-0,5)/0,5 равна относительной добавке к вероятности 0,5 (случайное угадывание). В ROC-ана-лизе принято считать, что маркер является хорошим классификатором при AUC > 0,7 и безусловно плохим при AUC < 0,6 (Swets, 1988).

Утверждение 1 допускает следующее обобщение, которое предлагает интерпретацию показателя LR=SE/(1 - SP).

Утверждение 2. Пусть в группе из n человек имеются один больной и (n - 1) здоровых индивидуумов. Для обнаружения больного тестируются все члены группы, и если среди них обнаруживаются k носителей маркера, то выбор больного среди них осуществляется случайным образом с вероятность 1/k. Тогда вероятность правильной идентификации больного при тестировании группы равна

LR -SP"-\LR -1) LR

P* =

Рис. 1. «ЯОС-кривая» в случае бинарного теста. Площадь выделенной фигуры равна АиС = (Ьмю + 1)/2 = (Ж + ЗР)/2

п п

Иными словами, применение теста к группе из п лиц увеличивает вероятность обнаружения больного в LR раз по сравнению со случайным угадыванием (которое возможно с вероятностью 1/п).

Доказательство. Искомая вероятность равна

Pn, =1(l-SE)SP"~1 + n

+ SEУ ^"-e (i_ SP)k =

ti n + 1 1 1 _ SPn

p -П^ - SE)SP"S + SE 1 = n n{l-SP)

= S\SPn-S \-SPn-1)\ =

n 1 - SP J

= S (LR- SPn\LR -1)) . n

Утверждение доказано. При n = 2 имеем формулу из Утверждения 1.

Широкое распространение получили показатели обратные к Ъм]р и bD^M в качестве оценок среднего числа тестов, проведенных до первого правильного срабатывания маркера. Этот подход заимствован из работ, оценивающих эффективность терапевтических методов, которые, как правило, являются когорт-ными исследованиями (в качестве маркера М выступает терапия Т). В этих работах часто используется показатель ЖТ = b^ =(P(D \Т) - P(D | Г)) Л который оценивает минимальную численность группы прошедших терапию, при которой число излеченных на одного больше, чем в такой же контрольной группе (Number Needed to Treat — число подлежащих воздействию). По аналогии для оценки эффективности использования маркеров различными авторами были предложены (см., Anonymous, 1996 и обсуждение: например, Mitchell, 2009 a, b):

• число подлежащих диагностированию (Number Needed to Diagnose) для исследований по схеме «случаи—контроль»

NND = b^D = (Р(М | D) - Р(М\ Щ-1 = _ 1 . " SE + SP-1

• число субъектов, необходимое для предсказания (Number Needed to Predict) для когортных исследований

NNP = bD\м = (P(D IМ) - P(D IM))1 = _ 1 . " PPV + NPV-1

При этом величину NND часто интерпретируют как среднюю численность выборки, которую необходимо протестировать, для обнаружения одного больного (Mitchell, 2009 a, b). Другие авторы полагают, что NND — это среднее число тестирований до момента любого правильного срабатывания теста (правильная идентификация больного или здорового) (Linn, Grunau, 2006). Нам представляется, что обе

интерпретации ошибочны. Контрпример дает матрица Р вида

р — 1(т61 1 0 I .

^99 999900^1

В этом случае БЕ = 0,01 и БР = 1 (все носители маркера больны). Тогда ЫБО = 100, хотя для обнаружения больного при помощи маркера нужно в среднем провести 1/рм = 106 тестов. При этом доля случаев правильного срабатывания теста практически равна единице (АСС = 0,999901).

В отношении показателя ЫЫВ = Ь711г, можно ут-

м\и ^

верждать лишь следующее. Пусть в единицу времени на носительство маркера проверяются один больной и один здоровый человек. Тогда среднее время ожидания события «число носителей маркера среди больных больше, чем среди здоровых»равно Ьща = (БЕ + БР - 1)-1. При этом вероятность того, что в выборке больных число носителей маркера всегда больше, чем в выборке здоровых равна SE + SP - 1.

Аналогично, при рассмотрении растущей выборки носителей маркера среднее время ожидания события «число больных среди носителей маркера выше, чем среди свободных от маркера» равно

р»»Р = ь^м = (РРУ + ту - 1)-1.

зависимость показателей эффективности от распространенности заболевания и популяционной частоты маркера

Современные базы данных позволяют получать априорную информацию о частотах встречаемости возможных генов-маркеров (рм) наряду с данными о распространенности изучаемого заболевания (рв). В поисковых ассоциативных исследованиях прогностическая эффективность генетического теста будет существенно зависеть от популяционной частоты выбранного для исследования маркера. В этой связи необходимо четко представлять характер зависимости всех показателей эффективности теста от рм и рв при различных уровнях ассоциирования (значениях ОР).

В этом разделе мы приведем сводку формул, описывающих зависимость показателей эффективности бинарного теста от трех независимых параметров: ОР, рм и рв. Начнем с вычисления ключевого показателя Д = Р(М,П)~ рмрв. Величина А вычисляется из определения ОР:

ОР _ (РмРр+а№~Рм)(1 ~Ро) + А) , 0 - Рм)" А)(/>м (1 - Рв)~ д)

откуда

Д = -

OR-4s ... .

OR ^--i^M - -^M)

= 4o>£(OR -1)

(V^ + l)2 -(pM-pDf(OR -l)2

(4)

где

5 = 1 + 2(°Р -1)(рв + рм - 2рврм) +

+ (ОР -1)2 (рв-рм )2.

Из вида выражения (4) ясно,что

АСС = (ОР - 45){ОР-1 Г1. Формуле для А можно также придать вид А = А А ,

где,

Amax = min^D (1 - Рм X РМ (1 ~Pd и 2

Д'=1-

4ô + \+\pd-pm\(or-\)

PAR =

Pd-P (D\M) NPV-(1-Pd)

Pd

SE~P M

Pd

■ = Д '.

При gdgm(OR — 1) < 0,5 хорошее приближение для A даетформула:

ct2mV2d(OR-1) , (5)

где, _2

1 + (1-ACC0)(OR -1)

= РоО-~Ро)>ам =Рм(1 ~Рм X АСС 0 = рврм + (1 - рв)(1 - рм) — доля «правильных тестирований» в отсутствие ассоциации. В этом приближении хорошо видна структура показателей эффективности маркера:

°м (OR -1)

JM\D

JD\M

1 + (1-ACC 0) (OR -1)

oD(OR -1)

Напомним, что мы всюду рассматривает случай А > 0, в котором всегда OR > 1. При А < 0 выражение для Amax имеет вид:

Amax = mm{/>D/>M,(l-/> мХ*" Pd )}.

В популяционной генетике величина А именуется «неравновесием по сцеплению», а А' «приведенным неравновесием по сцеплению» (Lewontin, Kojima, 1960; Slatkin, 2008). Отметим, что при pD< pM величина А' совпадает с так называемым «популяционным атрибутивным риском» (PAR), который определяется (Levin, 1953) как

1 ~Рм Рв(\~Рм)

Выражения для г и А имеют достаточно громоздкий вид. В этой связи в таблице 2 мы приводим точные формулы для тотальных и условных показателей вместе с аппроксимациями для трех случаев: ОР ^ 1, 0 и рм^ 0. Таблица позволяет быстро оценивать прогностические возможности теста в крайних ситуациях. Например, при очень низкой распространенности заболевания (рс ^ 0) показатель РРУ приблизительно равен РРУ к рвОР(1 +рм(ОР-1))~1 < рвОР . Это означает, что в случае редких заболеваний даже для очень «хорошего маркера» показатель РРУ заведомо мал. Например, при рв = 10-4 и ОР = 100 вероятность заболевания при носительстве маркера не превышает 1 %.

1 + (1 - A CC0 )(OR -1)

В любом случае всегда справедливы неравенства ^ А ^ 2Аappr> № Аappr — пРавая часть Равенства

(5).

Далее мы дадим качественное описание зависимостей показателей эффективности теста от распространенности заболевания и популяционной частоты маркера. Общий вид этих зависимостей показан на рисунках 2 и 3. Все условные показатели приведены за вычетом значений, характеризующих случай независимых M и D. Ясно, что во всех случаях зависимости для условных показателей представляются одной и той же поверхностью, которая от рисунка к рисунку зеркально отражается и поворачивается на 90°.

Качественная картина такова. Чувствительность теста слабо зависит от распространенности заболевания (монотонно убывает), но критично зависит от частоты встречаемости маркера (ярко выраженный максимум для редких заболеваний). Специфичность теста слабо зависит от распространенности заболевания (монотонно возрастает), но критично зависит от частоты встречаемости маркера для широко распространенных заболеваний (выраженный максимум). В отношении показателей PPV и NPV картина симметрично воспроизводится при замене местами pM ^ pD.

Аналогичные зависимости для средних показателей эффективности bm =SE + SP-\ и bm = PPV + NPV -1 представлены на рисунке 3. Показатель bM^ слабо зависит от распространенности заболевания, но имеет максимум как функция частоты маркера. Напротив, показатель b^M слабо зависит от частоты маркера, но имеет максимум как функция распространенности заболевания. На обоих рисунках гребень волны параллелен горизонтальной плоскости и расположен на высоте (4OR - l)(VOR + l г1 Отметим, что max bM^D = max ЬщМ и совпадает с коэффициентом взаимосвязанности Юла (Yule's coefficient of colligation) (Yule, 1912). Следующее утверждение частично воспроизводилось многими авторами (см., например, King, Zeng, 2002).

1

Таблица 2

Представление показателей эффективности маркера через OR, pM и pD

Точная формула Приближенные формулы при

OR ^ 1 PD ^ 0 PM ^ 0

Тотальные показатели сопряженности

ACC OR-4s OR -1 ACC0 1" Pm 1" Pd

А 1 (ACC - ACC 0) amaz>(OR -1) a2MpD(OR-1) 1 + Pm (OR-Y) aDpM(OR~Y) 1+Pd(OR-Y)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

r А ctdCTm(OR -1) °d4K(OR-Y)

1 + pM (OR-Y) \+Pd(OR-Y)

к с 2A 2<T>£(OR -1) 2 P d G - P M ) (OR-V) 2Pm(\~ P n)(PR-Y)

1 - ACC0 1-ACC0 1 + Pm (OR-Y) 1 +Pd(OR~Y)

Условные показатели сопряженности по столбцам

SE А Pm +- Pd Pm + ^D-i) PmOR \ + Pm(OR-\) PmOR

SP Д ^ Pm + + a2MpD(OR-1) 1~Pm + | a2Mp d(OR-Y) \ + Pm(OR-Y) x Pm

1 Pm 1 , 1 - Pd 1 +Pd(OR-Y)

bM\D Д ^MrOR -1) °M(OR -1) 1+ Pm (OR-Y) Pm(PR-V i +pd(Or-V

RR а Рм +- Pd а Pm . 1" Pd OR - Pm (OR - 1) OR 1 + Pm (OR - 1) OR -PMOROR -1) 1+Pd(OR-1)

Условные показатели сопряженности по строчкам

PPV А Pd +- Pm Pd + + <T2dQ-Pm)(OR-Y) PdOR 1 + Pm (OR-Y) PdOR \+Pd(OR-Y)

NPV А 1 P D ^ , 1 - Pm 1~PD +<r2DpM(OR-Y) 1 - Pd 1 + Pm(OR-1) 1~Pd + | aDpM(OR - Y) 1 + Pd (OR -1)

bD\M А 2 °DOR -1) al(OR -1) 1 +Pd(OR~ 1) P d(OR-Y) \ + Pm(OR-Y)

RR А Pd +- Pm OR-PD(OR~V) OR PdOR(OR -1) OR

А Pd i 1" Pm 1 + Pm (OR-Y) 1 + Pd(OR-Y)

Обозначен™ S = \ + 2(OR -1)(1 -ACC0) + (OR — \)2 (pD — рм)2, ACC0 = pDpM + (1 - pD)(\ - рм), =PmMPM) aD = PD^-PD)

Утверждение 3. При фиксированном ОР максимально возможные значения средних показателей эффективности Ьщо и Ьщм равны

тах(БЕ + БР -1) = тах(РРУ + ЫРУ -1) = ~1

Рм^в Ры^о у/ОР + 1

Для достижения максимума необходимо выполнение соотношения

(Рм -рп)2°К = (1-Рм -Ро)2

Доказательство. Общеизвестно тождество

ОР = БЕ х БР(1 - БЕ)(1 - БР)_1.

Из соображений симметрии ясно, что максимум величины Ьмр = БЕ + БР -1 = БЕ х БР(ОР-1)/ОР достигается при ББ = БР. Откуда ор = бе2 /(1 - бе)2, а искомый максимум равен 2БЕ -1 = {4оР -1) 1(4оР + 1) _1.

Аналогично максимум величины

Ът = PPV + NPV- 1 = PPV х NPV( OR -1) I OR

достигается при

ppv = npv = 4or(4co^ + гт1

и равен_ _

(VoR-i)(VOR+i y\

Величина максимума не зависит от pM и pD (рис. 2). При этом max ЬЩГ) достигается при

pm=(\+pD(^r- i))(VOR +1)-1,

а max bMD при

pD ={1+рМ{Ш- i))(4or+ 1)-1.

Утверждение доказано.

Рис. 2. Зависимость условных показателей эффективности от частоты встречаемости маркера (рм) и распространенности заболевания (р0) при ОР = 20: а) показатель ББ - рм; б) показатель БР - (1 - рм ) ; в) показатель РРУ - р0; г) показатель NPУ - (1 - р0 )

Рис. 3. Зависимость средних показателей эффективности от частот встречаемости маркера (рм) и распространенности заболевания (р0) при OR = 20: а) показатель Ьщв = SE +SP - 1; б) показатель Ьщм = РРУ +NPV— 1. На обоих рисунках гребень волны параллелен горизонтальной плоскости и расположен на высоте (^¡ОК -1)(-\/0Л +1

случаи OR >> 1

Предельное поведение показателей эффективности маркера из таблицы 1 при ОР — ж существенно зависит от соотношения между частотами встречаемости маркера и распространенности заболевания. Возможны две альтернативные ситуации, которые представлены в табл. 3.

Из таблицы, в частности, следует, что высокое значение ОР и высокая статистическая значимость эффекта не всегда указывают на прогностическую эффективность маркера. Так при ОР ^ ж ирм >>Рвпоказатель диагностической эффективности Ъвщ = РРУ = Рв / рм < 1, т. е. может быть сколь угодно мал по абсолютной величине. В противоположной ситуации (рм << Рв) при ОР ^ ж за-

Предельное поведение показателей эффективности теста при OR -

Таблица 3

Pм > pD Pм < pD

Вид таблицы сопряженности 'Рв Рм-Рв" V 0 1 - Рм у ' Рм 0 ^ кРо~Рм 1- Рв у

Графическое представление - о у - „•

Причинность М — необходимое условие заболевания М — достаточное условие заболевания

SE 1 Рм/Рв

SP (1- Рм)/(1 - рв) 1

РРУ Рв/Рм 1

NPУ 1 (1- Рв )/(1 - Рм)

LR (1 -Рв)/(Рм -Рп) ж

РР ж (1- Рм)/(Рв - Рм)

Ьм\в (1- Рм)/(1 - Рв) Рм /Рв

Ьв\м Рв /Рм (1- Рв )/(1 - Рм)

АСС 1- (Рм - Рв) 1- (Рв - Рм)

А Рв(1- Рм) Рм(1- Рв)

г ¡Рв (1 -Рм) \Рм(!-Р в) 1 Рм 0--Рв) V Рв (У-Р м)

ведомо малы чувствительность теста и соответствующий показатель классификационной эффективности:

6мр = Ж = Ро «!•

МАРКЕРЫ-КЛАССИФИКАТОРЫ И МАРКЕРЫ-ДИАГНОСТЫ

Для ситуаций, представленных в таблице 3 и 4, имеет смысл ввести специальные термины, отражающие специфику маркера. При высокой частоте встречаемости маркера (pU >> pD) и OR >> 1 имеем высокую чувствительность и высокую классификационную эффективность bUD, но низкую диагностическую значимость теста (PPV » pD /pU). Маркер рационально использовать для массового скрининга и профессионального отбора. По результатам тестирования можно отобрать группу заведомо здоровых людей (свободных от маркера). При этом для носителей маркера вероятность развития заболевания будет достаточно мала. По этой причине данную ситуацию можно обозначить как «маркер — классификатор». Типичным «маркером — классификатором» является маммография: pU = 0,04 >> pD = 0,006 при OR = 200, и bMD = 0,84. Тем не менее, вероятность наличия заболевания при положительных результатах тестирования достаточно низка — PPV = 0,14 и bD]U = 0,139 (Banks et al. 2004).

Напротив, в случае редких маркеров (pU << pD) нет смысла проводить массовый скрининг — результаты будут заведомо «нулевые». Однако высокая диагностическая ценность теста Ьщм при OR >> 1 позволяет его использовать в клинической практике при наличии дополнительных симптомов и показаний, например в случае неблагоприятной родословной. Подобный маркер можно назвать «маркером—диагностом». Пример «маркера—диагноста» демонстрируют данные по ассоциации полиморфизма Leiden V Arg506Gln с тромбозом вен (Folsom et al., 2002): pU = 0,07 << pD = 0,32 при OR = 3,7. Диагностическая ценность теста достаточно вы-

сока — PPV = 0,61 и bDM = 0,31. Однако как классификатор его использовать затруднительно: bU]D = 0,10 из-за низкой чувствительности (SE = 0,14).

формулы для ИССЛЕДОВАНИЙ «СЛУЧАИ-КОНТРОЛИ»

Как известно в исследованиях «случаи—контроли» невозможно напрямую оценить абсолютные (PPV, NPV) и относительные (RR) риски развития заболевания при наличии или отсутствии маркера. Однако с практической точки зрения часто именно эти оценки представляют наибольший интерес. Многие авторы предлагали для RR приблизительную формулу RR « OR(l - pD + pDOR) (Zhang, Yu, 1998; Sistrom, Garvan, 2004). Легко видеть, что это есть точная нижняя оценка для RR. Точнее говоря, справедлива следующая цепочка неравенств

в которой левая и правая границы для RR соответствуют случаям pU = 0 и pU = 1 соответственно (рис. 4).

В принципе для полной реконструкции матрицы Р необходимы три независимых показателя. Исследование по схеме «случаи—контроли» обеспечивает два из них: SE и SP. Третьим может быть распространенность заболевания (pD), либо популяционная встречаемость маркера (рм). В таблице 5 приведены оба типа оценок. Выбор между ними осуществляется в зависимости от того, какой из этих двух показателей мы считаем достоверно известным. В любом случае перед использованием формул из таблицы 4 необходимо проверить неравенство SE > pU > 1 - SP, а также выполнение тождества:

pM =pDSE + (\-pD)(\-SP). (6)

Интересно, что при наличии априорной информации о популяционной частоте встречаемости маркера для оценки относительного риска достаточно знать лишь частоту но -сителей маркера у больных:

RR = (1 - Рм) xSE/(Pu x(1 - SE)).

Качественное описание двух типов маркеров возможных при ОЯ >> 1

Таблица 4

Маркер-классификатор Маркер-диагност

Графическое представление В М - „ • D D

Соотношение частот Рм >> PD Рм << Pd

Высокие Низкие

РРУ Ь 1 1 " > UD\M Низкие Высокие

Причинность М — почти необходимое условие заболевания М — почти достаточное условие заболевания

Использование Массовый скрининг, профессиональный отбор Наличие дополнительных симптомов, родословная

Примеры маркеров Маммография BRCA, Leiden V

Рис. 4. Зависимость отношения ЯЯ/ОЯ от частоты встречаемости маркера (рм) и распространенности заболевания (р0) при ОД = 5. Отношение ЯЯ/ОЯ слабо зависит от рм, и монотонно убывает при увеличении рв. При рм^0 эта зависимость принимает вид КЯЮК = (\- рв + рвОК)

Таблица 5

Формулы для оценки показателей эффективности тестирования в исследованиях «случаи—контроли» через

SE, SP иpM (илиpD)

ЧеРез PM ЧеРез Pd

PPV SE(SP-(}-p„y) PDLR 1 + PD (LR-l)

NPV SP(SE -pM) (1~Рм)Ъм\в (1 - p dd ) SP SP-PDbM\D

bD\M (SE-Pm )(SP - (1- Рм )) (1ВЪ M\D

M bM\D (SP -pDbMlD)(l -SP + pDbMlD)

RR SE „ 1 - Рм 1-SE рм SE , SP-pDbMlD l-SE 1 -SP + pDbM,D

А (SE - Рм )(SP - (1- Рм)) Ъ M\D bM\D

r V(SE - Рм )(SP - (1- Рм)) (J DbM\D

ам J(SP -pDbmD)( 1 -SP + pDb^D)

ACC SE(SP - (1 - Рм)) + SPiSE-Рм)

PAR SE-p м 1" Рм (!- Pb)^M\B SP~PDbM\D

Обозначения: LR = SE/(1 - SP), Ъмр = SE + SP -1, <jd = -yjpD{ 1 ~PD), = ->jpD(\~ Pd)

ЗАКЛЮЧЕНИЕ

Приведенные формулы позволяют оценить значения ОЯ и частоты встречаемости маркера, гарантирующие высокую (или низкую) прогностическую эффективность соответствующего теста. В первую очередь следует выделить следующие три утверждения.

1. При ОЯ< 2,2 маркер обладает заведомо низкой прогностической эффективностью во всех смыслах и при любых частотах встречаемости заболевания и маркера.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Маркер может быть хорошим классификатором, если ОЯ > 5,4, при условии, что его популяционная частота достаточно высока (рм > 0,3). На практике это означает, что указанным неравенствам должны удовлетворять нижние границы 100 (1 — а) %-го доверительного интервала для оцениваемого значения ОЯЬ, т. е. ОЯЬ< 2,2 в первом случае и ОЯЬ > 5,4 — во втором случае. Ранее близкие значения критических уровней наблюдаемых эффектов предлагались для относительных рисков (ЯЯ < 2 и ЯЯ > 5) (Ioannidis, 2006).

3. Даже при очень больших ОЯ маркер является заведомо плохим классификатором (АиС < 0,6), если его популяционная частота низка (рм < 0,2 р[). Аналогично, в силу неравенства РРУ < р[ОК практически всякий маркер очень редкого заболевания обречен быть плохим диагностом.

Действительно, из Утверждения 3 имеем

лис = (ьщв +1)/2< 4оя/(4оя +1).

Тогда, исходя из определения «плохого классификатора» (АиС < 0,6), получим ОЯ < 2,25. В этом случае оба условных показателя средней эффективности (ЬЩ[) и Ь^) и коэффициент корреляции (г) заведомо меньше

(^225 -1) /(7225 +1) = 0,2.

Далее, исходя из требования АиС> 0,7, получим ОЯ > 5,44. При этом согласно Утверждению 3 максимум ЬМ[ (а значит и АиС) достигается при

1 + 1 _

1

Рм =■

4оя +1 4оя +1 Д44+1

Отметим также, что случай АиС > 0,8 возможен лишь при ОЯ > 16 и рм > 0,2.

Третье утверждение вытекает из формул, приведенных в таблице 3. При ОЯ >> 1 ирм< р[ маркер является плохим классификатором, если

AUC =

1 +

Рм

Pd

<0,6, или Рм < 0,2 Pd

Итогом этого обсуждения является достаточно грустный вывод о низкой прогностической и классификационной эффективности результатов большинства опубликованных ассоциативных генетических исследований.

Как правило, эти результаты укладываются в ситуацию из пункта 1, и не могут непосредственно использоваться в клинической практике. Тем не менее устойчиво воспроизводящиеся ассоциации даже при небольших OR могут указывать на участие определенных генов в становлении патологии, давая тем самым принципиально новую информацию о молекулярных механизмах заболевания.

Что же следует вычислять в случае редких удач — когда в исследовании по схеме «случаи-контроли» обнаруживается статистически высоко значимая ассоциация с высоким отношением шансов, например, OR > 6? Нам представляется, что, прежде всего, следует проверить полученные оценки SE и SP на согласованность с априорными данными по pUи pD . Процедура проверки подразумевает два момента.

1) Проверка pM е (1 - SP, SE), т. е. принадлежности среднестатистических оценок популяционной частоты гена-маркера для данного этноса интервалу (1 - SP, SE), полученному в эксперименте.

2) Проверка оценки pD = (рм -(1 -SP))/bM]D, а именно ее соответствия общепринятым представлениям о распространенности данного заболевания. Сильные отклонения от соотношения (6), подобно отклонениям от закона Харди-Вайнберга, могут указывать на ошибки генотипирования и/или идентификации фенотипа — заболевания. Возможны также эффекты, связанные с неоднородностью выборки. При удовлетворительном выполнении тождества (6) можно вычислить косвенные оценки RR, PPV и NPV согласно формулам из таблице 5. В результате будут получены оценки для обоих регрессионных коэффициентов, которые характеризуют прогностические возможности маркера. В целом, думается, что генетический маркер не безнадежен как классификатор, если bM\D > 0,4, и как диагност, если b D|U> 0,4. При этом редкий маркер может выступать только в качестве маркера-диагноста, и то лишь в случае широко распространенных заболеваний.

Все эти оценки будут иметь лишь предварительный характер. Очевидно, что всякую обнаруженную ассоциацию следует неоднократно верифицировать на независимых выборках. Кроме того, крайне желателен статистический анализ родословных, например в виде TDT-исследований (Spielman, 1994).

Работа выполнена при финансовой поддержке Ми-нобрнауки России, ГК № 16.612.11.2061

ЛИТЕРАТУРА

1. Aly U, Wiklun F., Xu J. et al., 2011. Polygenic risk score improves prostate cancer risk prediction: results from the Stockholm-1 cohort study // European Urology. Vol. 60. P. 21-28.

2. Anonymous, 1996. How good is the test // Bandolier Journal. N 27. P. 2. http://www.medicine.ox.ac. uk/bandolier/painres/download/Bando027.pdf http://www.medicine.ox.ac.uk/bandolier/band27/ b27-2.html.

3. BanksE., Reeves G., Beral V. et. al., 2004. Influence of personal characteristics of individual women on sensitivity and specificity of mammography in the Million Women Study: cohort study // BMJ. Vol. 329. N. 7464. P. 477-479.

4. BjartellA., 2011. Genetic markers and the risk of developing prostate cancer // European Urology. Vol. 60. P. 29-31.

5. Bossuyt P., 2010. Clinical validity: Defining biomark-er performance // Scandinavian Journal of Clinical & Laboratory Investigation. 70. P. 46-52

6. Cohen J., 1960. A coefficient of agreement for nominal scales // Educational and Psychological Measurement. Vol. 20. P. 37-46.

7. Fawcett T., 2006. An introduction to ROC analysis // Pattern Recognition Letters. Vol. 27. P. 861-874.

8. Folsom A., Cushman M., Tsai M. et al., 2002. A prospective study of venous thromboembolism in relation to factor V Leiden and related factors // Blood. Vol. 99. N. 9. P. 2720-2725.

9. loannidis J., 2006. Commentary: Grading the credibility of molecular evidence for complex diseases // International Journal of Epidemiology. Vol. 35. P. 572-577.

10. Jakobsdottir J., Gorin M. B, Conley Y. P. et al., 2009. Interpretation of genetic association studies: markers with replicated highly significant odds ratios may be poor classifiers // PLoS Genet. Vol. 5. N 2. e1000337.

11. King G., Zeng L., 2002. Estimating risk and rate levels, ratios, and differences in case-control studies // Statistics in Medicine. Vol. 21. P. 1409-1427.

12. Kraft P., Wacholder S, Cornelis M. C. et al., 2009. Beyond odds ratios — communicating disease risk based on genetic profiles // Nature Reviews Genetics. Vol. 10. P. 264-269.

13. Kraemer H. C., Frank E., Kupfer D. J., 2011. How to assess the clinical impact of treatments on patients, rather than the statistical impact of treatments on measures // International Journal of Methods Psychiatric Research. Vol. 20. P. 63-72.

14. Landis J.R., Koch G. G., 1977. The measurement of observer agreement for categorical data // Biometrics. Vol. 33. P. 159-174.

15. Levin M. L., 1953. The occurrence of lung cancer in man // Acta Union International Contra Cancrum. Vol. 9. P. 531-541.

16. Lewontin R. C., Kojima K., 1960. The evolutionary dynamics of complex polymorphisms // Evolution. Vol. 14. P. 458-472.

17. Linn S., Grunau P. D., 2006. New patient-oriented summary measure of net total gain in certainty for di-chotomous diagnostic tests // Epidemiologic Perspectives & Innovations. Vol. 3: 11. http://www.epi-per-spectives.com/content/3/1/11.

18. Mitchell A., 2009a. How To: Implement a Screening Programme for Distress in Cancer Settings // Psycho-oncology.info. — Guide # 101. http://www.psycho-oncology.info/PG_implement_ajmitchell.pdf.

19. Mitchell A., 2009b. How To: Analyse a Screening or Diagnostic Study // Psycho-oncology.info. — Guide # 104. http://www.psycho-oncology.info/PG_anal-yse_ajmitchell.pdf.

20. Pepe M. S., Gu J. W., Morris D.E., 2010. The potential of genes and other markers to inform about risk // Cancer Epidemiology, Biomarkers & Prevention. Vol. 19. P. 655-665.

21. Poste G., 2011. Bring on the biomarkers // Nature. Vol. 469. P. 156-157.

22. Sistrom C.L., Garvan C. W, 2004. Proportions, odds, and risk // Radiology. Vol. 230. P. 12-19.

23. Slatkin M., 2008. Linkage disequilibrium — understanding the evolutionary past and mapping the medical future // Nature Reviews Genetics. Vol. 9. P. 477-485.

24. Spielman R. S., McGinnisR.E., Ewens W. J., 1994. Letter to the Editor: The transmission/disequilibrium test detects cosegregation and linkage // American Journal of Human Genetics Vol. 54. P. 559-560.

25. Swets J. A., 1988. Measuring the accuracy of diagnostic systems // Science. Vol. 240. P. 1285-1293.

26. Tan P.N., Kumar V., Srivastava J., 2004. Selecting the right objective measure for association analysis // Information Systems. Vol. 29. P. 293-313.

27. Winham S. J., Slater A. J., Motsinger-Reif A. A., 2010. A comparison of internal validation techniques for multifactor dimensionality reduction // BMC Bio-informatics. Vol. 11:394. http://www.biomedcentral. com/1471-2105/11/394

28. Youden W. J., 1950. Index for rating diagnostic tests // Cancer. Vol. 3. P. 32-35.

29. Yule G. U., 1912. On the methods of measuring association between two attributes // Journal of the Royal Statistical Society. Vol. 75. P. 579-652.

30. Zhang J., Yu K. F., 1998. What's the relative risk? A method of correcting the odds ratio in cohort studies of common outcomes // JAMA. Vol. 280. P. 1690-1691.

THEORETICAL ANALYSIS OF THE PREDICTABILITY

INDICES OF THE BINARY GENETIC TESTS

Rubanovich A. V., Khromov-Borisov N. N.

SUMMARY: A set of formulas for the indices of performance and

predictive ability of the binary genetic tests is presented. Their dependence on disease prevalence and population frequency of a ge-

netic marker is characterized. It is shown that a marker with the odds ratio OR < 2.2 has an initially low prognostic efficiency in every sense and at any frequencies of the disease and the marker. A marker can be a good classifier, when OR > 5.4, but only when its population frequency is rather high (>0.3). The formulas are presented that allow to obtain indirect estimates of absolute and relative risk of the disease for the carrier of a marker in the case-control studies.

# KEY WORDS: genetic association studies; odds ratio; area under curve (AUC); predictive genetic testing.

Ф Информация об авторах

Рубанович Александр Владимирович — зав. лаб. экологической генетики. ФГБУН «Институт общей генетики им. Н.И. Вавилова РАН». 119991, Москва, Губкина ул., д. 3. E-mail: rubanovich@vigg.ru.

Rubanovich Aleksandr Vladimirovich — Head of Lab of ecological genetic in Vavilov Institute of General Genetics RAS. 119991, Moscow, Gubkin St., 3. Russia. E-mail: rubanovich@vigg.ru.

Хромов-Борисов Никита Николаевич — доцент. Кафедра физики, математики и информатики. Санкт-Петербургский государственный медицинский университет им. акад. И. П. Павлова. 197022, Санкт-Петербург, ул. Льва Толстого, д. 6/8. E-mail: Nikita.KhromovBorisov@gmail.com.

Khromov-Borisov Nikita Nikolayevich — associate professor. Department of Physics, Mathematics and Informatics in Saint-Petersburg State I. P Pavlov Medical University. 197022, St.-Petersburg, Lev Tolstoy St., 6/8. Russia. E-mail: Nikita.KhromovBorisov@gmail.com.

i Надоели баннеры? Вы всегда можете отключить рекламу.