Научная статья на тему 'Предсказательная способность p-значения'

Предсказательная способность p-значения Текст научной статьи по специальности «Математика»

CC BY
191
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КРИЗИС ВОСПРОИЗВОДИМОСТИ / БИОСТАТИСТИКА / P-ЗНАЧЕНИЯ / ПРЕДСКАЗАТЕЛЬНЫЕ ИНТЕРВАЛЫ

Аннотация научной статьи по математике, автор научной работы — Хромов-борисов Н. Н.

Одной из причин кризиса воспроизводимыми результатов биомедицинских исследований является использование излишне снисходительного уровня статистической значимости нулевой гипотезы: α = 0,05 и пренебрежение интервальными оценками р-значений. Показано, что p > 0,005 обладают низкой предсказательностью и их следует избегать.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Предсказательная способность p-значения»

vs. pcHCE plots and their extrapolations built based on data related to different years in the same country run markedly lower in the case of RF compared with other countries, including Tajikistan and the Republic of Congo. At the same time, the proportion between pcGDP and pcHCE has been shown to be the same throughout all years and all countries. Taken together, these observations suggest that the effectiveness of investing the available resources into LE, that is in human life quality, is markedly lower in Russia compared not only with Finland and Japan, where pcGDP and pcHCE are several times greater than in RF, but also with Congo and Tajikistan, where these parameters are several fold smaller, than in RF. This means that by merely increasing pcGDP and pcHCE it is impossible to increase LE in Russia above 80 years declared a national priority. Identifying the factors responsible for the above disproportions is beyond the scope of the present paper. However, the mere awareness of their existence is essential as an incentive to take special efforts aimed at the identification and neutralization of these factors.

Keywords: life expectancy, gross domestic product, health care expenditures, Preston curve.

УДК: 519.255; 57.083

Н.Н. Хромов-Борисов

ПРЕДСКАЗАТЕЛЬНАЯ СПОСОБНОСТЬ ^-ЗНАЧЕНИЯ

Национальный медицинский исследовательский центр им. В.А. Алмазова, Санкт-Петербург. [email protected]

Резюме.

Одной из причин кризиса воспроизводимыми результатов биомедицинских исследований является использование излишне снисходительного уровня статистической значимости нулевой гипотезы: а = 0,05 и пренебрежение интервальными оценками р-значений. Показано, что p > 0,005 обладают низкой предсказательностью и их следует избегать.

Ключевые слова: кризис воспроизводимости, биостатистика, p-значения, предсказательные интервалы

Summary.

Khromov-Borisov N.N. Predictive ability of p-values.

One of the reasons for the crisis of reproducible results in biomedical research is the use of an unnecessarily condescending level of statistical significance of the null

438

hypothesis: а = 0.05 and the neglect of the interval estimates of p-values. It has been shown that p> 0.005 have low predictability and should be avoided. Keywords: reproducibility crisis, biostatistics, p-values, predictive intervals

«p-значение является возможно наиболее распространенным (вездесущим), но одновременно и неверно понимаемым, неверно интерпретируемым, а иногда и неверно вычисляемым показателем во всех биомедицинских исследованиях». S.N. Goodman [1]

«Предсказания на основеp-значений очень туманны» G. Cumming [2] Кризис воспроизводимости

Изучение воспроизводимости результатов исследований и их предсказательной способности составляют суть науки, без них исследование вряд ли можно признать научным.

Мировое научное сообщество взбудоражено и озабочено многочисленными научными публикациями, неоспоримо свидетельствующими о плохой воспроизводимости результатов биомедицинских исследований. На страницах научных журналов и в блогах разыгрываются нешуточные баталии. Кризис воспроизводимости обсуждается как системная проблема современной биомедицины. Одной из основных причин этого кризиса является кризис биостатистики.

Традиционно статистической идеологией и методологией остается проверка статистической значимости нулевой гипотезы Н0 и так называемое p-значение как финальный результат этой процедуры.

Для проверки гипотезы Н0 выбирают такую случайную переменную (статистику критерия), распределение которой известно, когда Н0 истинна (например, t, F, X2, U, r, z, и др.). Это позволяет вычислять долю тех из всех возможных значений статистики критерия, которые равны наблюдаемому и еще менее вероятны (или еще более отклоняющие от ожидаемого значения согласно Я0). Такую долю и называют p-значением.

Повторение и предсказания - родители познания

Одной из причин кризиса воспроизводимости является повальное пренебрежение интервальными оценками p-значений. Подавляющее большинство исследователей-пользователей не знают (или забывают), что p-значение есть реализация соответствующей случайной переменной P. Легко понять, что если многократно повторять данное исследование, то получаемые

(наблюдаемые) р^ будут варьироваться. Это означает, что это их варьирование

должно подчиняться некоторому вероятностному закону, т.е. иметь

определенное распределение вероятностей. Одним из основных приемов анализа

(«обработки») получаемых данных является статистическое оценивание

параметров распределения, из которого извлечены эти данные. Процедура

статистического оценивания параметров заключается в вычислении двух типов

оценок - точечной (выражаемой одним числом) и интервальной (которая

отображается двумя числами - границами интервала). Существуют два

основных типа интервальных оценок: предсказательные интервалы (ПИ) и

доверительные интервалы (ДИ). В биомедицинских исследованиях ПИ играют

важную роль и известны под названием референсных интервалов (РИ).

В случае с р-значениями (1 - а)100%-й ПИ с предсказательной вероятностью (1 - а)100% есть интервал, в который с вероятностью (1 - а)100% попадет новое р-значение, полученное после однократного повторения исследования.

В таблице представлены значения для верхних границ ПИ при наблюдаемых р-значениях (р^) от 0,05 до 10-7 и для предсказательных вероятностей 80%, 90% и 95%. Для вычислений использованы работы и программы [3-7].

Таблица. Верхние границы для предсказательных интервалов для р-значений

Наблюдаемое Верхние границы ПИ

p-значение для оцениваемого pest

Pobs 80%-й 90%-й 95%-й

ПИ ПИ ПИ

0,05 0,44 0,64 0,79

0,01 0,22 0,40 0,58

0,005 0,16 0,32 0,49

0,001 0,070 0,17 0,30

0,0001 0,019 0,059 0,13

10-5 0,0046 0,018 0,050

10-6 0,0010 0,0052 0,017

10-7 2,210"4 0,0013 0,0053

Обозначения: ПИ - предсказательный интервал. Жирным шрифтом выделены значения, которые общепринято считать приемлемо малыми (< 0,05) - для р-значений.

Можно видеть, что если в данном исследовании получено роЬз = 0,001, то верхняя граница 80%-го ПИ может достигнуть уровня 0,070, довольно близкого к традиционно приемлемому уровню 0,05. Это означает, что после однократного

повторения исследования вновь наблюдаемое p-значение (pnew) не превысит значение 0,070 с вероятностью 80%. Однако в случае 95%-го ПИ его верхняя граница не превысит значение 0,05 при значительно (на два порядка) меньшем значении pobs = 10-5.

Как известно, значения p ничего не говорят ни о вероятности проверяемой нулевой гипотезы, ни о размере эффекта, ни о вероятности воспроизведения полученного результата. Поэтому в руководствах и методических статьях по статистике давно рекомендуется наряду с значениями p или вместо них указывать ДИ для размера эффекта, например, для разности сравниваемых параметров. Современный статистический анализ не должен ограничиваться сообщением одного-единственного показателя согласия с нулевой гипотезой, в качестве которого наиболее часто выступает значение p, даже если оно скорректировано на множественность сравнений. Как уже было сказано, следует указывать не только и не столько ДИ, но и ПИ для оцениваемого эффекта.

Пользователи-исследователи должны знать, что традиционно и повсеместно используемые пороговые уровни значимости а = 0,05 и 0,01 обладают неприемлемой предсказательной способностью. Этим объясняется, почему ведущие биостатистики рекомендуют ориентироваться на значение а = 0,005 и ниже.

Любознательным и ответственным исследователям можно рекомендовать ознакомиться с публикациями по обсуждаемой проблеме и использовать программы, указанные ниже.

Литература и программы

1. Goodman S.N. A Dirty Dozen: Twelve P-Value Misconceptions. In Seminars in Hematology, 2008;45:135-140.

ttp://www.sciencedirect.com/science/article/pii/S0037196308000620.

2. Cumming G. Replication and P intervals: P values predict the future only vaguely, but confidence intervals do much better. Perspect. Psychol. Sci., 2008;3: 286-300.

3. Lazzeroni L.C., Lu Y., Belitskaya-Levy I. Statistical Intervals for P-value Evidence and Power (version 2.0). https://media.nature.com/original/nature-assets/nmeth/journal/v 13/n2/extref/nmeth.3741-S2.xls

4. Lecoutre B., Poitevineau J. LePrep - "Probabilities of replication" (version 2.1.0). http: //lmrs .univ-rouen.fr/Persopage/Lecoutre/PAC.htm

5. Vsevolozhskaya O.A., Ruiz G., Zaykin D.V. bayesian-PValue-Prediction-Intervals. https://github.com/dmitri-zaykin/bayesian-PValue-Prediction-Intervals

6. Lazzeroni L.C., Lu Y., Belitskaya-Levy I. Novel Statistical Intervals for P-value

441

Evidence and Power. Nature Methods, 2016;13(2):107-108. https://doi.org/10.1038/nmeth.3741

7. Vsevolozhskaya O., Ruiz G, Zaykin D. Bayesian prediction intervals for assessing P-value variability in prospective replication studies. Translational Psychiatry. 2017; 7:1271. DOI 10.1038/s41398-017-0024-3

8. Benjamin D.J., Berger J., Johannesson M., Nosek B.A., Wagenmakers E.J., Berk R., Bollen K., et al. Redefine statistical significance. Nature Human Behaviour, 2018;2:6-10. DOI: 10.1038/s41562-017-0189-z

УДК 355.01 : 623.45

Ю.А. Бобылов

Канд. экон. наук, эксперт Российского совета по международным делам, Москва, автор публикаций по противодействию биотерроризму и угрозам

биологической войны

НОВЫЕ ВОЕННО-БИОЛОГИЧЕСКИЕ УГРОЗЫ ЦИВИЛИЗАЦИИ: ВПЕРЕДИ КРУПНОМАСШТАБНЫЕ ГЕНОЦИДНЫЕ ВОЙНЫ

Москва, [email protected]

Аннотация. Налицо резкое сокращение биологического разнообразия и исчерпание природных ресурсов мировой экономики. Показательна ситуация с чистой питьевой водой. В военном плане требуется научное обоснование сущности «геноцидных войн» и роли в них «биологического оружия». Именно это оружие более экологично и приемлемо, чем ядерное оружие. Ныне важно улучшить финансирование биологической и медицинской науки России как условия обеспечения своей обороноспособности.

Ключевые слова: перенаселенность планеты; сокращение ресурсов развития; биологическая наука; оружие; биоэтика; новые технологии войны.

Annotation.

Yu.A. Bobylov New military-biological threats to civilization: ahead of large-scale genocidal war.

There is a sharp decline in biodiversity and the depletion of the natural resources of the world economy. The situation with clean drinking water is indicative. In military terms, a scientific justification of the essence of "genocidal wars" and the role of "biological weapons"in them is required. It is these weapons that are more environmentally

i Надоели баннеры? Вы всегда можете отключить рекламу.