innova-journal.ru
МЕТОД ДОВЕРИТЕЛЬНЫХ ИНТЕРАВАЛОВ В БИОЛОГИЧЕСКИХ И МЕДИЦИНСКИХ ИССЛЕДОВАНИЯХ
THE METHOD OF CONFIDENCE INTERAVAL IN BIOLOGICAL AND MEDICAL RESEARCH
I Дмитрий Муталифович Ярмамедов1 I Dmitrii Mutalifovich Iarmamedov1
Вячеслав Александрович Липатов1 - доктор медицинских наук щ Viacheslav Aleksandrovich Lipatov1 - Doctor of Medical Sciences
Резюме
В статье рассмотрены наиболее популярные способы статистической обработки данный в исследованиях в биологической и медицинских сферах. Проанализированы достоинства и недостатки различных подходов к анализу статистических данных. Подробным образом рассмотрен метод доверительных интервалов, в том числе способ его подсчета, автоматизации, визуализации и анализа полученных данных.
Ключевые слова: статистика, статистическая обработка, биомедицинские исследования, метод доверительных интервалов, обработка данных.
Summary
The article describes the most popular methods of statistical processing of the research in the biological and medical fields. The advantages and disadvantages of different approaches to the analysis of statistical data. Exhaustively discussed confidence intervals method, including the method of its calculation, automation, visualization and data analysis.
Key words: statistics, statistical processing, biomedical research, confidence intervals method, data processing.
На сегодняшний день существование доказательной медицины невозможно без проведения статистической обработки данных, полученных в ходе эксперимента, наблюдения, моделирования. Из определения, статистика - это область знаний, в которой изложены основные моменты сбора, измерения и анализа массовых статистических данных [6]. Термин «статистика» произошел от латинского status -состояние дел [7]. Впервые в 1746 году немецкий ученый Готфрид Ахенвалль предложил ввести курс лекций по статистике в университетах Германии [12]. Изначально все вычисления при обработке результатов исследований ученым приходилось подсчитывать вручную, используя лишь простейшие технические средства. С течением времени возникла возможность полностью автоматизировать процесс статистической обработки данных.
Ученый, который работает в биологической или медицинской сфере сталкивается с рядом сложностей при проведении статистической обработки данных, полученных в результате исследований. Например, часто, выборка наблюдений мала (менее 100 случаев наблюдения), распределение полученных данных не всегда подчиняется распределению Гаусса (рисунок 1). Нормальное распределение (Гаусса) это распределение вероятностей, которое задается функцией плотности вероятности, совпадающей с функцией Гаусса:
где ц - математическое ожидание (среднее значение), о -среднеквадратичное отклонение (оА2- дисперсия)
Из известных и широко распространенных способов статистической обработки данных в биомедицинских
исследований широко известен критерий, разработанный Уильямом Госсетом для анализа качества различных сортов пива. Данный способ был признан пивоварней коммерческой тайной и Госсет в 1908 году публикует статью в журнале «Биометрика» под псевдонимом Стьюдент [11]. Спустя более чем столетие с момента выхода оригинальной работы критерий Стьюдента широко распространился среди научных работников всего мира и поддерживается большинством современных программных продуктов. Однако, для применения к данным критерия Стьюдента необходимо, чтобы исходные данные имели нормальное распределение, проверенное с помощью критерия Колмогорова-Смирнова, а также достаточный объем выборки (не менее 30 случаев, желательно более 100 случаев наблюдения). Также существует возможность сравнения в рамках одного исследования только двух серий эксперимента. Использование критерия Стьюдента при попарном сравнении более чем 2-х выборок данных является статистической ошибкой [9].
Широко распространен в биомедицинской сфере непараметрический критерий Уилкоксона-Манна-Уитни, он используется для оценки различий между выборками по уровню признака, измеряемого количественно. Метод был предложен в 1945 году Фрэнком Уилкоксоном [13]. Затем, в 1947 году критерий был существенно переработан и расширен Х.Б. Манном и Д.Р. Уитни [10]. При использовании критерия Уилкоксона-Манна-Уитни в анализируемых выборках не должно быть совпадающих значений. Также, использование данного способа статистической обработки данных не позволяет выявить величину найденных отличий,
УДК: 616.831 - 053.2
URL: http://innova-journal.ru/issues/2016-3-4/files/03.pdf DOI: https://doi.org/10.21626/innova/2016.3/03 Для корреспонденции: Д.М. Ярмамедов, [email protected] 1 ФГБОУ ВО «Курский государственный медицинский университет» Минздрава России
innova-journal.ru
демонстрируя лишь наличие или отсутствие статистически значимых различий.
Ввиду сложности ручного подсчета данных критериев в современном мире для статистической обработки данных повсеместно используются программные продукты. С их помощью можно подсчитать критерий Стьюдента и Уилкоксона-Манна-Уитни. Однако, данные программные продукты достаточно сложны для освоения. В силу их высокой стоимости применение специализированного обеспечения затруднено рядом научных коллективов.
Современным методом статической обработки данных, полученных в ходе биомедицинских исследований является метод доверительных интервалов [8]. Он позволяет не только выявить наличие статистически значимых отличий двух сравниваемых групп данных, но и точно сказать на сколько сильно отличается одна группа от другой, что важно в биомедицинских исследованиях [4]. Метод разработан американским статистиком Ежи Нйман, основываясь на постулаты английского статистика Рональда Фишера [2]. Метод доверительных интервалов применим даже при малом объеме выборки [1]. Возможно попарное сравнение неограниченного числа выборок в рамках исследования. Исследователь может сам указать уровень значимости искомых отличий между выборками (классически в исследованиях в биомедицинской сфере этот уровень составляет 95% или 0,05). Формула подсчета доверительного интервала довольно объемна:
Для обработки данных методом доверительного интервала исследователю необходимо знать среднее значение выборки, стандартное отклонение и размер выборки. Исходя из этих данных и выбранного уровня значимости ученый может подсчитать доверительный интервал для интересующий выборки [3].
Анализ данных методом доверительных интервалов автоматизирован во многих программных продуктах для обработки данных, в том числе и в программном продукте Microsoft office Excel, который широко распространён. Для использования метода доверительных интервалов пользователю достаточно внести первичные данные, полученных в ходе эксперимента в электронную таблицу, затем подсчитать среднее значение выборки, введя в пустую ячейку
=СРЗНАЧ({начало массива данных}:{конец массива данных})*
*здесь и далее выражение в фигурных скобках {} следует заменить на имена ячеек.
Затем подсчитать стандартное отклонение, для этого в пустой ячейке следует задать следующую формулу:
=СТАНДОТКЛОН({начало массива данных}:{конец массива данных})
Далее в новой ячейке необходимо задать формулу для подсчёта доверительного интервала анализируемой выборки следующим образом:
=ДОВЕРИТ(альфа; станд_откл; размер)**
** - уровень альфа в биомедицинских исследованиях классически равен 0,05.
Далее необходимо от среднего значения выборки вычесть доверительный интервал, получив по системе координат нижнее значение доверительного интервала и добавив к
Рис 1. А - доверительный интревал для серии К. Б -доверительные интервалы для серии А и К. В - доверительные интервалы для серии Б и К._
о «1 5.Ю 6 19
0 S Ii 94 5fll Б 5.Ä5 с 15
Б
о 4.2Я Д,5 *73 ЗЯЗ 619
в
среднему значению доверительный интервал - верхнее значение доверительного интервала, которое можно отметить на системе координат (рисунок 1а). Повторив аналогичный алгоритм действий для другой выборки исследователь получит доверительный интервал для данной выборки.
Рассмотрим пример, в котором методом доверительных интервалов оценивали влияние препарата А и Б на количество эритроцитов у крысы через 2 неделе после введения в сравнении с контролем К, при котором не проводилось введение лекарственных веществ. Объем выборки - 100 крыс в каждой серии. Уровень значимости принят за 0,05. Для контрольной группы К получены следующие данные: среднее значение - 5,85*1012/л., стандартное отклонение - 1,75. Подсчитав доверительный интервал были получены следующие данные:
=ДОВЕРИТ(0,05;1,75;100)=0,34 5,85-0,34<5,85<5,85+0,34 =5,51 <5,85<6,19
Для препарата А были получены следующие данные -среднее значение - 5,4*1012/л., стандартное отклонение - 1,4. Посчитаем доверительный интервал:
=ДОВЕРИТ(0,05;1,4;100)=0,27
5.4-0,27<5,4<5,4+0,27 =5,13<5,4<5,67
Отобразим полученные данные на системе координат (рисунок 1б). Доверительный интервал контрольной группы К пересекается с доверительным интервалом выборки А. Заключение: Между действием препарата А и контролем с вероятностью 95% статистически значимые отличия отсутствуют.
Через 2 недели после введения препарата Б, были получены следующие данные: среднее значение - 4,5*1012/л., стандартное отклонение - 1,1. Подсчитаем доверительный интервал:
=ДОВЕРИТ(0,05;1,1;100)=0,22
4.5-0,22<4,5<4,5+0,22 =4,28<4,5<4,72
Проиллюстрируем полученные данные на системе координат (рисунок 1в). Таким образом, доверительный интервал уровня эритроцитов крыс после введения препарата Б достоверно ниже уровня эритроцитов в крови у крыс с вероятностью 95%.
С целью урощения анализа данных, полученных методом
доверительных интрвалов можно использовать логические возможности Microsoft office Excel. Для этого необходимо для каждой выборки подсчитать нижнюю и верхнюю границу доверительного интревала. Затем в пустых ячейках последовательно задать следующее логические выражения:
= ЕСЛИ(ниж.гран.1>=ниж.гран.2;ИСТИНА;ЛОЖЬ) = ЕСЛИ(ниж.гран.1>=верх.гран.2;ИСТИНА;ЛОЖЬ) = ЕСЛИ( верх. гран.1>=ниж. гран.2; ИСТИНА;ЛОЖЬ) = ЕСЛИ( верх. гран.1>=верх. гран.2; ИСТИНА;ЛОЖЬ)
В случае, если во всех четырех ячейках высветится значение «ИСТИНА», значит в выборке 1 достоверно более высокие значения, чем в выборке 2. Если во всех четырех ячейках будет отображено значение «ЛОЖЬ», значит в выборке 1 достоверно более низкие значения, чем в выборке 2. Если в ячейках будут отображены различные логические выражения, то это свидетельствует о отличии статистически значимых отличий между выборкой 1 и выборкой 2.
Формы записи доверительных интервалов:
innova-journal.ru
С 95% вероятностью действие препарата Б снижает уровень эритроцитов у крысы по сравнению с контролем;
P(4,28<M<4,72)=0,95;
4.5 [4.28 - 4.72], mean [95%CI] (для англоязычной литературы);
При представлении результатов в виде таблицы, допустимо добавление стоки t в каждой серии, в которую записывается значение доверительного интервала [5].
Заключение
Метод доверительных интервалов является современным способом обработки результатов исследований в биологической и медицинской сферах, который широко используется при оценке достоверности в зарубежной литературе.
Вывод
По сравнению с методами вариационной статистики использование метода доверительных интервалов в доказательной медицине не требует специализированного дорогостоящего программного обеспечения и позволяет выявить величину отличий между сериями.
Литература
1. Абубекеров М.К., Гостев Н.Ю. Вероятностная связь между оценками ошибок, полученных разными способами для значений физических величин // Вычислительные методы и программирование. - 2014. - Т. 15. - С. 677-684.
2. Гмурман В.Е. Теория вероятностей и математическая статистика: Учебное пособие для вузов. - 9-е изд. - М.: Высшая школа. -2003. - 479 с.
3. Зельдин М.А., Баринов Н.П., Аббасов М.Э. Доверительный интервал для среднего по выборке из конечной генеральной совокупности // АВЕРС. - С. 1-11.
4. Иванов О.В. Статистика / Учебный курс для социологов и менеджеров. Часть 2. Доверительные интервалы. Проверка гипотез. Методы и их применение. - М. 2005. - 220 с.
5. Инархов М.А., Липатов В.А., Затолокина М.А., Ярмамедов Д.М., Лазаренко С.В. К вопросу изучения физико-механических свойств и особенностей новых деградируемых полимерных пленочных имплантов для операций на органах брюшной полости // Курский научно-практический вестник "Человек и его здоровье". - 2016. - №3. - С. 67-73.
6. Малая советская энциклопедия. - М.: Советская энциклопедия, 1960. - Т.8. - С. 1090.
7. Райзберг Б.А., Лозовский Л.Ш., Стародубцева Е.Б. Современный экономический словарь. 5-е изд., перераб. и доп. - М.: ИНФРА-М, 2007. - 495 с.
8. Bebu I., Luta G., Mathew Th., Agan B. Generalized Confidence Intervals and Fiducial Intervals for Some Epidemiological Measures // Int. J. Environ. Res. Public Health. - 2016. - № 13(6).
9. Glantz S.A. Primer of Biostatistics. 7 ed. McGraw-Hill Education. - 2011.
10. Mann H. B., Whitney D. R. On a test of whether one of two random variables is stochastically larger than the other. // Annals of Mathematical Statistics. - 1947. - № 18. - P. 50-60.
11. Student. The probable error of a mean. // Biometrika. 1908. № 6 (1). P. 1-25
12. Warne R., Lazo M., Ramos T., Ritter N. Statistical Methods Used in Gifted Education Journals, 2006-2010. Gifted Child Quarterly. - 2012. -56(3). - P. 134-149. doi: 10.1177/0016986212444122
13. Wilcoxon F. Individual Comparisons by Ranking Methods. // Biometrics Bulletin 1. - 1945. - P. 80-83.
References
1. Abubekerov M.K., Gostev N.Ju. Verojatnostnaja svjaz' mezhdu ocenkami oshibok, poluchennyh raznymi sposobami dlja znachenij fizicheskih velichin // Vychislitel'nye metody i programmirovanie. - 2014. - T. 15. - S. 677-684.
2. Gmurman V.E. Teorija verojatnostej i matematicheskaja statistika: Uchebnoe posobie dlja vuzov. - 9-e izd. - M.: Vysshaja shkola. - 2003. -479 s.
3. Zel'din M.A., Barinov N.P., Abbasov M.Je. Doveritel'nyj interval dlja srednego po vyborke iz konechnoj general'noj sovokupnosti // AVERS. -S. 1-11.
4. Ivanov O.V. Statistika / Uchebnyj kurs dlja sociologov i menedzherov. Chast' 2. Doveritel'nye intervaly. Proverka gipotez. Metody i ih primenenie. - M. 2005. - 220 s.
5. Inarhov M.A., Lipatov V.A., Zatolokina M.A., Jarmamedov D.M., Lazarenko S.V. K voprosu izuchenija fiziko-mehanicheskih svojstv i osobennostej novyh degradiruemyh polimernyh plenochnyh implantov dlja operacij na organah brjushnoj polosti // Kurskij nauchno-prakticheskij vestnik "Chelovek i ego zdorov'e". - 2016. - №3. - S. 67-73.
6. Malaja sovetskaja jenciklopedija. - M.: Sovetskaja jenciklopedija, 1960. - T.8. - S. 1090.
7. Rajzberg B.A., Lozovskij L.Sh., Starodubceva E.B. Sovremennyj jekonomicheskij slovar'. 5-e izd., pererab. i dop. - M.: INFRA-M, 2007. - 495 s.
8. Bebu I., Luta G., Mathew Th., Agan B. Generalized Confidence Intervals and Fiducial Intervals for Some Epidemiological Measures // Int. J. Environ. Res. Public Health. - 2016. - № 13(6).
9. Glantz S.A. Primer of Biostatistics. 7 ed. McGraw-Hill Education. - 2011.
10. Mann H. B., Whitney D. R. On a test of whether one of two random variables is stochastically larger than the other. // Annals of Mathematical Statistics. - 1947. - № 18. - P. 50-60.
11. Student. The probable error of a mean. // Biometrika. 1908. № 6 (1). P. 1-25
12. Warne R., Lazo M., Ramos T., Ritter N. Statistical Methods Used in Gifted Education Journals, 2006-2010. Gifted Child Quarterly. - 2012. -56(3). - P. 134-149. doi: 10.1177/0016986212444122
13. Wilcoxon F. Individual Comparisons by Ranking Methods. // Biometrics Bulletin 1. - 1945. - P. 80-83.