№ 2(32) 2011
К. С.Жижин,докт. мед. наук,доцент Ростовского базового медицинского колледжа
(ГОУСПО РО РБМК), г. Ростов-на-Дону
О случаях непреднамеренных искажений при использовании 1Т в анализе эмпирических данных
Приведенные в статье данные обращают внимание исследователей, главным образом, медицинского профиля, использующих в своей работе статистическое программное обеспечение, на опасность получения ложных выводов при прогнозировании в случае недостаточного внимания к эффектам мнимой регрессии, коинтеграции, инверсии в ходе анализа эмпирической информации.
Информационные технологии (1Т-технологии) значительно облегчают труд медиков. Однако в части случаев их слабая ориентация в тонкостях многообразия 1Т (например, статистических методик) приводит специалистов к неверным и обескураживающим выводам, серьезным диагностическим и прогностическим ошибкам.
Анализ динамических рядов — основа прогноза в деятельности любого лечебно-профилактического учреждения (ЛПУ). Однако необходимо учитывать, что большей частью данные, которые закладываются в анализ ситуации, лагированы, т. е. настоящий уровень заболеваемости, инвалидиза-ции населения, объемов продаж лекарств обязательно сравнивается с прежним.
Менеджер ЛПУ должен настроить специалистов аналитического центра своего учреждения на ответ по существу: стационарен или нестационарен анализируемый ряд показателей, фигурирующий в отчетных данных.
От этого ответа будут напрямую зависеть ритмичность и предсказуемость работы персонала ЛПУ, качество оказываемой медицинской помощи. Если взять во внимание наличие сегодня в системе отечественного здравоохранения частных клиник, аптек, то существенной становится и экономиче-
ская компонента, ставящая при неправильном прогнозе под сомнение эффективность функционирования учреждения.
Стационарность динамического ряда определяется тем, насколько быстро или медленно он убывает или возрастает во времени, в какой степени его среднее, дисперсия, ковариация зависимы от времени. Индикатором в данном случае служит график автокорреляционной функции или коррело-грамма типа:
л
X (У, - У)(У,-к - У) гк = р* = ^- при к = 1,2,3... (1)
Х(У, - У )2
Характерно, что коррелограмма стационарного ряда убывает очень быстро с ростом к, график же нестационарного ряда изменяется во времени незначительно.
Смоделируем случайное блуждание двух частиц (х) и (у) с использованием достаточно распространенного и многофункционального статистического программного продукта вГаГ/зГ/са (табл. 1).
Значения {eps^) и (ерз2) — реализации свободных членов (е,) из регрессионных уравнений типа:
у,= а+Рх,+ е,; (2)
х, = а + Ру,+ е,. (3)
№ 2 (32) 2011 ' —
Таблица 1 Псевдорегрессионная зависимость случайных величин
В том случае, если исследователь не задается целью проверить эти две совокупности на предмет взаимозависимости, а значит пренебрегает и условием стационарности, то он рискует получить неверный вывод. Тестирование с помощью Г-статистики такой искусственно созданной статистической совокупности в имитационной модели в программе Апу1_одю при попытке вывода регрессионного уравнения дает следующий результат:
у, = -0,611+ 0,643х, + е,. (4)
Минимальные значения регрессии в данном уравнении составляют 0,042 и 0,014. И если принять в качестве уровня значимости р = 0,05, то оба коэффициента оказываются значимыми, так как и 0,043, и 0,014 < 0,05, т.е. подтверждается тесная зависимость этих двух, совершенно не связанных между собой, совокупностей.
Критически настроенный читатель может заявить, что данные рассуждения построены на искусственно созданной модели, и поскольку информационные технологии обладают неисчерпаемыми возможностями по части моделирования, то искусно подогнанными цифрами можно объяснить даже необъяснимое.
Но существуют достаточно убедительные факты некорректного использования 1Т из реальной жизни, которые приводят к ложному выводу. На кафедре гигиены Ростовского государственного медицинского университета токсикологами изучались компоненты промышленно производимых в стране образцов пластмасс на предмет их канцерогенное™, т.е. способности провоцировать у рабочих рак кожи, легких, желудка, молочной железы и т.д.
Наряду с гигиеническими исследованиями для обследования, главным образом, женщин, работающих в цехах таких предприятий, использовался метод «вылавливания» начальных стадий рака молочной железы — маммография. Из статистики заболеваемости известно, что данная злокачественная патология встречается в мире весьма умеренно: один случай на 100 осмотренных женщин. При массовых же обследованиях каждый случай обнаружения уплотнений в молочной железе врачами-онкологами, с кем приходилось работать вместе, рассматривался не иначе как подозрение на рак. И таких случаев набиралось до 75 на 100 обследованных, т. е. 75%. Суть этого существенного расхождения: 1 и 75% скрыта в инверсии — подмене понятий.
ерз1 е/ю2
0,141 0,143 -0,817 -0,817
-0,708 -0,570 -0,430 -1,240
0,121 -0,443 0,180 -1,062
0,443 -0,001 0,212 -0,84
0,823 0,823 -1,47 -2,32
-1,867 -1,044 -1,007 -3,347
0,882 -0,17 1,803 -1,543
0,815 0,653 1,83 0,294
1,200 1,850 -0,670 -0,380
-0,353 1,345 -0,039 -0,441
-1,135 0,929 0,795 0,364
-0,027 0,333 0,7 1,164
1,125 1,45 -0,502 0,652
-1,12 0,34 0,367 1,02
-0,09 0,27 -0,265 0,755
-1,372 -1,083 -0,462 0,274
1,443 0,34 -0,47 -0,195
1,034 1,373 0,403 0,215
0,768 2,148 1,416 1,633
0,733 2,873 -0,537 1,087
№ 2(32) 2011
Вероятность прогноза при опухоли неясной этиологии и такого же прогноза при явно злокачественной опухоли — разные вероятности.
Касательно последней вероятности сведения о длительности жизни, смертности при раке молочной железы в открытой печати есть.
В отношении же первой вероятности наука еще не может безапелляционно утверждать, что любое уплотнение в груди у женщины, найденное при маммографии, неизбежно приводит к перерождению клеток организма в раковые. В этом направлении предстоит долгая исследовательская работа.
Байес на большом статистическом материале обоснованно показал, что абсолютная разница между начальной вероятностью случая и его конечной вероятностью никогда не бывает очень выраженной.
Теорема Байеса и ее математическое выражение:
=-й^-_
1 (в2-е3)+(в4 -е6) ' '
хорошо знакомые многим специалистам, связанным с информационными технологиями, все расставляют на свои места. В контексте данной статьи приняты следующие обозначения:
б1 — вероятность рака молочной железы при положительном результате исследования;
Вг— вероятность того, что положительный результат маммографии означает рак (80%);
В3— истинная вероятность рака (1%); В4 — вероятность, что произошла ошибка и за рак приняли доброкачественное разрастание ткани (10%); б5— вероятность того, что рак не обнаружен (99%).
Подставляем цифровой материал в формулу и получаем смущающий специалистов-онкологов результат:
б1 = 0,8-0,01/[(0,8-0,01) + + (0,1-0,99)] = 0,075 или 7,5%. (6)
Таким образом, вероятность рака отмечается у 7,5, а не у 75% обследованных женщин.
В нашем случае начальная вероятность рака — всего лишь 1%, точность же диагностики злокачественной опухоли с помощью маммографии — не более 80%. При таких условиях нельзя ожидать, что начальный и конечный параметры исследования уйдут очень далеко друг от друга. От незнания этой статистической закономерности и возникает опасность гипердиагностики.
Самое же существенное, что принцип Байеса проявляется практически в любых ситуациях, совершенно не связанных с медициной, когда результат маловероятен и, наоборот, вероятен в 100%.
Применительно же к онкологии, невнимание к таким очевидным истинам, вроде инверсии, неизбежно, как видно из примера, приводит страдающего от недуга человека к тяжелым нервно-психическим состояниям ятрогенного генеза из-за некорректного поведения специалиста.
Описок литературы
1. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983. — 471 с.
2. Боровиков В. П. Программа Б1:а11з1:юа для студентов и инженеров. М.: КомпьютерПресс, 2001. — 301 с.
3. Бриллинджер Д. Временные ряды: обработка данных и теория. М.: Мир, 1980.
4. Информатика: практикум по технологии работы на компьютере / Под ред. Н. В. Макаровой. М.: Финансы и статистика, 2000. — 256 с.
5. Кимбл Г. Как правильно пользоваться статистикой. М.: Финансы и статистика, 1982. — 294 с.
6. Шафрин Ю. Основы компьютерной технологии: учеб. пособие. М.: АВР, 2000. — 560 с.