Научная статья на тему 'О случаях непреднамеренных искажений при использовании it в анализе эмпирических данных'

О случаях непреднамеренных искажений при использовании it в анализе эмпирических данных Текст научной статьи по специальности «Науки о здоровье»

CC BY
63
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Прикладная информатика
ВАК
RSCI
Область наук
Ключевые слова
АНАЛИЗ ДАННЫХ / DATA ANALYSIS / НЕПРЕДНАМЕРЕННЫЕ ИСКАЖЕНИЯ / МЕДИЦИНА / MEDICINE / INADVERTENT DISTORTIONS

Аннотация научной статьи по наукам о здоровье, автор научной работы — Жижин Константин Сергеевич

Медицина одна из областей знаний, где информационные технологии значительно облегчают лечебно-диагностический процесс. Однако в части случаев слабая ориентация и врачей, и медицинских работников со средним специальным образованием в тонкостях многообразия IT (в частности, статистических методик) приводит к неверным выводам, а также серьезным диагностическим и прогностическим ошибкам. Динамические ряды главный инструмент прогноза ситуации для любого лечебно-профилактического учреждения (ЛПУ).

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по наукам о здоровье , автор научной работы — Жижин Константин Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

About cases of inadvertent distortions in the analysis of the empirical data at usage of an information technology

Medicine is one of fields of knowledge where an information technology considerably facilitates medical-diagnostic process. However regarding cases of weak awareness of doctors and medical workers with the average education in subtleties of IT (in particular statistical techniques) leads to incorrect outputs, and also serious diagnostic and prognosis errors. Dynamic rows is the main tool of the forecast of a situation for any treatment-and-prophylactic establishment: state or private.

Текст научной работы на тему «О случаях непреднамеренных искажений при использовании it в анализе эмпирических данных»

№ 2(32) 2011

К. С.Жижин,докт. мед. наук,доцент Ростовского базового медицинского колледжа

(ГОУСПО РО РБМК), г. Ростов-на-Дону

О случаях непреднамеренных искажений при использовании 1Т в анализе эмпирических данных

Приведенные в статье данные обращают внимание исследователей, главным образом, медицинского профиля, использующих в своей работе статистическое программное обеспечение, на опасность получения ложных выводов при прогнозировании в случае недостаточного внимания к эффектам мнимой регрессии, коинтеграции, инверсии в ходе анализа эмпирической информации.

Информационные технологии (1Т-технологии) значительно облегчают труд медиков. Однако в части случаев их слабая ориентация в тонкостях многообразия 1Т (например, статистических методик) приводит специалистов к неверным и обескураживающим выводам, серьезным диагностическим и прогностическим ошибкам.

Анализ динамических рядов — основа прогноза в деятельности любого лечебно-профилактического учреждения (ЛПУ). Однако необходимо учитывать, что большей частью данные, которые закладываются в анализ ситуации, лагированы, т. е. настоящий уровень заболеваемости, инвалидиза-ции населения, объемов продаж лекарств обязательно сравнивается с прежним.

Менеджер ЛПУ должен настроить специалистов аналитического центра своего учреждения на ответ по существу: стационарен или нестационарен анализируемый ряд показателей, фигурирующий в отчетных данных.

От этого ответа будут напрямую зависеть ритмичность и предсказуемость работы персонала ЛПУ, качество оказываемой медицинской помощи. Если взять во внимание наличие сегодня в системе отечественного здравоохранения частных клиник, аптек, то существенной становится и экономиче-

ская компонента, ставящая при неправильном прогнозе под сомнение эффективность функционирования учреждения.

Стационарность динамического ряда определяется тем, насколько быстро или медленно он убывает или возрастает во времени, в какой степени его среднее, дисперсия, ковариация зависимы от времени. Индикатором в данном случае служит график автокорреляционной функции или коррело-грамма типа:

л

X (У, - У)(У,-к - У) гк = р* = ^- при к = 1,2,3... (1)

Х(У, - У )2

Характерно, что коррелограмма стационарного ряда убывает очень быстро с ростом к, график же нестационарного ряда изменяется во времени незначительно.

Смоделируем случайное блуждание двух частиц (х) и (у) с использованием достаточно распространенного и многофункционального статистического программного продукта вГаГ/зГ/са (табл. 1).

Значения {eps^) и (ерз2) — реализации свободных членов (е,) из регрессионных уравнений типа:

у,= а+Рх,+ е,; (2)

х, = а + Ру,+ е,. (3)

№ 2 (32) 2011 ' —

Таблица 1 Псевдорегрессионная зависимость случайных величин

В том случае, если исследователь не задается целью проверить эти две совокупности на предмет взаимозависимости, а значит пренебрегает и условием стационарности, то он рискует получить неверный вывод. Тестирование с помощью Г-статистики такой искусственно созданной статистической совокупности в имитационной модели в программе Апу1_одю при попытке вывода регрессионного уравнения дает следующий результат:

у, = -0,611+ 0,643х, + е,. (4)

Минимальные значения регрессии в данном уравнении составляют 0,042 и 0,014. И если принять в качестве уровня значимости р = 0,05, то оба коэффициента оказываются значимыми, так как и 0,043, и 0,014 < 0,05, т.е. подтверждается тесная зависимость этих двух, совершенно не связанных между собой, совокупностей.

Критически настроенный читатель может заявить, что данные рассуждения построены на искусственно созданной модели, и поскольку информационные технологии обладают неисчерпаемыми возможностями по части моделирования, то искусно подогнанными цифрами можно объяснить даже необъяснимое.

Но существуют достаточно убедительные факты некорректного использования 1Т из реальной жизни, которые приводят к ложному выводу. На кафедре гигиены Ростовского государственного медицинского университета токсикологами изучались компоненты промышленно производимых в стране образцов пластмасс на предмет их канцерогенное™, т.е. способности провоцировать у рабочих рак кожи, легких, желудка, молочной железы и т.д.

Наряду с гигиеническими исследованиями для обследования, главным образом, женщин, работающих в цехах таких предприятий, использовался метод «вылавливания» начальных стадий рака молочной железы — маммография. Из статистики заболеваемости известно, что данная злокачественная патология встречается в мире весьма умеренно: один случай на 100 осмотренных женщин. При массовых же обследованиях каждый случай обнаружения уплотнений в молочной железе врачами-онкологами, с кем приходилось работать вместе, рассматривался не иначе как подозрение на рак. И таких случаев набиралось до 75 на 100 обследованных, т. е. 75%. Суть этого существенного расхождения: 1 и 75% скрыта в инверсии — подмене понятий.

ерз1 е/ю2

0,141 0,143 -0,817 -0,817

-0,708 -0,570 -0,430 -1,240

0,121 -0,443 0,180 -1,062

0,443 -0,001 0,212 -0,84

0,823 0,823 -1,47 -2,32

-1,867 -1,044 -1,007 -3,347

0,882 -0,17 1,803 -1,543

0,815 0,653 1,83 0,294

1,200 1,850 -0,670 -0,380

-0,353 1,345 -0,039 -0,441

-1,135 0,929 0,795 0,364

-0,027 0,333 0,7 1,164

1,125 1,45 -0,502 0,652

-1,12 0,34 0,367 1,02

-0,09 0,27 -0,265 0,755

-1,372 -1,083 -0,462 0,274

1,443 0,34 -0,47 -0,195

1,034 1,373 0,403 0,215

0,768 2,148 1,416 1,633

0,733 2,873 -0,537 1,087

№ 2(32) 2011

Вероятность прогноза при опухоли неясной этиологии и такого же прогноза при явно злокачественной опухоли — разные вероятности.

Касательно последней вероятности сведения о длительности жизни, смертности при раке молочной железы в открытой печати есть.

В отношении же первой вероятности наука еще не может безапелляционно утверждать, что любое уплотнение в груди у женщины, найденное при маммографии, неизбежно приводит к перерождению клеток организма в раковые. В этом направлении предстоит долгая исследовательская работа.

Байес на большом статистическом материале обоснованно показал, что абсолютная разница между начальной вероятностью случая и его конечной вероятностью никогда не бывает очень выраженной.

Теорема Байеса и ее математическое выражение:

=-й^-_

1 (в2-е3)+(в4 -е6) ' '

хорошо знакомые многим специалистам, связанным с информационными технологиями, все расставляют на свои места. В контексте данной статьи приняты следующие обозначения:

б1 — вероятность рака молочной железы при положительном результате исследования;

Вг— вероятность того, что положительный результат маммографии означает рак (80%);

В3— истинная вероятность рака (1%); В4 — вероятность, что произошла ошибка и за рак приняли доброкачественное разрастание ткани (10%); б5— вероятность того, что рак не обнаружен (99%).

Подставляем цифровой материал в формулу и получаем смущающий специалистов-онкологов результат:

б1 = 0,8-0,01/[(0,8-0,01) + + (0,1-0,99)] = 0,075 или 7,5%. (6)

Таким образом, вероятность рака отмечается у 7,5, а не у 75% обследованных женщин.

В нашем случае начальная вероятность рака — всего лишь 1%, точность же диагностики злокачественной опухоли с помощью маммографии — не более 80%. При таких условиях нельзя ожидать, что начальный и конечный параметры исследования уйдут очень далеко друг от друга. От незнания этой статистической закономерности и возникает опасность гипердиагностики.

Самое же существенное, что принцип Байеса проявляется практически в любых ситуациях, совершенно не связанных с медициной, когда результат маловероятен и, наоборот, вероятен в 100%.

Применительно же к онкологии, невнимание к таким очевидным истинам, вроде инверсии, неизбежно, как видно из примера, приводит страдающего от недуга человека к тяжелым нервно-психическим состояниям ятрогенного генеза из-за некорректного поведения специалиста.

Описок литературы

1. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983. — 471 с.

2. Боровиков В. П. Программа Б1:а11з1:юа для студентов и инженеров. М.: КомпьютерПресс, 2001. — 301 с.

3. Бриллинджер Д. Временные ряды: обработка данных и теория. М.: Мир, 1980.

4. Информатика: практикум по технологии работы на компьютере / Под ред. Н. В. Макаровой. М.: Финансы и статистика, 2000. — 256 с.

5. Кимбл Г. Как правильно пользоваться статистикой. М.: Финансы и статистика, 1982. — 294 с.

6. Шафрин Ю. Основы компьютерной технологии: учеб. пособие. М.: АВР, 2000. — 560 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.