Научная статья на тему 'Методика формирования словаря информативных признаков при расчете вероятности повторного инсульта на основе критерия информативности Кульбака'

Методика формирования словаря информативных признаков при расчете вероятности повторного инсульта на основе критерия информативности Кульбака Текст научной статьи по специальности «Клиническая медицина»

CC BY
563
334
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАТИВНОСТЬ ПО КУЛЬБАКУ / ДИАГНОСТИЧЕСКИЕ КОЭФФИЦИЕНТЫ / ФОРМИРОВАНИЕ СЛОВАРЯ ИНФОРМАТИВНЫХ ПРИЗНАКОВ / РАСЧЕТ ВЕРОЯТНОСТИ ПОВТОРНОГО ИНСУЛЬТА / THE INFORMATIVE SET / KULBAC RULE / PROBABILITY OF RELAPSE STROKE

Аннотация научной статьи по клинической медицине, автор научной работы — Львович И. Я., Гладских Н. А.

В статье представлена методика формирования словаря информативных признаков при расчете вероятности повторного инсульта на основе критерия информативности Кульбака и расчета диагностических коэффициентов

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по клинической медицине , автор научной работы — Львович И. Я., Гладских Н. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODIC FORMING THE INFORMATIVE SET BY USING KULBAC RULE ON CALCULATION THE PROBABILITY OF RELAPSE STROKE

The methodic forming the informative set by using Kulbac rule on calculation the probability of relapse stroke is presented at the article

Текст научной работы на тему «Методика формирования словаря информативных признаков при расчете вероятности повторного инсульта на основе критерия информативности Кульбака»

УДК 616.831 - 005.1:681.3

МЕТОДИКА ФОРМИРОВАНИЯ СЛОВАРЯ ИНФОРМАТИВНЫХ ПРИЗНАКОВ ПРИ РАСЧЕТЕ ВЕРОЯТНОСТИ ПОВТОРНОГО ИНСУЛЬТА НА ОСНОВЕ КРИТЕРИЯ

ИНФОРМАТИВНОСТИ КУЛЬБАКА

И.Я. Львович, Н.А. Гладских

В статье представлена методика формирования словаря информативных признаков при расчете вероятности повторного инсульта на основе критерия информативности Кульбака и расчета диагностических коэффициентов

Ключевые слова: информативность по Кульбаку, диагностические коэффициенты, формирование словаря информативных признаков, расчет вероятности повторного инсульта

Цереброваскулярная патология на

сегодняшний день является одной из наиболее значимых медико-социальных проблем во всем мире. Особое значение придается острым формам нарушениям мозгового кровообращения -

инсультам. Значимость проблемы инсульта не ограничивается высокой заболеваемостью и смертностью. Во всех странах инсульт -

лидирующая причина первичной инвалидизации: более половины пациентов, перенесших мозговую катастрофу, нуждаются в той или иной степени ухода за собой. Вторичная профилактика - гораздо более специализированная область лечения инсультов. Многочисленные клинические

испытания подтвердили эффективность

мероприятий стратегии высокого риска в

профилактике повторных инсультов. Основная

направленность современных исследований -разработка индивидуализированной вторичной диагностики, обеспечивающей коррекцию факторов риска развития инсультов и увеличение продолжительности и качества жизни пациента.

Любому врачу в его работе необходимо «вероятностное мышление» и, в частности, понимание вероятностного подхода к диагностике. По-видимому, на таком подходе в значительной мере основан тот подсознательный процесс, который лежит в основе установления диагноза опытным врачом, учитывающим патогномические симптомы, частые симптомы, симптомы, не характерные для данного заболевания или не встречающиеся при нем никогда. Вероятностный подход придает диагностическим построениям строгую количественную форму, дает в руки врача хорошо разработанный и, вместе с тем, не слишком сложный математический аппарат, но это не означает, что врачу необходимо его применять каждый раз у постели больного. Все эти вычисления можно осуществить один раз при определении плана лечения.

Львович Игорь Яковлевич - ВИВТ, д-р техн. наук, профессор, тел. 8(4732)727398

Гладских Наталья Александровна - ВГМА им. Н.Н. Бурденко, канд. техн. наук, ассистент, тел. 89192320285, Е-шаД ngladskikh@rambler.ru

В процессе проведенных исследований применялись клинические методы, методы математической статистики, математического моделирования.

На предварительном этапе при расчете вероятности повторного инсульта необходимо получить перечень наиболее информативных признаков. В медицинских исследованиях понятие информативности признака связывают с его диагностической ценностью в задачах дифференциальной диагностики.

Формирование словаря признаков,

используемого для расчета вероятности повторного инсульта, является важной и достаточно сложной задачей.

При разработке словаря признаков приходится сталкиваться с некоторыми ограничениями. Одно из них состоит в том, что в словарь могут быть включены только те признаки, для которых имеется априорная информация, достаточная для описания классов на языке этих признаков. Другое ограничение заключается в том, что некоторые из признаков нецелесообразно включать в априорный словарь ввиду того, что они малоинформативны.

В рабочем словаре следует использовать лишь те признаки, которые, с одной стороны, наиболее информативны и, с другой - могут быть в принципе определены имеющимися или специально созданными средствами наблюдения.

Построенный таким образом словарь признаков должен явиться информативной базой для расчета вероятности повторного инсульта.

Определение словаря признаков возможно с использованием следующих подходов:

1. Игровой подход к построению словаря признаков.

2. Метод, основанный на сравнении апостериорных вероятностей.

3. Метод, основанный на сравнении вероятностных характеристик признаков.

4. Метод, основанный на определении

количества информации.

5. Метод, базирующийся на определении

информативности Кульбака.

В рамках данного исследования был выбран

подход, основанный на определении

информативности признаков по Кульбаку.

Данный метод по сравнению с другими методами минимизации информативной

избыточности наиболее прост и доступен для алгоритмизации.

Методика расчета информативности признаков по Кульбаку базируется на определении диагностических коэффициентов, рассчитанных для основной и контрольной групп пациентов.

Под наблюдением находился 191 больной, перенесший один и более инсульт. За 38 пациентами осуществлялось ретроспективное наблюдение, 153 пациента наблюдались с первого момента развития заболевания. Контрольную группу составили 80 больных, перенесших один инсульт, 111 больных с повторными нарушениями мозгового

кровообращения - основную группу. Их

обследование и лечение проходило на базе

неврологического отделения для больных с нарушениями мозгового кровообращения

Воронежской областной клинической больницы №1, с 2000 года по 2007 год.

В нейрососудистом отделении проводился отбор и наблюдение за больными, поступившими с диагнозом ишемический инсульт. В результате проспективного 5 летнего наблюдения,

сформировалось основная группа перенесших

повторное нарушение мозгового кровообращения -91 человек и контрольная группа без повторных инсультов - 62 человека. Наблюдение

осуществлялось как в поликлинических условиях или на дому, так и при госпитализации в стационар при повторном инсульте или на очередном курсе лечения. Параллельно отбирались пациенты, поступившие с диагнозом повторный ишемический инсульт с интервалом менее 5 лет (20 человек) - они так же вошли в основную группу и с повторным эпизодом в период более 5 лет (18 человек) -контрольная группа. Конечной точкой являлся повторный ишемический инсульт. Критерием исключения - геморрагический характер первого или повторного нарушения мозгового кровообращения.

Диагностический коэффициент представляется в виде логарифма отношения вероятностей проявления данного признака в основной и контрольной группе (p(Xij\A1) и p(Xij\A2) соответственно) и умноженный на 100

P(Xj / Aj)

ДК = 100 lg

P(Xj / A2)

(1)

Диагностические коэффициенты представляют собой чаще всего двузначные или однозначные положительные или отрицательные числа.

Положительными они являются в случае

преобладания вероятности р(Ху\Л1), находящейся в числителе, отрицательными — в случае

преобладания вероятности р(Х1]\Л2). То есть диагностические коэффициенты со знаком « + » говорят о большем правдоподобии гипотезы А1 (о принадлежности к основной группе) со знаком «—» — о большем правдоподобии гипотезы А2 (о

принадлежности к контрольной группе). Очевидно, коэффициенты с положительным знаком несут положительную информацию, приближая сумму диагностических коэффициентов к порогу, который для А1 является положительным. Коэффициенты с отрицательным знаком, наоборот, «отдаляют»

сумму от порога. Для гипотезы А 2, наоборот, коэффициенты с отрицательным знаком приближают сумму к порогу, а коэффициенты с положительным знаком — отдаляют ее от порога, так как порог является величиной отрицательной.

Следует отметить, что чем больше величина диагностического коэффициента, тем больше дифференциально-диагностической информации, т. е. информации о преобладании вероятности одного из диагнозов, он несет. Однако информативность каждого значения признака зависит также от частоты, с какой встречается это значение при каждом из заболеваний, т. е. от величин р(Х/Л1) и р(Х1]\Л2). Если диагностический коэффициент

значения признака х/ велик, но больные с этим

значением встречаются сравнительно редко, то в процессе диагностики роль такого значения

признака х{ мала.

Для определения той информации, которую несет признак х{, сначала необходимо вычислить сумму информации, которую дают значения признаков (х/ ). Для этого необходимо умножить диагностический коэффициент, полученный для данного признака ДК( х/ ) на разность вероятностей

этого признака при принадлежности к основной группе (гипотеза А1) и к контрольной группе (гипотеза А2):

ДК( х/ )\р(Х/\Л1) -р(Х/\Л2)] (2)

Следует заметить, что разность \р(Х1/\Л1) -р(Ху\Л2)] будет положительной в случае, если ДК положителен. Разность же (2) покажет, насколько в среднем будет приближаться сумма диагностических коэффициентов к порогу в

результате обнаружения у больного симптома х/ .

Аналогично рассчитываются другие значения

12 П

этого же признака х{, х{ ...хг- . Информативность признака в целом 1(х1) будет равна их сумме:

Цх1) = £ ДК(х/)[р(Х/Л1) - рХ/\Л2) (3)

Если представить величину ДК в развернутом виде, то формула (3) примет вид, идентичный формуле информационного критерия Кульбака:

i(xi) = Z100!g

p(Xij|A1) p(Xij|A2)

[ p(Xij\A1)

p(Xij\A2)]

(4)

Таким образом, алгоритм формирования Таблица 1. Результаты расчета информативности

словаря информативных признаков состоит из диагностических признаков с использованием

следующих этапов: критерия Кульбака.____________________________

1. Формирование основной и контрольной группы пациентов;

2. Расчет вероятностей проявления признака в основной и контрольной группах р(Ху\Л1) и р(Х/\Л2);

3. Расчет диагностических коэффициентов для признаков ДК( х. )

4. Вычисление информативности для

заданного значения признака

ДК( х/ )\р(Х1]\Л1) -р(Х1/\Л2)]

5. Вычисление информативности признака

Цх1) = £ ДК(х/)[р(Х/\Л1) -р(Х/\Л2)]

Признак Значения информативности признаков

Х6 0

Х2 0,0175

Х5 0,13086

Х1 0,597

Х19 0,822

Х9 1,278

Х20 1,42

Х18 3,0178

Х17 3,139

Х8 4,295

Х13 4,44

Х10 5,40892

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Х7 5,9785

Х12 6,39

Х15 6,46

Х4 7,7263

Х16 12,08

Х3 12,455

Х11 15,557

Х14 21,61

6. Отбор признаков, имеющих наибольшее значение 1(х1)

Пользуясь предложенной методикой, на основе сформированной базы данных были рассчитаны диагностические коэффициенты и значения информативности по каждому из признаков:

XI - нарушение сознания Х2 -гемианопсия

Х3 - парез в руке Х4 - парез в ноге

Х5 - расстройство чувствительности (гемигипостезия)

Х6 - симптом отрицания (анозогнозия)

Х7 - афазия

Х8 - нарушение ритма сердца Х9 - сахарный диабет

Х10 - показатели глюкозы крови на момент инсульта

XII - ультразвуковая допплерография (УЗДГ) Х12 - возраст

Х13 - пол Х14 - АД Х15 - холестерин Х16 - ИБС

Х17 - Локализация очага по бассейнам Х18 - частота подтипов Х19 - Тяжесть инсульта по Ренкину Х20 - Баллы по Бартелу

Значения информативности признаков Х1-Х20 приводятся в таблице 1.

Таким образом, в результате анализа информативности признаков было сформировано

пространство признаков X\ ( = 1, N),

позволяющее полностью идентифицировать состояние объекта моделирования.

В качестве диагностически значимых признаков были отобраны:

Х3 - парез в руке Х4 - парез в ноге Х7 - афазия

Х8 - нарушение ритма сердца Х10 - показатели глюкозы крови на момент инсульта

Х11 - ультразвуковая допплерография (УЗДГ)

Х12 - возраст

Х13 - пол

Х14 - АД

Х15 - холестерин

Х16 - ИБС

Х17 - Локализация очага по бассейнам

Х18 - частота подтипов

Построенный таким образом словарь признаков является информативной базой для расчета вероятности повторного инсульта.

Для определения вероятностных оценок рецидива инсульта целесообразно использовать формулу Байеса, которую иногда называют теоремой об обратной вероятности или теоремой гипотез. Это вполне применимо к задачам диагностики: формула позволяет выбрать одну из нескольких возможных диагностических гипотез, основываясь на вычислении вероятностей болезней по вероятности обнаруженных у больного симптомов. С помощью этой формулы на основе следующих данных:

1. Р(Лк) - априорная вероятность симптома р(Ху) представляет собой вероятность симптома Ху, во всей группе, т. е. вероятность для любого больного в группе независимо от того, какой болезнью он страдает, иметь симптом Х./. Эта величина является отношением числа больных, имеющих симптом Х./ к общему числу больных в группе.

2. Р(ху\Лк) - условная вероятность симптома Х1], при возможности повторного инсульта (гипотеза А1) р(Х/Л1) представляет собой вероятность иметь симптом Ху, при условии принадлежности к основной группе. Эта величина равна отношению числа больных с повторным инсультом, имеющих симптом Ху к общему числу больных, страдающих этой болезнью.

Формула Байеса имеет следующий вид:

Р( Л)Р(х11 Л)

,х при болезнях А1 и А2, то расчет

P(A] / X!) =

X Р( A P(V A)

(5)

вероятностей повторного инсульта при наличии указанных симптомов может быть рассчитана на основе использования формулы Байеса.

РЛ)Р^/ЛР2/Л)-Рх /Л)

p(A /-xxz'-Xn)=

XpAPx/APx,/AlPX/4)

(6)

В данном исследовании р(Л1)- априорная вероятность появления повторного инсульта, р(Л2)-априорная вероятность отсутствия повторного инсульта, р(Х/\Лк) - условная вероятность

(частость) появления признака при принадлежности к основной или контрольной группе.

По существу задача диагностики состоит в том, чтобы установить диагноз, используя тот минимум доступной диагностической информации, который достаточен для достижения необходимой надежности диагноза. Это обычно требует использования не одного симптома, а набора симптомов (симптомокомплекса).

Такой подход может быть назван «многомерным» подходом к установлению диагноза, так как при нем одновременно используют много признаков.

Таким образом, методика расчета вероятности повторного инсульта состоит из следующих этапов:

1. Формирование пространства признаков

= 1, N), которые позволяют полностью

идентифицировать состояние объекта

моделирования.

2. Формирование словаря информативных признаков на основе критерия Кульбака.

3. Расчет вероятности повторного инсульта на основе формулы Байеса (6).

4. Формирование рекомендаций по дальнейшему лечению и профилактике.

Однако у больного могут быть обнаружены

одновременно симптомы х1,х2,...,хп. Как вести

расчет вероятности рецидива инсульта в этом случае?

Если мы располагаем данными о числе больных, у которых имеется комплекс симптомов

Литература

1. Гублер Е.В. Вычислительные методы

распознавания патологических процессов / Е.В. Гублер. -Л.: Медицина, 1970. - 320с.

2. Горелик А.Л. Некоторые вопросы построения

систем распознавания / А. Л. Горелик, В.А. Скрипкин. -М.: Советское радио, 1974. - 224с.

t

JI

Воронежский институт высоких технологий Воронежская государственная медицинская академия им. Н.Н. Бурденко

METHODIC FORMING THE INFORMATIVE SET BY USING KULBAC RULE ON CALCULATION THE PROBABILITY OF RELAPSE STROKE

!^а. Lvovich, N.A. Gladskikh

The methodic forming the informative set by using Kulbac rule on calculation the probability of relapse stroke is presented at the article

Key words: the informative set, Kulbac rule, probability of relapse stroke

i Надоели баннеры? Вы всегда можете отключить рекламу.