Модель представления признаков в байесовском классификаторе медицинских изображений

Ницын Д.А.

УДК 681.518.54

Д.А. НИЦЫН

МОДЕЛЬ ПРЕДСТАВЛЕНИЯ ПРИЗНАКОВ В БАЙЕСОВСКОМ

КЛАССИФИКАТОРЕ МЕДИЦИНСКИХ ИЗОБРАЖЕНИЙ

Предлагается модель представления диагностических признаков в виде графа, который связывает значения признаков, описывающих состояние здоровья, с числами их возможных сочетаний. Предложенная модель упрощает определение условных вероятностей данных сочетаний диагностических признаков при применении формулы Байеса для классификации медицинских изображений.

Ключевые слова: диагностические признаки, формула Байеса, медицинские изображения.

Постановка проблемы. К решению задач медицинской диагностики, как правило, привлекаются данные, которые являются неполными или неточными. Поэтому наилучшим подходом к классификации медицинских изображений является применение вероятностных методов [1 - 3]. Например, в основу классификации, которая позволяет распознавать состояние здоровья пациентов по рентгеновским изображениям их внутренних органов, можно положить формулу Байеса [1]:

Р(н /Б Ь Р(Н №1Н1) ,,,

(' *) Р(Н1 )р(б, Iн)+РН2Ж1н) ■ ()

Результатом вычислений по формуле Байеса является оценка апостериорной вероятности Р(Н / Бк) гипотезы о том, что данное медицинское изображение не имеет симптомов заболевания, при условии, что диагностические признаки имеют данное сочетание Б^. При этом Р(Н) -априорная вероятность гипотезы о том, что рентгенограмма не содержит патогенных зон; Р(Н2) - априорная вероятность гипотезы о том, что

рентгенограмма содержит патогенные зоны; Р($к /Н ) - условная вероятность данного сочетания диагностических признаков при условии, что рентгеновское изображение не содержит симптомов болезни; Р(Бк /Н2) -условная вероятность данного сочетания диагностических признаков при условии, что рентгеновское изображение содержит симптомы болезни.

Одна из проблем применения формулы Байеса состоит в том, что вычисление апостериорной вероятности Р(Н / Бк) требует подсчета числа сочетаний диагностических признаков. Эта задача имеет достаточно простое решение, если размерность Е пространства диагностических признаков равна двум. Действительно, пусть классификация состояний здоровья выполняется по двум независимым признакам $1 и $2, которые могут принимать следующие значения $1 = Б/, Б1, Б^, Б2 = Б2, •••, Б2, •••, Б^ . Тогда

результаты вычислений условных вероятностей Р(Бк /Н ), РБ /Н2) можно

представить в виде таблиц, в ячейки которых заносятся объекты диагноза, имеющие данное сочетание диагностических признаков Б^ = Б/ & Б2.

Поэтому в таблице, представленной на рис. 1, содержимое каждой ячейки соответствует количеству объектов наблюдения, которые имеют данное сочетание диагностических признаков Б^ = Б1 & Б2. Однако в случае, если

евклидова размерность пространства диагностических признаков Е > 3, представление результатов статистических вычислений в виде таблицы становится невозможным.

Л Л Л

Л Кх

Я2/ "и *4

ч2 *3 т N пт

Рис.1

Анализ литературы. Приложению формулы Байеса к решению задач медицинской диагностики посвящено достаточное количество публикаций. Например, в работе [1] приведена модификация формулы Байеса, которая представляет собой попытку найти решение проблемы подсчета данных сочетаний диагностических признаков. Вычисление вероятности диагноза Р{И / Бк) при условии, что состояние пациента определяется набором

признаков Б , основывается на предположении, что признаки Б1, Б2 могут принимать дискретные значения в интервале Б1 = [0,1], г = 1, ..., п , и Б2 = [0,1], у = 1,..., т. При этом условные вероятности Р(Бк /Иг), Р(Бк / И2), входящие в выражение (1), определяются по следующим формулам:

Р(Бк /И1) = П(Б \р(б\ /И1)+ (1 - Б\ )(1 - Р(Б\ /И1 )))• (2)

г=1

• 17 (б2,-р(б2^ /И1)+ (1 - Б2^ )1 - р(б^ /И1)));

j=l

Р(Бк /И2 ) = (Б\р(б\ /И2)+ (1 - Б\ )(1 - Р(Б\ /И2 )))• (3)

г=1

П (б 2 ;Р(б ^ / И 2 )+(1 - Б2 ^ )1 - р(б ^ / И 2))).

j=1

Формулы, по которым подсчитываются условные вероятности Р(Бк / И) и Р(Бк / И 2), выведены в предположении, что значения диагностических признаков равняются Б1 = 1 и Б^ = 1, если данный признак у наблюдаемого пациента присутствует, и значения диагностических признаков равняются Б1 = 0 и Бу = 0, если указанный признак у диагностируемого пациента отсутствует.

Однако к данному способу вычисления условных вероятностей Р(Б /И) и Р(Бк / И2) можно предъявить существенное замечание. Это замечание состоит в том, что вероятности Р(Бк /И) и Р(Бк / И 2) данного сочетания диагностических признаков Бк = Б1 & Б2 не могут равняться произведениям условных вероятностей того, что признаки Бг1 , Б2 принимают данные значения:

Р(Бк /И1 ) = р(б\ & Б2 j /И1 )* р(б\ /И1 )р(б2j /И1);

р(б* /и2)=р(б\ & б2j /И2)* р(б\ /и2)р(б2j /И2).

Это обусловлено тем, что данное сочетание значений диагностических признаков является событием, а не совокупностью независимых событий, состоящих в присвоении диагностическим признакам данных значений. Поэтому приведенный выше способ вычисления условных вероятностей не решает проблему, связанную с подсчетом числа данных сочетаний диагностических признаков [4 - 7].

Целью статьи является разработка модели представления диагностических признаков, которая позволяет придать процедуре подсчета числа данных сочетаний диагностических признаков наглядный и удобный для вычислений вид.

Метод определения условных вероятностей данных сочетаний диагностических признаков. Пусть задана статистическая выборка, которая

состоит из N рентгенограмм, не содержащих признаков заболевания. Кроме того, пусть классификация состояний здоровья также выполняется по двум признакам Б1 и Б2, как и классификация, представленная на рис. 1. Выполним процедуру подсчета числа данных сочетаний диагностических признаков в следующей последовательности:

- распределим число N объектов наблюдения по значениям

Б1 = Б/, •••, Б1, •••, Б1 первого признака. Получим числа N1,^п,N1 объектов наблюдения, которые имеют данные значения первого признака;

- распределим каждое число ^, ., ^, ., ^ объектов наблюдения,

которые имеют данные значения первого признака, по значениям

Б2 = Бп2, ., Б2, ., Б1т второго признака. Получим числа ^п, ., N^, ., Nnm

сочетаний данных значений первого Б 1 и второго Б2 признаков.

Представим результаты подсчета числа данных сочетаний

диагностических признаков в виде графа [8], показанного на рис. 2. Этот граф

образован совокупностью значений двух признаков Б1 и Б2, причем связи между его узлами описываются числом их возможных сочетаний. Заметим, что представление результатов расчета в виде графа позволяет установить следующие зависимости между числом объектов наблюдения, имеющих данное сочетание диагностических признаков, и числом объектов наблюдения, которые имеют данное значение диагностического признака:

N1 = N11 + • ••+NІ1 + •■ ••+Nn1; (4)

Nj = N1J + • •• + ^ + • •• + NnJ ; (5)

N1 = Nlm + • N1 = N11 + • '• + Nim + • • + ^ + •• •• + Nnm ; • + N1m ; (6)

N1 = N,1 + • • + ^ + •• • + Nm ;

N = мл + -+N.. + ••• + N..

N = N1 + ••• + N1 + ••• + NП .

Покажем, что определение числа сочетаний диагностических признаков не зависят от порядка, в котором перечисляются диагностические признаки. Пусть процедура вычисления начинается с того, что объекты наблюдения

распределяются по значениям второго признака Б2, после чего объекты

наблюдения, сгруппированные по значениям Б2 = Бп2,..., Б2, ..., Б^,

распределяются по значениям первого признака Б 1 .

Рис.2

Представим результаты распределения объектов наблюдения в виде графа, приведенного на рис. 3. При этом связи между узлами графа, характеризующими значения диагностических признаков, позволяют установить следующие зависимости:

N1 = N11 + ..•+N1, + ..•+Nln; (7)

N2 _ Nj1 + • + Nji + • + Njn ; (8)

^ = Nm1 + • + Nmi + '" + Nтп . (9)

Сравним соотношения (4) - (6) с соотношнниями (7) - (9). Поскольку число объектов наблюдения, имеющих данное значение второго признака Б2 , одинаково как при составлении соотношений (4) - (6), так и при составлении соотношений (7) - (9), будут справедливы следующие равенства:

N = N„, i = 1,—,п , ] = 1,—,т .

и з2 и у у

Следовательно, результаты определения числа сочетаний диагностических признаков действительно не зависят от порядка, в котором перечисляются диагностические признаки.

Рис.З

Введем третий диагностический признак, принимающий значения Б3 = 53,...,Б^,. При этом граф, описывающий процедуру определения

числа данных сочетаний диагностических признаков Б1 и Б2, дополняется строкой, моделирующей процедуру распределения объектов наблюдения, сгруппированных по значениям второго признака Б2 = Б2, ., Б2, ., , по

значениям третьего признака Б3. Представим процедуру определения числа данных сочетаний диагностических признаков Б1, Б2, Б3 в виде графа, показанного на рис. 4. При этом, если узлы графа соответствуют отдельным значениям диагностических признаков, а связи между ними - числу возможных сочетаний значений диагностических признаков, то данный граф можно описать следующей системой линейных уравнений:

пт

ык = Е ТКук , к = 1,..., I; (10)

і=1 У=1

~ п I

N2 =ЕЕ Кук , у = 1,..., т; (11)

і=1 к =1 л т I

М,=ТТмук, І =1.,п; (12)

У=1к=1

п 1

N = Т К1. (13)

І=1

Рис.4

Заметим, что данную графическую модель представления диагностических признаков можно распространить на случай, когда евклидова размерность пространства диагностических признаков Е > 3. Действительно,

введем дополнительный признак Б4. При этом граф, соответствующий размерности Е = 4, наследует структуру графа, построенного для размерности Е = 3, и дополняет его строкой, состоящей из узлов, отображающих значения

диагностического признака Б4. Кроме того, связи между узлами описываются системой линейных алгебраических уравнений, количество которых равно сумме чисел значений всех диагностических признаков, увеличенной на

единицу д = п + т +1 л--------л 1, а количество неизвестных равно произведению

чисел значений всех диагностических признаков р = п х т х I х • • • х 1. Если ввести р - д дополнительных условий, то процедуру подсчета числа возможных сочетаний диагностических признаков можно заменить решением системы линейных алгебраических уравнений (10) - (13).

Преимуществом данного подхода является то, что достаточно сложная задача на определение числа данных сочетаний значений диагностических признаков сводится к решению более простой задачи на определение числа данных значений диагностических признаков. При этом определение числа данных сочетаний значений диагностических признаков можно представить как решение системы уравнений (10) - (13).

Выводы. Таким образом, впервые разработана графическая модель представления диагностических признаков в виде графа, узлы которого являются значениями диагностических признаков, а связи между ними выражают условные вероятности того, что объект наблюдения имеет данное сочетание значений диагностических признаков. Эта модель позволяет придать процедуре подсчета числа данных сочетаний диагностических признаков наглядный и удобный для вычислений вид и распространяется на случай, когда евклидова размерность пространства диагностических признаков больше или равна трем. Кроме того, впервые выведены соотношения (10) - (12), которые связывают условные вероятности того, что объект наблюдения имеет данные сочетания значений диагностических признаков, с условными вероятностями того, что объект наблюдения, имеет данные значения диагностических признаков. Эти соотношения доказывают несостоятельность применения формул (2) - (3) для выбора гипотезы с помощью формулы Байеса. Направление дальнейших исследований связано с поиском дополнительных условий, необходимых для решения системы линейных уравнений, описывающей граф чисел данных сочетаний диагностических признаков.

Список литературы: 1. Постнова Т.Б. Информационно-диагностические системы в медицине. -М.: Наука, 1972. - 376 с. 2.Максимов Г.К., СиницынА.Н. Статистическое моделирование многомерных систем в медицине. - Л.: Медицина, 1983. - 144 с. 3. ЗавалишинН.В., МучникИ.Б.

Модели зрительного восприятия и алгоритмы анализа изображений. - М.: Наука, 1976. - 402 с. 4. Форсайт Д, Понс Ж. Компьютерное зрение. Современный подход. - М.: Издательский дом "Вильямс", 2004. - 928 с. 5. Хайкин С. Нейронные сети: полный курс, 2-е издание. - М.: Издательский дом "Вильямс", 2006. - 1104 с. 6. ПотаповА.С. Распознавание образов и машинное зрение. - СПб.: Политехника, 2007. - 548 с. 7. Вентцель Е.С. Теория вероятностей. - М.: Наука, 1969. - 576 с. 8. КристофидесН. Теория графов. Алгоритмический подход. - М.: Мир, 1978. -432 с.

УДК 681.518.54

Модель подання ознак у байесовскому класифікаторі медичних зображень / Ніцин Д.О.

// Вісник НТУ "ХПІ". Тематичний випуск: Інформатика і моделювання. - Харків: НТУ "ХПІ", 2008. - № 49. - С. 105 - 113.

Пропонується модель подання діагностичних ознак у вигляді графа, який зв'язує значення параметрів, що описують стан здоров'я, із числами їх можливих сполучень. Запропонована модель спрощує визначення умовних ймовірностей даних сполучень діагностичних ознак при застосуванні формули Байєса для класифікації медичних зображень. Іл.: 4. Бібліогр.: 8 назв.

Ключові слова: діагностичні ознаки, формула Байєса, медичні зображення.

UDC 681.518.54

Model of representation of attributes in the Bayesian qualifier of the medical images / Nitsyn D.A. // Herald of the National Technical University "KhPI". Subject issue: Information Science and Modeling. - NTU "KhPI". - 2008. - №. 49. - P. 105 - 113.

The model of representation of diagnostic attributes as the column is offered which connects meanings of parameters describing a condition of health, to numbers of their probable combinations. The offered model simplifies definition of conditional probabilities of the given combinations of diagnostic attributes at application of the Bayesian formula for classification of the medical images. Figs: 4. Refs: 8 titles.

Key words: diagnostic attributes, Bayesian formula, medical images.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Поступила в редакцию 16.10.2008

Модель представления признаков в байесовском классификаторе медицинских изображений Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Ницын Д. А.

Похожие темы научных работ по математике , автор научной работы — Ницын Д. А.

Model of representation of attributes in the Bayesian qualifier of the medical images

Текст научной работы на тему «Модель представления признаков в байесовском классификаторе медицинских изображений»