Сравнительный анализ эффективности вероятностного и возможностного алгоритмов медицинской диагностики

Пытьев Юрий Петрович; Газарян Варвара Арамовна; Росницкий Павел Борисович

Сравнительный анализ эффективности вероятностного и возможностного

алгоритмов медицинской диагностики

Ю. П. Пытьев1, В. А. Газарян1,2,а, П. Б. Росницкий3

1 Московский государственный университет имени М.В. Ломоносова, физический факультет, кафедра компьютерных методов физики. Россия, 119991, Москва, Ленинские горы, д. 1, стр. 2.

2 Финансовый университет при правительстве РФ, факультет прикладной математики и информационных технологий, кафедра «Теория вероятностей и математическая статистика».

Россия, 125993, Москва, Ленинградский проспект, д. 49.

3 Московский государственный университет имени М. В. Ломоносова, физический факультет,

кафедра акустики. Россия, 119991, Москва, Ленинские горы, д. 1, стр. 2.

E-mail: a [email protected]

Статья поступила 23.01.2014, подписана в печать 01.02.2014.

Для решения задач медицинской диагностики широко используются математические методы распознавания образов и построенные на их основе алгоритмы классификации заболеваний [1]. В работе [2] для классификации функциональных нарушений системы пищеварения применена алгебраическая модель алгоритма Кора. В работах [3-5] показано, что при решении многих задач медицинской диагностики более эффективными являются возможностные методы постановки медицинского диагноза. В настоящей работе приведен сравнительный анализ вероятностной и возможностной моделей постановки диагноза, алгоритмов Кора и результатов их применения к решению задачи диагностики острого аппендицита.

Ключевые слова: распознавание образов, задача идентификации, вероятностная модель диагностики, возможностная модель диагностики, гранулирование, алгоритм классификации Кора, острый аппендицит.

УДК: 519.2, 519.6. PACS: 02.70.-с, 02.50.Le.

Введение

Рассмотрим задачу медицинской диагностики как задачу идентификации, в которой требуется принять решение о принадлежности медицинского объекта, в данном случае — субъекта (пациента), к одному из M заданных врачом классов заболеваний, среди которых может быть и класс «норма», либо принять решение о том, что данный субъект не относится ни к одному из выделенных классов. При этом он может страдать заболеваниями, диагностика которых выходит за рамки настоящего исследования. Признаками, характеризующими субъект, являются симптомы заболевания, обнаруженные в результате обследования и опроса пациента, каждый симптом может принимать как количественные, так и качественные значения. Рассмотрим традиционно два этапа решения задачи идентификации — обучения и постановки предварительного диагноза. Процесс обучения состоит в определении характерных значений признаков (симптомов) заболевания в каждом из M классов по обучающей выборке объектов. Класс «норма», как правило, характеризуется значениями признаков, находящимися в пределах нормы. После этого на основании результатов обучения проводится идентификация — отнесение диагностируемого объекта к одному из M классов либо отказ от идентификации, если у данного пациента не наблюдается характерных симптомов выделенных классов1.

В [3-5] показано, что при моделировании медицинских объектов исследователям приходится на практике сталкиваться с нечеткостью их описания, связанной со случайностью и неточностью данных, которые вызваны изменчивостью во времени, неформализованным и во многих случаях субъективным характером симптомов заболевания. Эти факторы наряду с ограниченным размером обучающих выборок приводят к принципиальным проблемам эмпирического построения стохастических моделей медицинских объектов. Если же моделируемый объект не является стохастическим, то вероятностной модели вообще не существует. Тогда неточность и нечеткость, свойственную объектам, нельзя охарактеризовать в вероятностных терминах. Однако судить о вероятностной или не вероятностной природе объектов непросто в связи с отсутствием такого критерия в теории вероятностей [6]. Ввиду неэффективности вероятностных методов при моделировании медицинских объектов естественно обратиться к невероятностным моделям случайности, нечеткости и неопределенности [7, 8]. В теории возможностей, разработанной в [6] и успешно применяемой для решения задач медицинской диагностики [3-5], показано, что в то время как вероятностную модель стохастического объекта, непредсказуемо эволюционирующего во времени, эмпирически построить невозможно, его возможностная модель, при достаточно слабых ограничениях на характер эволюции вероятностной модели, может быть восстановлена, причем точно и на осно-

1 Далее в статье употребляется также термин «классификация», понимаемый как «идентификация», т.е. отнесение

субъекта к одному из заранее определенных классов, причем «отсутствие выделенных заболеваний» рассматривается как

отдельный класс.

вании конечного числа наблюдений. Таким образом, при неформализованном характере признаков заболевания, ограниченном размере обучающих выборок и непредсказуемой изменчивости вероятностных свойств симптомов возможностные методы обучения и распознавания более предпочтительны, чем вероятностные.

1. Вероятностная модель постановки медицинского диагноза

Предположим, что признаки заболеваний имеют стохастическую природу. Тогда каждый объект можно охарактеризовать п-мерным случайным вектором признаков х = (х1, X2,..., Хп), принимающим значения х е X, где

х = (х1,X2,...,хп), (1)

х> е XI - значение I -го признака (симптома), I = 1,... .. . , п, XI — множество значений I-го признака, п — количество значений |-го признака, | = 1,...,п, п — число признаков,

вероятности потерь (риск потерь) [6]

X = X1 х X2 х ... х Xn,

(2)

/=1

M

L(X)=H

j=1

Sj (x) dx,

(3)

M

Sj(x) = £ lkj prx'K(x, k) = Y, k prx|K(x|k) prK(k), (4)

k=i

x G X, j = 1,..., M,

ргХ(х) — значение вероятности равенства х = х, х е X.

Задача идентификации — отнести предъявленный для диагностики объект к одному из классов £, £ е {1.....М}.

Обозначим к случайный элемент, значениями которого являются номера классов £ е {1,..., М}. Пусть ргх,к(х, £) — вероятность равенств х = х, к = £, х е X, £ е {1,...,М}, характеризующая совместное распределение наблюдаемого набора симптомов х и класса заболеваний к, /£й е [0, 1] — вероятность потерь при отнесении объекта (пациента) класса £ к классу й, й = 1,...,М, которую следует понимать как определенную врачом вероятность неблагоприятных для здоровья пациента последствий, вызванных постановкой ему диагноза «й», в то время как на самом деле он страдает заболеванием «£», £, й = 1,...,М. Обозначим ргк(£), £ = 1,...,М, априорную вероятность заболевания £. В рассматриваемой модели диагностики ни один класс не является более предпочтительным, чем другой, и априорные вероятности ргк(£) равны ргк(£) = 1/М, £ = 1,...,М. Обозначим ргх 1к(х\£) — значение условной вероятности наблюдения симптомов х = х у пациента, страдающего заболеванием к = £. Тогда ргХ,к(х, £) = ргх\к(х\£) ргк(£).

Пусть решение о принадлежности пациента с набором признаков х = х, х е X, к классу £ принимается при х е Xk, где X1, X2,..., XM — некоторое упорядоченное разбиение множества X = X1 х X2 х ... х X"- (2)

М

значений признаков. X = У XI, XI П XI = 0, I = |,

— математическое ожидание вероятности потерь при отнесении пациента x к классу j.

Рассмотрим задачу определения оптимального правила постановки диагноза (байесовского) как задачу отыскания разбиения X, минимизирующего риск L (3). В работе [6] показано, что минимум (3) достигает-

м

ся на любом упорядоченном разбиении X* = |J X*,

j=i

X* n X* = 0, i = j, i, j = 1,..., M, удовлетворяющем условию

X* с ix e X, Sj (x)= min Si (x)l, j = 1,..., M. (5)

' L i<i<M J

Минимальное значение риска (3)

M

L(X *) =

j=1 X.

Sj (x) dx.

(6)

В [6] также показано, что правило идентификации, определенное разбиением X* , удовлетворяющим условию (5), можно определить как решающую функцию d*(-): X ^ {1,..., M} такую, что d* (x) = k для каждого x e X, если x e X**, k = 1,..., M, т.е.

d*(x) e D*(x) = [d e {1,...,M}, Sd(x)= min Si(x)l.

L 1<i<M J

(7)

Если lkj = 1 — Skj, т.е. вероятность потерь равна нулю при правильном решении ( k = j ) и единице при любом ошибочном решении (k = j), то риск (3) равен ожидаемой доле ошибочных решений, или вероятности ошибки идентификации, а согласно (4)

M

Sj(x) = J2 lkj prx|K(xlk) prK(k) = prx(x) - prxlK(xj) prK(j)

k=1

x G X, j = 1,..., M,

I, I = 1,..., М. Поэтому каждое разбиение X = у XI

1=1

определяет правило постановки диагноза. По сути, множество Xk состоит из значений признаков, характерных для класса £, £ = 1, . . . , М.

Для правила постановки диагноза, определенного конкретным разбиением X, математическое ожидание

где prх (x) — распределение вектора симптомов х • В этом случае решением задачи минимизации риска (3) будет вместо разбиения (5) разбиение

X* с fx е X, prxlK(x\j) prK(j) ^ max prxlK(x\i) prK(i)j,

L i=j J

j = 1,..., M. (8)

Следовательно, согласно байесовскому решающему правилу, к классу j следует отнести пациентов, обладающих такими значениями симптомов х = x, для которых значение условной вероятности prхlK(x\j) максимально.

2. Вероятностный алгоритм типа Кора.

Обучение. Распознавание

Для оценки условных вероятностей ргх 1к(х\]) и решения задачи классификации заболеваний в рамках вероятностной модели диагностики в настоящей работе применяется алгоритм классификации типа Кора. Существует несколько разновидностей алгоритма Кора [9, 10]. На этапе обучения алгебраического алгоритма строятся сочетания характерных значений признаков класса, называемые представительными наборами класса. Варьируя эмпирические параметры, которые вводятся на этапах обучения и распознавания алгебраического алгоритма, можно добиваться разных результатов диагностики, однако решение многомерной задачи оптимизации в этом случае представляет значительные трудности. В работе [2] алгоритм Кора был модифицирован на базе его алгебраической модели путем применения байесовского решающего правила.

Обучающее множество содержит N объектов — больных с верифицированным диагнозом из М непересекающихся классов заболеваний. Обучающая выборка объектов £-го класса — ш£1,..., шшк, где N£ — число объектов обучающей выборки £ -го клас-

l), l = 1,..., Nk, к = 1,..., M,

значение j -го

са, ш £I = (шхы,...,

М

N = N. Иными словами,

£=1

признака I-го объекта £ -го класса. В [2] рассмотрен алгоритм построения представительных наборов классов путем сравнения на этапе обучения каждого объекта шы £ -го класса, I = 1,..., по всем признакам ] = 1,..., п с остальными объектами обучающей выборки. Пусть О£(ш£[) — ц-й представительный набор значений признаков £-го класса, порожденный объектом

ш ki:

Dk (ш ki )= j,...

> j,

j < ... < jr, r < n, и име-

отнесении пациента набором к классу £:

х с данным представительным

SkD

= min

q

Sk(Dk),

(9)

M

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

q = 1,..., Qk, SkD) = £ lik pr(Dk10 Pr(i).

Согласно решающему правилу (7), объект х относится к классу £*, в котором математическое ожидание вероятности потерь Б£* минимально:

Sk* DD =min Sk{Dhqk).

(10)

В случае когда 1£1 = 1 — Ьц, согласно (8), в каждом классе £ определяется представительный набор О£ь, имеющий максимальную вероятность

(11)

ко-

рг(О££ |£) = тах рг(О£|£), ц = 1,..., Q£.

Тогда объект х относится к тому классу £* торому принадлежит набор О) , имеющий максимальную вероятность рг(£*|DЦ^) в (8): рг(£*|О£^) = Ц). При равенстве априорных вероятно-

= m ax pr( k|D;

стей pr(k) решение о диагнозе k основании условия

4=

принимается на

Pr(С И =max pr(Di |k).

(12)

ющий в £-м классе частоту не менее р£ . Поскольку длинные представительные наборы (с большими значениями г) встречаются реже, чем короткие, у которых г меньше, необходимо задать минимальную длину представительного набора класса гтп. В противном случае в каждом классе получим г = 1, т.е. представительный набор будет состоять всего из одного признака, и описание класса окажется неполным. На этапе обучения по обучающей выборке находятся все представительные наборы О£(ш£1) объектов, I = 1,..., N£, £ = 1,..., М.

На этапе распознавания предъявляется объект х = (х1, х2,..., хп), который следует отнести к одному из М классов. Для классификации объекта х требуется не все его описание, а только представительные наборы, которыми он обладает. Выявляются все представительные наборы всех классов, присущие объекту х. Пусть найдено Q£ таких наборов в классе £: ц = 1,..., Q£. В каждом классе £ определяется представительный набор , имеющий минимальное математическое ожидание вероятности потерь (4) при

Согласно закону больших чисел, при достаточно большом объеме N обучающей выборки можно аппроксимировать вероятности в (9) и (11) частотами при неизменных вероятностных характеристиках признаков. В частности, аппроксимируя на практике вероятности рг(О£|£) частотами встречаемости объектов, имеющих О£ в £-м классе, следует помнить об условиях практического применения ЗБЧ. Применим оценки Хёфдинга ошибки приближения вероятности частотой [6] для выборки объема N£ в £-м классе (как для неизменных, так и для меняющихся вероятностных характеристик объектов, что в данной задаче является актуальным из-за индивидуальных особенностей пациентов и изменчивости их состояния). Пусть ъЦ^ = О£|£) — частота ц -го представительного на, ргЦ^ = N N ргу (О£|£) — его «эмпирическая ве-£ ¡=1

роятность» в £-м классе с N£ объектами обучающей выборки. Тогда, согласно лемме Хёфдинга, вероятность отклонения частоты представительного набора от вероятности оценивается следующим образом:

Pr

/(Nk)

РГ

(Nk)

> e}) < 2 exp(-2Nke2). (13)

Поскольку ехр(—2Ы£е2) < то при любом е >0,

N£=1

то, согласно лемме Бореля-Кантелли о достаточном условии сходимости с вероятностью единица,

,(Nk)

Щ" - prq Если в

(Nk) п_н. 0

0,£ имеется N объектов, N£1 из них содержат набор О£, то рг(О£\£) оценим значением

Pr Dqk|k

N

. В таблице приведены результаты оцен-

N£-1

ки сверху вероятности отклонения частоты представительного набора класса £ от его вероятности при различных объемах обучающих выборок N£ согласно (13). Оценки показывают, что для аппроксимации вероятностей в (9) и (11) частотами требуется достаточно большой объем обучающих выборок.

Следует отметить принципиальную важность оценки тяжести последствий разных вариантов ошибочного

Оценки вероятности отклонения частоты представительного набора Б от его вероятности при различных значениях £ и Ык

£ Объем обучающей выборки класса

100 200 500

0.05 1 0.74 0.16

0.1 0.27 0.037 10-4

0.2 6.7 • 10-4 2• 10-7 0

диагноза в медицинской практике. В математическое ожидание потерь (9), сопутствующих постановке определенного диагноза, входит матрица потерь с заданными врачом элементами Iкй, характеризующими вероятность потерь при постановке диагноза й пациенту, страдающему на самом деле заболеванием к. Если при точном решении вероятность потерь равна нулю, а при любом ошибочном решении — единице, то в алгоритме Кора применяется решающее правило (12), и риск равен ожидаемой доле ошибочных решений, т. е. вероятности ошибки идентификации.

3. Возможностная модель постановки медицинского диагноза

В работе [5] подробно рассмотрено решение задачи возможностного моделирования процесса постановки медицинского диагноза, сформулировано правило постановки диагноза, минимизирующее риск потерь. По аналогии с вероятностным моделированием, при построении возможностной модели диагностики каждый объект (пациент) характеризуется п-мерным нечетким вектором признаков х = (х1, X2,..., Хп), принимающим значения х £ X (2), где

x = fx1, x2,

xe X,

(14)

xj £ Xj — значение j-го признака (симптома) заболевания, j = 1,..., n, X = X1 xX2 x... xX", Xj — множество значений j-го признака (2), nj — количество значений j -го признака, j = 1,..., n.

В задаче диагностики требуется принять решение о принадлежности больного x к одному из M классов заболеваний. Решение о состоянии больного определяется в [5] как нечеткий элемент 5, принимающий значения на множестве {1,..., M}. Предполагая, согласно мнению врачей, что ни один из классов заболеваний не является априори более «предпочтительным», чем другие, получаем равенство априорных возможностей ф^(к) = 1, k = 1,...,M. В этом случае возможность потерь, определяющая качество правила постановки диагноза п5 х, задается в [5] как

PL(п5х) = sup mm(lM, п5х (d\x), фх|K(x|k)),

x е X, k е {1,..., M}, d е{1,..., M}

(15)

где к — нечеткий элемент, значениями которого являются номера классов (заболеваний) k £{1,...,M}; фхlK(x\k) — переходная возможность равенства х = x, когда к = k, x £ X; lkd £ [0,1] — возможность потерь при отнесении субъекта класса k к классу q,

q = 1,..., M; nS х (d\x) — возможность решения о заболевании S = d, когда х = x — наблюдающиеся у больного симптомы. Оптимальным является правило n*S х , минимизирующее возможность потерь (15):

PL(х) = min PL(х).

п5\ х

(16)

Значение РЬ(п*6 х) определяет риск потерь при оптимальном правиле, рекомендующем диагноз й = 6*(х):

Г(х) G {d g{1,..., M},

n*slx(d\x) = max : d'e{1,...,M}

тЩх

(d'\x)},

xe X.

В [6] показано, что оптимальное правило п*5 х в (16) можно получить путем решения задачи на минимум для каждого вектора значений признаков x £ X:

max min(n5lx(d\x), Pd(x)) - min , (17) Pd(x) = mM min(lkd, фх1к(х\к)), (18)

где Pd(x) — возможность потерь, сопутствующих решению о постановке диагноза 5 = d больному при наличии у него симптомов х = x, x £ X, d £{ 1,..., M}. В [6] сформулированы следующие достаточные условия оптимальности правила п*5 х . Пусть

D*(x) = {d £{1,..., M}, Pd (x) = min Pd' (x)}, x £ X.

d' (19)

Тогда в качестве решения задачи (17) можно использовать значение d* (x) любой функции, удовлетворяющей условию d*(x) £ D*(x), x £ X.

Если потери невозможны при правильной постановке диагноза lkd = 0 при d = k и возможность потерь максимальна при любой ошибочной постановке диагноза lkd = 1 при d = k, k, d = 1,...,M, то в (18)

Pd(x) = max фх lK(x\k), d = 1,..., M, x £ X и мини-

k=d

мум Pd (x) при фиксированном x достигается на тех d £ {1,..., M}, при которых фх,K(x, k) достигает максимума, а правило п*5 х, минимизирующее возможность потерь при постановке диагноза, является правилом максимальной возможности [6].

Из условий (17)-(19) следует, что для построения оптимального правила постановки диагноза d* следует восстановить распределение переходных возможностей фхlK(x\k), k = 1,...,M. В [5] рассмотрен алгоритм гранулирования пространства значений признаков заболевания, осуществляющий стохастическое моделирование переходных возможностей фхlK(x\k) на основании обучающей выборки объектов.

4. Возможностный алгоритм классификации типа Кора. Обучение и распознавание

В теории возможностей по аналогии с конструкцией и терминологией теории вероятностей [6], вероятностному пространству (X, P(X), Pr) соответствует пространство с возможностью (X, P(X), P), где X = X1 х X2 х ... х Xn (2). Обозначим pr; = pr(xi) и pi = p(xi) значения вероятности и соответственно возможности равенства х i = xi для i -го объекта, i = 1,..., n, j = 1,..., n. Упорядочив вероятно-

n

x

сти векторов значений симптомов x\, x2,... в модели (X, P(X), Pr)

prt ^ pr2 ^ ... ^ 0, prj + pr2 + ... = 1, (20)

определим их возможностную модель (X, P(X), P), в которой возможности векторов значений симптомов удовлетворяют условию

1 = Р1 > p2 > ... ^ 0. (21)

Конкретная упорядоченность в (21), содержащая в определенных местах строгие неравенства, а в остальных — равенства, определяет единственную (с точностью до эквивалентности) возможностную модель, в которой

(1 - pr; - pr2 - ... - pr^) pk = Pk+1, если prk <-2-, (22)

(1 - pr1 - pr2 - ... - prk_1) Pk > Pk+1, если prk >-2-. (23)

При выполнении условий (22), (23) возможность является максимально согласованной с вероятностью [6] и число строгих неравенств в (21) максимально. Векторы симптомов xk и xk+1 различаются по значимости, если pk > pk+1 (23), однако на практике разности вероятностей векторов значений признаков оказываются малыми и выполняется условие (22), следовательно, различие вероятностей не приводит в данном случае к различию возможностей. Для того чтобы «стохастические детали» стали «различимыми» для возможности, проведено гранулирование пространства X : векторы значений признаков x1, x2, x3, ..., удовлетворяющие условию (20), объединены в гранулы wf, wf, ... так, чтобы возможности этих гранул были строго упорядочены:

pf > pf >..., pf = p(wf). (24)

В этом случае значения признаков, объединенные в одну гранулу wf (имеющие одинаковую возможность), неразличимы с точки зрения их значимости при данном заболевании — в пределах каждой гранулы вероятности отдельных векторов x, входящих в нее, могут меняться во времени. Соответственно значения признаков принципиально «различны», если принадлежат гранулам, имеющим разные возможности.

Для создания наиболее информативных диагностических критериев заболевания в [5] рассмотрен алгоритм гранулирования, позволяющий получить разбиения f1, f2, . . . , содержащие максимальное число строго упорядоченных по значимости гранул значений признаков. Наиболее характерными признаками заболевания k являются найденные методом гранулирования нечеткие представительные наборы - гранулы значений признаков, имеющие в классе k единичную возможность, а в остальных классах — меньшие возможности. На этапе обучения возможностного (нечеткого) алгоритма Кора по обучающей выборке находятся множества {w}k, k = 1,...,M, всех нечетких представительных наборов.

Распознавание в нечетком алгоритме Кора осуществляется следующим образом. Предъявляется объект x = x1, x2, . . . , xn (14), который следует отнести к одному из M классов. Для классификации объекта x требуется не все его описание (14), а только нечеткие

представительные наборы, которыми он обладает. Пусть найдено Sk таких наборов в классе k: s = 1,...,Sk. В каждом классе k определяется нечеткий представительный набор wsk , имеющий минимальную возможность потерь (18) на множестве всех представительных наборов класса k, где в качестве фхK(x|k) используется значение возможности p(wSkk :

Pk(wsk) =min Pk(ws),

s = 1,..., Sk, Pk(ws) = 1maxM min(iqk, p(ws|q)).

Объект x относится к классу q*, в котором возможность потерь при постановке диагноза q*, минимальна: Pq, (wsq,) = minPq(wsq), q = 1, . . . ,M.

Если lqk = 0 при q = k и lqk = 1 при q = k, то в каждом классе k определяется нечеткий представительный набор wk, имеющий максимальную возможность: p(wSk k = maxp(ws|k), s = 1,...,Sk. Объект

x относится к классу q*, в котором возможность набора wsq, максимальна: p(w;q, ^*) = maxp(wsq q.

Тогда возможность P^q*^^,^ ошибки классификации объекта x с wsq, при отнесении его к классу q* будет минимальна.

5. Результаты применения вероятностного и возможностного алгоритмов Кора

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В [4] возможностные методы медицинской диагностики применялись для решения задачи диагностики острого аппендицита (ОА). Своевременное обнаружение ОА чрезвычайно важно для здоровья и жизни больного. Качество врачебной диагностики ОА и хирургические возможности достигли в настоящее время высокого уровня, однако и в данной области остаются еще некоторые проблемы [11, 12]. В [2] найдены типичные наборы признаков ОА как класса в целом, так и различных его форм посредством применения алгоритма поиска групп признаков, ранжированных по значениям их возможностей. Несмотря на то что удалось выделить типичные наборы признаков трех форм ОА — гангренозной (1-й класс), флегмонозной (2-й класс) и катаральной (3-й класс), результаты классификации этих форм ОА на практике не всегда оказываются удовлетворительными. В настоящей работе для классификации ОА и трех его форм применяются рассмотренные во 2-м и 4-м разделах вероятностный и возможностный алгоритмы Кора.

Обучающая выборка состоит из 28 объектов 1-го класса, 25 — второго и 26 — третьего. Четвертый класс — «неподтвержденный диагноз» (НД) — содержит 24 объекта обучающей выборки. Каждый объект характеризуют 8 выделенных врачами признаков-симптомов, которые могут принимать от 2 до 4 значений в ранговой шкале в зависимости от степени тяжести симптома [4].

Рассмотрим результаты применения вероятностного алгоритма Кора. На этапе обучения алгоритма следует задать минимальную длину представительного набора rmin и порог vk по частоте встречаемости представительного набора в k -м классе, k = 1, . . . , 4. В выборку для классификации входят как объекты обучающей

Рис. 1. Ошибочная классификация объекта 3-го класса вероятностным алгоритмом Кора (слева)

и безошибочная — возможностным (справа)

выборки, так и те, которые не были использованы при обучении — 11 объектов первого класса и по 12 объектов остальных классов, составляющих контрольную выборку. В результате применения вероятностного алгоритма Кора классификация больных на классы ОА (с точностью 91%) и НД (с точностью 97%) осуществляется только при определенных значениях входных параметров: гт;п = 3 и р4 = 0.9. Следует отметить, что даже при выборе оптимальных параметров наблюдаются случаи ошибочного отнесения больных ОА к классу НД. Классифицировать три формы ОА с помощью вероятностного алгоритма Кора не представляется возможным ни при каких значениях эмпирических параметров.

На этапе обучения возможностного алгоритма Кора найдены нечеткие представительные наборы каждого из четырех классов. На рис. 1 приведены результаты классификации одного из объектов 3-го класса «катаральный аппендицит» контрольной выборки вероятностным (а) и возможностным (б) алгоритмами Кора. По горизонтали отмечены 8 признаков (симптомов) объектов, по вертикали — значения выделенных признаков. На рис. 1, а черным отмечены значения признаков, входящие в представительный набор, по которому принято решение о диагнозе. На рис. 1, б все выделенные значения признаков составляют гранулу максимальной возможности третьего класса. Серым отмечены значения признаков объекта, черным — остальные значения признаков, входящие в гранулу. Точность классификации первого класса возможностным алгоритмом составляет 85%. Ранее было показано, что второй и третий классы (флегмонозный и катаральный аппендицит соответственно) не удалось классифицировать с помощью вероятностного алгоритма Кора. Эти классы имеют много общих симптомов, и в результате обучения возможностного алгоритма получено, что их нечеткие представительные похожи, но отличаются от нечетких представительных наборов остальных классов. Поэтому было принято решение объединить 2-й и 3-й классы при диагностике ОА.

На рис. 2 представлены результаты диагностики 2-го и 3-го классов ОА вероятностным алгоритмом

0

1

к ч и о ю я

а

о

и а Я" н

аё

ЁГ к

90 80 70 60 50 40 30 20 10 О

вер. '•1шП = 3

Ш вер. г^ц = 3, У4 = 0.9 ПШ возм.

Ошибочное Ошибочное отнесение отнесение к 1 кл. к 4 кл.

Отказ

Рис. 2. Результаты диагностики 2-го и 3-го классов ОА вероятностным и возможностным алгоритмами Кора

Кора (вер.) при различных параметрах обучения и возможностным алгоритмом (возм.). Важно заметить, что у возможностного алгоритма нет ошибочных отнесений объектов второго и третьего классов к первому, который является самым опасным проявлением ОА, и ни один больной ОА не отнесен возможностным алгоритмом к группе НД. Такой результат является принципиально важным, поскольку в медицинской практике чрезвычайно опасно отнести пациента, страдающего острым аппендицитом, к группе НД, т. е. исключить у него ОА.

Заключение

В результате проведенных исследований построена вероятностная модель медицинского объекта и вероятностная модель диагностики заболеваний. Разработан алгоритм диагностики заболеваний типа Кора, включающий алгоритм обучения системы компьютерной диагностики по обучающей выборке объектов и алгоритм распознавания — постановку предварительного диагноза пациенту на основании решающего правила,

минимизирующего вероятность потерь, сопутствующих ошибочной классификации.

Построена возможностная модель медицинского объекта, характеризующая нечеткую связь между зарегистрированными у пациента симптомами заболевания и его реальным состоянием (диагнозом), а также возможностная модель диагностики заболеваний. Разработан возможностный (нечеткий) алгоритм Кора. На этапе обучения алгоритма определяются нечеткие представительные наборы значений признаков каждого заболевания. Решающее правило минимизирует возможность сопутствующих постановке данного диагноза потерь, оценивая последствия для здоровья больного разных вариантов ошибочного диагноза.

Результаты вычислительного эксперимента показывают, что применение возможностного алгоритма Кора позволяет провести более детальную классификацию разновидностей острого аппендицита. В вероятностном алгоритме используются такие входные параметры, как пороги по частоте встречаемости представительных наборов, пороговое значение, в пределах которого признаки считаются «неразличимыми», длина представительного набора, и результаты классификации сильно различаются в зависимости от значений этих параметров. Наилучшие результаты диагностики ОА вероятностным алгоритмом Кора получены при длине представительного набора, равного трем признакам (гтт = 3), т.е. для оптимальной классификации используются всего три признака, в то время как при постановке диагноза в возможностном алгоритме учитываются значения всех восьми признаков. Таким образом, в результате сравнения вероятностного алгоритма Кора и его нечеткого аналога выявлены и обоснованы теоретические и

практические преимущества нечеткого алгоритма при постановке диагноза компьютерной системой.

Работа выполнена при финансовой поддержке РФФИ (гранты 11-07-00338-а, 14-07-00409-а).

Список литературы

1. Котов Ю.Б. Новые математические подходы к задачам медицинской диагностики. М., 2011.

2. Газарян В.А., Иваницкая Н.В., Пытьев Ю.П., Шаховская А.К. // Вестн. Моск. ун-та. Физ. Астрон. 2003. M 2. С. 12.

3. Газарян В.А., Илюшин В.Л., Пытьев Ю.П., Шаховская А.К. // Вестн. Моск. ун-та. Физ. Астрон. 200S. M 4. С. 3.

4. Газарян В.А., Иваницкая Н.В., Пытьев Ю.П., Шаховская А.К. // Вестн. Моск. ун-та. Физ. Астрон. 200б. M б. С. 1S.

5. Газарян В.А., Нагорный Ю.М., Пытьев Ю.П. Шаховская А.К. // Интеллектуальные системы. 2008. 12, N° 1-4. С. 6S.

6. Пытьев Ю.П. Возможность как альтернатива вероятности. М., 2007.

7. Dempster A.P. // Intern. J. of Approximate Reasoning. 2008. 48. P. 3б5.

8. Dubois D., Prade H. // Ann. of Math. and Artifical Intelligence. 2001. 32. P. 35.

9. Газарян В.А., Матвеева Т.В., Чехонина Ю.Г., Шаховская А.К. // Интеллектуальные системы. 2010. 14. M 1-4. С. 107.

10. Журавлев Ю.И. // Журн. вычисл. матем. и матем. физ. 2002. 42, M 9. С. 1425.

11. Doria A.S. // Pediatr. Radiol. 2009. 39, N 2. P. 144.

12. Williams R.F., Bíakeíy M.L., Fischer P.E. et al. // J. Am. Coll. Surg. 2009. 208, N S. P. 819.

A comparative analysis of the efficiency of probabilistic and possibilistic algorithms for medical diagnostics

Yu.P. Pyt'ev1, V. A. Gazaryan12 a, P. B. Rosnitskiy3

1 Department of Computer Methods of Physics, Faculty of Physics, M. V. Lomonosov Moscow State University, Moscow 119991, Russia.

2Department «Theory of Probability and Mathematical Statistics», Faculty of Applied Mathematics and Information Technologies, Financial University under the Government of the Russian Federation, Moscow 125993, Russia.

3 Department of Acoustics, Faculty of Physics, M. V. Lomonosov Moscow State University,

Moscow 119991, Russia.

E-mail: a [email protected].

Mathematical methods for pattern recognition and algorithms for the classification of diseases based on them are widely used to solve problems of medical diagnostics [1]. In [2], in order to classify functional disorders of the gastrointestinal tract, an algebraic model of the Kora algorithm was applied. In [3-5] it was shown that to solve many problems of medical diagnostics possibilistic methods for making a medical diagnosis are much more efficient. The present work considers a comparative analysis of probabilistic and possibilistic models of diagnostics, as well as Kora algorithms and the results of their application to solving problems of acute appendicitis diagnostics.

Keywords: pattern recognition, identification problem, probabilistic model of diagnostics, possibilistic model of diagnostics, granulation, Kora classification algorithm, acute appendicitis. PACS: 02.70.-с, 02.50.Le. Received 23 January 2014.

English version: Moscow University Physics Bulletin 3(2014). Сведения об авторах

1. Пытьев Юрий Петрович — доктор физ.-мат. наук, зав. кафедрой, профессор; тел.: (495) 939-13-32; e-mail: [email protected].

2. Газарян Варвара Арамовна — канд. физ.-мат. наук, мл. науч. сотрудник; тел.: (495) 939-41-78; e-mail: [email protected].

3. Росницкий Павел Борисович — студент; e-mail: [email protected].

Текст научной работы на тему «Сравнительный анализ эффективности вероятностного и возможностного алгоритмов медицинской диагностики»