Научная статья на тему 'Интеллектуальный анализ медицинской информации для принятия решений'

Интеллектуальный анализ медицинской информации для принятия решений Текст научной статьи по специальности «Математика»

CC BY
187
67
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ANALYSIS TO MEDICAL INFORMATION

Аннотация научной статьи по математике, автор научной работы — Афанасьева С. М., Токарев В. Л.

Problems of the analysis to medical information for decision-making are considered. The problems to categorizations, diagnostics, forecasting and problems of the description available data, finding in them dependencies: identifications, observations and clusterizations, as well as problems of the data summarization are considered within the framework of this subject.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Intellectual Analysis of Medical Information for Decision-Making

Problems of the analysis to medical information for decision-making are considered. The problems to categorizations, diagnostics, forecasting and problems of the description available data, finding in them dependencies: identifications, observations and clusterizations, as well as problems of the data summarization are considered within the framework of this subject.

Текст научной работы на тему «Интеллектуальный анализ медицинской информации для принятия решений»

Статья

ях не существует Na+ (или К+), гидратированного обособленно от К+ (или Na+). Такое распределение H+ в ФБ III и IV ведет к увеличению Е в области высоких T, когда возможность диффундировать получают H+ от гидратирующих катионы ионов гидроксо-ния. Несмотря на разный состав и pH при T°, близкой к Т° теплокровных организмов, Е для всех ФБ в пределах погрешности расчета равны между собой (при 37 0С (310°K), 75±10 кДж/моль). Полученная величина согласуются с энергией активации обмена Na+ и К+ в эритроцитах (50-90 кДж/моль, Т° = 297-312°K).

Заключение. Предложенный электрохимический подход позволяют оценить параметры САИВ, на которые влияют сопутствующие ионы (в частности, Na+ и К+). Моделирование внутри-и внеклеточного состава Na+, К+ и pH позволяет предположить, что некоторые параметры САИВ вне и внутри клетки одинаковы.

Литература

1. Бейтс Р. Определение pH.- Л.: Химия, 1972.- 398 с.

2. Герасимов И. Г. // ВНМТ.- 1999.- Т. 6, № 1.- С. 143-145.

3. Герасимов И. Г. // ВНМТ.- 1999.- Т. 6, № 3-4.- С. 12-15.

4. Герасимов И. Г. // ВНМТ.- 2000.- Т. 7, № 2.- С. 26-28.

5. КузнецоваЕ. М. // Ж. физ. химии.- 1999.- № 12.- С. 2280.

6. Термодинамические характеристики неводных растворов электролитов: Справочник.- Л.: Химия, 1984.- 304 с.

7. Wang Z. H. et al. // Cytometry.1990.- № 5.- P. 617-623.

8. Hannan S. F., Wiggins P. M. // Biochim. Biophys. Acta.-1976.- Vol. 428, № 1.- P. 205-222.

9. Griffith J. K. et al. // Brain. Res.- 1992.- № 1.- P. 1-7.

10. ПевзнерЛ. Основы биоэнергетики .-М.: Мир, 1977.-310 с.

11. Веренинов А. А. Транспорт ионов через клеточную мембрану.- Л.: Наука, 1978.- 286 с.

12. Семиохин И. А. и др. Кинетика гомогенных химических реакций.- М.: Изд-во МГУ, 1986.- 232 с.

13. Веренинов А. А., Виноградова Т. А.Механизмы проницаемости, возбуждения и повреждения клетки.- Л.: Наука, 1969.-С. 182-206.

14. Волошина О. С. и др. // Ж. физ. химии.- 2000.- Т. 74, № 6.- С. 1099-1102.

15. Измайлов Н. А. Электрохимия растворов.- М.: Химия, 1876.- 488 с.

16. Герасимов И. Г., Самохина Е. В. Структура и свойства органических соединений.- Донецк, 1999.- Т. 2.- С. 155-158.

УДК 6164 659.2; 001.8

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ МЕДИЦИНСКОЙ ИНФОРМАЦИИ ДЛЯ ПРИНЯТИЯ РЕШЕНИЙ

С.М. АФАНАСЬЕВА, В.Л. ТОКАРЕВ*

Сбор, обработка медицинской информации и на этой основе анализ, затем диагностика, прогнозирование, выбор оптимального пути лечения или плана профилактических мероприятий имеет цель — принятие решения. В статье предлагается в основу интеллектуального анализа медицинских данных положить методы knowledge discovery in databases (KDD). Можно выделить два типа задач, которые решаются с разной эффективностью разными методами KDD (хотя реальные задачи исследования данных могут совмещать в себе оба типа). Первый класс задач состоит в нахождении и построении из данных Х различных моделей Мх(уД которые могли бы быть использованы для прогноза и принятия решения в будущем, при встрече ситуации ^j, ^е¥, отсутствовавшей в данных при выводе модели. При этом требуется, чтобы модель работала наиболее точно и была статистически значима и оправдана. В задачах второго типа основным является понимание сути зависимостей в данных, взаимного влияния факторов {z}, т.е. на построении эмпирических моделей М2(^)процессов, и здесь ключевой момент - это легкость, открытость строимых моделей для восприятия человеком. В этом случае важно, чтобы система хорошо предсказывала, но нам важно понять взаимные влияния факторов. Возможно, обнаруженные закономерности у=М2(^), 4je^ будут специфической чертой именно конкретных исследуемых данных и больше нигде

не встретятся. Хотелось бы подчеркнуть, что это разные типы задач, и потому решаться они могут разными средствами. Нейронные сети нередко хорошо решают задачи первого типа, например, задачи прогноза (в условиях, близких условиям обучения), но не могут помочь в решении задач второго типа. В результате обучения таких систем получается нейронная сеть, где полученные знания автоматически фиксируются в виде весов связей между структурно организованными нейронами. Общее число нейронов может составлять много сотен или тысяч. Такая система недоступна восприятию и пониманию человеком.

Обратимся к задаче построения моделей. Ее можно разбить на два важных подтипа. Во-первых, это задачи классификации. Имеются какие-то записи, или описания объектов <XxLxY> (они могут быть заданы в разных формах), и о каждом из них известно, что он принадлежит к некоторому классу из фиксированного конечного множества классов. Необходимо выработать правило или набор правил, в соответствии с которыми мы могли бы отнести описание любого нового объекта к одному из этих классов.

F(t) n п (1)

<Wx7 > ПТ) >{[w] >Уі,і = 1,...,n}; W = UW]; Y = UУі.

і=1 і=1

Здесь F(t) - процедура классификации. То есть, такую задачу можно сформулировать следующим образом. Имеется обучающая выборка, содержащая N точек в признаковом пространстве WxY. Каждая точка представляется значением n-мерного вектора Wj, каждый компонент aji которого может принимать одно из mi дискретных значений (как количественных, так и качественных), и одним из K значений yk^Y. Таким образом, все пространство WxY имеет размерность

M = K + П mf,

і=1

то есть, это задача классификации с К пересекающимися классами. Каждый отдельный признак в этом пространстве может принимать значения из конечного множества элементов. Требуется построить такую классификацию пространства WxY на К пересекающихся классов, которая обеспечит максимальное значение функционала:

K mk , (2)

J = X X hk (wj); о <hk (Wj) < 1, k=1 j

где hk(Wj) - функция принадлежности вектора Wj k-му классу; mk - число векторов Wj с ненулевой hk(Wj).

В результате получим базу знаний вида

mk (3)

U Wj > Ук, k = 1,...,K j=1

Все значения Wj (термы лингвистической переменной W) в базе знаний (3) представляются как нечеткие множества, заданные функциями принадлежности. Нечеткая база знаний (3) может трактоваться как некоторое разбиение пространства влияющих факторов на подобласти с размытыми границами, в каждой из которых функция отклика принимает значение, заданное соответствующим нечетким множеством. Правило в базе знаний представляет собой «информационный сгусток», отражающий одну из особенностей зависимости «входы - выход». Такие «сгустки насыщенной информации» могут рассматриваться как аналог вербального кодирования, которое, как установили психологи, происходит в человеческом мозге при обучении.

Например, классическая задача такого типа - это медицинская диагностика [1]. Пусть у нас есть описание пациентов (наших объектов) <W, Y> - данные каких-либо медицинских тестов, анкетные данные, данные анализов и т.д., и заранее известные классы Wj > yk, где W - наборы данных и yk є Y - диагнозы болезней. Скажем, мы точно знаем, что некоторые пациенты больны диабетом, а другие не больны. Затем мы собираем данные тех же самых медицинских анализов jgj для нового пациента и

ставим задачу, как на основе анализов распознать: болен ли он диабетом или нет? Эту задачу решаем, используя полученную модель Wj >yk, и правило логического вывода modus ponens:

k ’ J

y,.

yh eY,Wj

С.М. Афанасьева, В. Л. Токарев

Другой подтип составляют задачи прогноза какого-то параметра. Это может быть, например, задача прогноза температуры отдельного больного или расходов и доходов клиники. Именно от этого прогноза зависит наше решение о продолжении или смене медикаментозного лечения, или покупке нового оборудования. И во многих других областях исключительно важно предсказывать именно значения. Такую задачу можно сформулировать в виде:

{к,Ук,к = U-,N Я(И) >ßk+L = Mp(Ук,xk,&k)L-!’vkeK

где N - имеющаяся выборка данных с предысторией процесса {xk>yk}; L - период упреждения; Мр(ук,Хк) - прогнозирующая модель{xk, yk, k=N, N-1,_,1}, построенная на основе анализа предыстории; A=[1,...,N] - интервал наблюдения в дискретном времени; ^(а) - процедура построения прогнозирующей модели с допустимой ошибкой прогноза а.

Причем, при прогнозировании переменной yk+L, принимающей дискретные значения, модель определяется из условия:

Г p ) , ’ (5)

Mp(xk,ak) = arg max|-----I, VL eft-L]

F ^(a)v p + q)

где р - число прогнозов, подтвержденных фактическими данными, q - число прогнозов, не подтвержденных фактическими данными. При прогнозировании переменной yk+L, принимающей непрерывные значения, модель определяется из условия:

■ (6)

Mp (xk,&k) = arg min max y ^(a)^e^

y+L - yk +L

yk+L

VL e[1,...L']

Большинство из существующих сейчас коммерческих систем KDD решают главным образом задачи классификации. Но такая ситуация сложилась не потому, что задач классификации больше, чем задач прогноза непрерывных значений, а скорее потому, что методы классификации гораздо лучше изучены и могут быть проще реализуемы, чем методы прогноза.

Рассмотрим теперь второй тип задач - задачи описания имеющихся данных, обнаружения в них зависимостей в целях их осмысления человеком. Этот класс задач включает множество задач.

Во-первых, задачи нахождения функциональных связей между различными показателями и переменными в интерпретируемой человеком форме. Обычно, когда говорят о функциональной зависимости, имеют в виду зависимости между непрерывными числовыми переменными. Но в данном случае рассматриваются в основном категориальные (нечисловые параметры, скажем, диагнозы болезней, которые могут быть закодированы числами - кодами диагнозов) переменные.

g : Z > Y; h: Z > Z, g : Z > Y; h : Z > Z, зде сь g и h - операторы, отображающие функциональные связи между переменными Z и Y, ZieZ и ZjeZ, Zi^Zj; Z - множество входных ,Y - множество выходных сигналов. Такие закономерности позволяют построить модели вида:

M 3 : ßk = g (zk )• (7)

устранив зависимые входные переменные, используя найденные зависимости h(zk)■

Построение такой модели составляет задачу идентификации, критерием качества решения которой может быть функционал:

N (8)

J(g) = 2p(k, g) > min; <p(k, g) = p(, g(zk)),’ k=1

где p(yk ßk) - расстояние между векторами yk, в метрике p(), заданной в какой-либо качественной шкале (порядка, интервалов, отношений, разностей...).

Однако не всегда удается с помощью модели вида (7) прогнозировать поведение (функционирование) системы с требуемой точностью при изменении некоторых входных воздействий. Основной причиной этого является не учет состояния системы.

По определению состояние управляемой системы - это множество значений характеристик системы в данный момент времени. Математическое состояние системы есть набор таких переменных Xk, которые определяют положение системы в пространстве в рассматриваемый момент времени. В самом общем виде модель функционирования системы может быть представлена уравнением состояния и уравнения наблюдения системы:

f : KxZxX >X;

g : KxZxX>Y. (9)

Здесь f и g - операторы, отображающие функциональные связи между переменными R,Z,X и Y; К- множество моментов дискретного времени, в которые наблюдается объект; Z - множество входных сигналов; Y - множество выходных сигналов; Х -множество возможных состояний системы. При этом всякое состояние системы XkeX характеризуется в каждый момент

времени keK набором переменных ^ (i=1,_____,n), изменяющихся

под влиянием внешних воздействий и внутренних возмущений. В [2] рассмотрен способ управления, когда объект неформализован.

Математическое состояние системы хотя и полностью определяют положение системы в некотором пространстве в рассматриваемый момент времени, но не позволяют установить, правильно ли функционирует система. Для того чтобы вынести такое суждение, необходимо сопоставить каждую переменную состояния системы с некоторым конкретным значением выходной переменной у^ характеризующий частный показатель качества системы. Однако такое сопоставление не всегда возможно, так как переменные состояния xk в общем случае являются абстрактными переменными, и их измерение часто не осуществимо. В отличие от них выходные переменные уk можно наблюдать и оценивать, т.к. они являются физическими величинами.

Задача нахождения функциональных связей между различными показателями и переменными с учетом принятых обозначений заключается в определении операторов f и g по измерениям Zk и уk (k=1,_,N). Такая задача в теории систем известна как задача идентификации операторов f и g■ Решение этой задачи позволит построить модель функционирования системы в виде уравнений состояния системы и наблюдения:

M 4 : ß = f zK } ке[% k ] ßk = g(ß, zk )■

Для решения этой используются методы идентификации при условии, что система наблюдаема [3].

В качестве критерия качества решения этой задачи можно принять:

N , (10)

J (f, g) = 2 P(k, f, g) > min; p(k, f, g) = p(, g( ßk, zk)) k=1

где p(yk ßk) - расстояние между векторами yk yk в метрике p(.), заданной в какой-либо качественной шкале.

С математической точки зрения определение любого из состояний системы возможно только в том случае, если по результатам измерения Уk при известных значениях входных переменных Zk может быть получена оценка любой из переменных состояния xk. Такая задача в теории систем известна как задача наблюдения, которая состоит в том, чтобы на основе известных входного процесса Zk и выходного процесса уk определить неизвестные состояния системы Xk, где Zk, Уk и Xk - вектор-функции. Формально эта задача сводится к решению относительно xk уравнения

М4 [k, ß, zk ,К]= yßk. (11)

где yßk _ некоторая реализация выходного процесса, доступная для регистрации.

Система считается наблюдаемой в состоянии Xk на множестве моментов времени К, при входном воздействии Zk и отсутствии возмущений, если уравнение (8) имеет единственное решение

ß = xk e X. Если утверждение справедливо для любого XkeX,

то система считается полностью наблюдаемой. Необходимым и достаточным условием полной наблюдаемости является существование отображения g-1 : Y(z) > X (z), обратного уравнению наблюдения. Всякому изменению вектора состояния системы Xk соответствует изменение вектора выхода уk при фиксированном векторе входа Zk. Поэтому выходные переменные уk можно использовать в качестве признаков текущего состояния системы: лабораторные данные больного позволяют оценить текущее состояние его здоровья. Полная наблюдаемость достигается выбором контрольных точек, где идет съем информации.

J (L)

N

- 2p(ß) > min; k=1

P(ß ) = P(k, g (ß, zk ))

(12)

Во-вторых, к рассматриваемому типу относятся задачи, обобщенно называемые задачами кластеризации. Пусть мы имеем какой-то набор описаний объектов Хх^хУ. Зачастую эти

С.М. Афанасьева, В. Л. Токарев

объекты не составляют некоторой единой массы, а естественным образом разбиваются на какие-то группы. Например, группа пациентов, страдающих легочными заболеваниями, дерматитами или расстройством опорно-двигательной системы. И нам хотелось бы выделить эти естественные группы, или кластеры, на основе имеющейся в базе данных информации (результатов анализов). В качестве классифицируемого множества в этом случае рассматривается множество Т=Хх£ с заданной вероятностной мерой P(A) , (АеТ) . Учитывая разнотипность данных ^еТ, отметим, что речь идет только о нечеткой (размытой) классификации. Нечеткой классификацией множества Хх£ на r классов называется r-мерная вектор-функция Н(щ) =(hi(y) ,..., hr(w)) (hi(w) - функция принадлежности к i-му классу ), удовлетворяющая условиям: hi(y) - измеримы по мере P и для любого значение Н(щ) удовлетворяет условию нормировки

Zh* (w) = 1, 0 < h* (w) < 1. i=1

Можно принять, что критерий качества классификации зависит от вероятностей и моментов классов. Для того , чтобы рассматривать моменты классов , вводится в рассмотрение вектор -функция z(w) (z: Т ^ Z =Rk). Обычно пространство Z называют спрямляющим, так как в нем все рассматриваемые моменты являются первыми. Можно предположить, что

1) ЭЛ > 0: P(b(w)\ > Л) = 0,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2)Vc е Rk и Vd е R1 выполняется P([c,b(w) + d]) = 0 Ненормированные моменты и вероятности классов можем определить в виде:

Pi = Jp(hi Mi = J b(w>(( (w)))P(w), * =

Т Т

Здесь <p(h) - монотонно возрастающая функция, отображающая отрезок [0,1] на себя, причем p(0) =0 и p(1) =1. (Выбор функции p(h) дает возможность изменять тип размытости оптимальной классификации). Обозначим ц(Н) = (p1,M1,..., pr, Мг) - r (к+1)-мерный вектор, составленный из вероятностей и ненормированных моментов классов. Критерий качества классификации: р(Н)= ф(И)) (10)

где ф - выпуклая функция от r (k +1)-мерного вектора ц(Н). Вполне может быть, что полученные в результате решения этой задачи кластеры имеют четкий медицинский смысл, и было бы интересно понять, что означает такое группирование точек и с чем оно связано. Знание разбиения всего множества пациентов на некоторые характерные группы может помочь правильно организовать работу медицинского учреждения.

Третьей задачей, относящейся к описанию данных, является нахождение исключений, записей, которые резко отличаются чем-либо от основного множества записей (группы больных).

<T Y > 3(г) >w'gT,y'g Y. (11)

Здесь w ' - исключительные ситуации; у' - исключительная

запись о следствии; 3 (т) - правило нахождения и идентификации W' У' во множестве записей <Т, Y>. Задача заключается в определении правила 3 (т).

Знание исключений может быть использовано двояким образом. Эти записи образуют собой случайный сбой, например, ошибки операторов, вводивших данные в компьютер. Характерный случай, если оператор, ошибаясь, ставит десятичную точку не в том месте; такая ошибка сразу дает резкий отброс на порядок. Подобную случайную составляющую имеет смысл исключить из исследований, т.к. большинство методов, о которых пойдет речь, очень чувствительно к наличию выбросов - резко отличающихся точек, нетипичных случаев. Отдельные исключительные записи могут представлять интерес для исследования, могут указывать на редкие, но важные аномальные заболевания. Даже сама идентификация этих записей, не говоря об их анализе и детальном рассмотрении, может оказаться очень полезной для понимания сущности изучаемых объектов или явления.

Наконец, последняя, четвертая, разновидность задач, включаемая в рассматриваемый класс задач интеллектуального анализа данных, определяется английским термином data

summarization, что можно передать как краткая итоговая характеристика данных. Что под этим имеется в виду? Скажем, если имеющийся у нас массив данных подчиняется некоторым жестким ограничениям на значения входящих в него параметров, возможно весьма сложного характера, и мы хотели бы выявить эти ограничения.

Vу eY ——^фу (у) < фу (у) <фу (у); ÿ/et. (12)

Здесь фу (у) иф (у) - минимальное и максимальное значение в некоторой количественной метрике фу ситуации у, соответственно; h - правило отыскания таких ситуаций. Задача определения правила h является задачей data summarization.

Мы изучаем выборку данных по пациентам не старше тридцати лет, перенесшим инфаркт миокарда. Если мы вдруг обнаружим, что все пациенты, описанные в этой выборке, либо курят более 5 пачек сигарет в день, либо имеют вес не ниже 95 кг, это может быть очень важно для понимания наших данных, это ценное новое знание. Data summarization - это нахождение каких-либо фактов, которые верны для всех или почти всех записей в выборке данных, но которые редко встречались бы во всем многообразии записей такого же формата и характеризовались бы теми же распределениями значений полей. Если возьмем для сравнения информацию по всем пациентам, то процент либо сильно курящих, либо чрезмерно тучных людей будет невелик. Это как бы неявная задача классификации, но фактически задан только один класс. И они классифицируются путем сравнения с мыслимым множеством возможных записей.

Перечислим наиболее важные методы: кластеризация; ассоциация; предметно-ориентированные аналитические системы; статистические методы; нейронные сети; системы рассуждений на основе аналогичных случаев; деревья решений (decision trees); генетические алгоритмы; нелинейные регрессионные методы; эволюционное программирование; синтез лингвистических моделей. В [4] показано, что для этих задач самым эффективным оказывается метод синтеза лингвистических моделей. Системы интеллектуального анализа данных находятся в стадии становления. Однако гигантский объем накопленных знаний, сам их характер и естественным образом сложившаяся практика диагностики сложных случаев позволяют надеяться, что труд кибернетиков, занявшихся этой проблемой, не пропадет даром.

Литература

1. Афанасьева СМ. и др. // ВНМТ.- 2002.- № 2.- С. 19.

2. Афанасьева СМ. // XVIII научная сессия, посвященная дню радио.- Тула, 2001.- 96 с.

3. Афанасьева СМ. Токарев В.Л. // Математические методы в технике и технологиях - ММТТ-14: Сб.трудов Междун. науч. конф.- Т.2. Секция 2,5.- Смоленск, 2001.- 230 с.

4. Токарев В.Л. Основы теории обеспечения рациональности решений.

INTELLECTUAL ANALYSIS OF MEDICAL INFORMATION FOR DECISION-MAKING.

S.M. AFANASIEVA, V.L. TOKAREV Summary

Problems of the analysis to medical information for decisionmaking are considered. The problems to categorizations, diagnostics, forecasting and problems of the description available data, finding in them dependencies: identifications, observations and clusterizations, as well as problems of the data summarization are considered within the framework of this subject.

Key words: analysis to medical information

i Надоели баннеры? Вы всегда можете отключить рекламу.