Научная статья на тему 'Численный метод прогнозирования исхода заболевания'

Численный метод прогнозирования исхода заболевания Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
251
77
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Цыганкова И. А.

Предлагается новый подход к решению задачи прогнозирования исхода заболевания на основе обработки многомерных разнотипных массивов медико биологической информации. Предлагаемый подход позволяет с достаточной для медицинской практики точностью исключить потерю значимой информации и выявить слабые связи в рассматриваемых информационных массивах.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Численный метод прогнозирования исхода заболевания»

ИТ и диагностика

ШР

W4UM

kJH

и информационные

технологии

И.А.ЦЫГАНКОВА,

к.т.н., старший научный сотрудник, Санкт-Петербургский институт информатики и автоматизации РАН, г.Санкт-Петербург

ЧИСЛЕННЫЙ МЕТОД ПРОГНОЗИРОВАНИЯ ИСХОДА ЗАБОЛЕВАНИЯ

Предлагается новый подход к решению задачи прогнозирования исхода заболевания на основе обработки многомерных разнотипных массивов медикобиологической информации. Предлагаемый подход позволяет с достаточной для медицинской практики точностью исключить потерю значимой информации и выявить слабые связи в рассматриваемых информационных массивах.

Типичной задачей, возникающей перед медиками в процессе лечения, является выбор тактики лечения с учетом медико-биологических и социальных особенностей пациента и предсказание исхода заболевания. Очевидно, что решение этой задачи может быть получено в результате анализа опыта лечения большого числа пациентов. Этот опыт в концентрированном виде сосредоточен в массивах информации, которые в огромных объемах накоплены медицинскими учреждениями.

Анализ и обработка медико-биологических данных традиционно осуществляются статистическими методами с помощью известных статистических пакетов: SAS, STATISTICA, SPSS, STATGRAPICS и т.п. Серьезным недостатком статистических пакетов является то, что в большинстве случаев они опираются на статистическую парадигму, основанную на усредненных характеристиках выборки. Эти характеристики при исследовании реальных медико-биологических процессов часто являются фиктивными величинами.

В последнее время как у нас, так и за рубежом интенсивно развиваются технологии, которые позволяют извлекать из хранилищ данных большого объема новые знания и использовать их для принятия решений. Извлечение новых знаний из эмпирических данных является на сегодняшний день актуальной проблемой, успешное решение которой определяется технологией обработки данных, которая должна сочетать как классичес-

Работа выполнена при поддержке РФФИ (проект № 06-07-89184)

© И.А.Цыганкова, 2007 г.

ИТ и диагностика

www.idmz.ru 2 00 7, №2

■■■■

W-ЩЯЯ

кие статистические методы [1-3], так и эвристические методы анализа данных [4-6].

В настоящей работе предлагается метод прогнозирования результатов лечения больных псориазом, основанный на обработке многомерных разнотипных массивов медико-биологической информации. Исходная информация о выборке больных имеет вид числовых таблиц (матриц), состоящих из N строк и n столбцов

i(x(i) Х<1> Х<1> 7(1> 7(1> 7(1> ■ V(1> V(1> V(1> Н

И ^ »Л2 >**2 »•••»*»/ f У1 >У2 >'">Уs н I

(i = 1,2,...,N.■ m+l+s = n). Строки отражают информацию об изучаемых больных, а столбцы - наиболее важные свойства (параметры) этих больных. Вся совокупность параметров i-го больного делится на входные и выходные параметры. Первоначальный состав этих параметров задается неформализованным путем, на основе опыта и интуиции специалиста. Входными па-

раметрами Ut = (Х^,Х^,. ,хт',7У',7У',... ,7<Ч) являются индивидуальные сведения о больном и его анамнезе, его сопутствующие заболевания, клинико-функциональные, метаболические и иммунологические показатели в начале болезни, тактика лечения. Выходными (результиру-

ющими) параметрами Y = (yl

<i ) „(i)

V2

У, ) яв-

ляются параметры исхода заболевания, к которым относятся начало и продолжительность периода ремиссии, наличие (или отсутствие) типичных остаточных поражений на коже, период активного лечения (продолжительность пребывания в стационаре). Входные параметры Ut являются разнотипными: часть параметров Xt = (x(1i) ,х(2‘>,х^>) измеряется в количественных шкалах, а другая часть Zt = (7(1°,7(2°,...,7(li>) - в качественных (номинальных и порядковых) шкалах. Совокупность выходных параметров Yt измеряется в количественных шкалах. Входные параметры в различной степени влияют на выходные параметры, но какие из них оказывают наиболее существенное влияние на исход заболевания и какой моделью описываются зависимости их влияния на результирующие параметры, неизвестно. В такой постановке задачи используется принцип «черно-

го ящика», то есть физиологические процессы больного не моделируются.

Целью работы является выбор тактики лечения с учетом индивидуальных особенностей больного и прогнозирование исхода его заболевания.

Для достижения поставленной цели необходимо решить следующие задачи:

♦ разработать метод поиска связей между входными и выходными параметрами больных в массивах многомерной разнотипной медикобиологической информации;

♦ разработать численный метод и алгоритм прогнозирования результатов лечения пациента.

Перед началом решения задач проводится подготовка данных, которая включает в себя структуризацию данных, выявление и устранение аномальных и пропущенных значений, кодировку и нормировку данных. Нормировке подвергаются все количественные входные и выходные параметры больных.

Качественные входные параметры больных Zt = (7<1i> ,7(2‘>,7(1‘> ), к которым относятся пол больного, клиническая форма и стадия заболевания, сезонность заболевания и пр., представляют собой величины, определяемые в номинальных и порядковых шкалах. Все качественные параметры предварительно сводятся к набору бинарных величин, для чего те качественные параметры, которые имеют число градаций больше двух, редуцируются в набор бинарных параметров. Обозначим вектор качественных бинарных параметров как Gt = (g<1° ,g<2‘>,g<v‘>). Все множество больных разбивается на подмножества (группы) в соответствии с наличием или отсутствием бинарных параметров. Количество таких групп равно C = qn, где П - общее количество бинарных (качественных) параметров, q = 3 - количество вариантов (альтернатив) объединения больных по каждому параметру gj (j = 1,п). Возможны следующие варианты объединения больных:

ИТ и диагностика

ШР

W4UM

kJH

и информационные

технологии

♦ в группу объединяются больные, для которых gj = 0 ;

♦ в группу объединяются больные, для которых gj = 1;

♦ в группу объединяются больные вне зависимости от значения параметра gj .

Очевидно, что один и тот же больной может оказаться в нескольких группах, и группы имеют различное количество членов. В дальнейшем рассматриваются только информационно значимые группы, в которых количество членов не меньше общего числа входных параметров исследуемой совокупности больных.

Будем рассматривать каждого больного из исследуемой совокупности как вектор многомерного пространства Rp количественных параметра (xi,x2,... ,xm,y). Здесь (xi,x2,... ,хт) -входные параметры больного, у - один из результирующих параметров, характеризующий исход заболевания. Тогда p = т +1 - общее количество параметров многомерного пространства. В этом случае задача определения искомого параметра у по известным входным пара-

метрам X = (x1,x2,.,xm) сводится к задаче интерполяции функции у = f(X), заданной в узлах p -мерной нерегулярной сетки. Так как гладкость функции у = f(X) неизвестна, для ее интерполяции во всей области определения используем функцию:

yr(d(X,W), (1)

где d - мера близости между точками (больными), W = (w1,w2,...,wm) - вектор весовых коэффициентов входных параметров. В качестве меры близости между i-ым и l -ым больными будем рассматривать «взвешенное» евклидово расстояние:

т I------------

di=£V wi(xJI- xji)2 (2)

j=i

Подбор весовых коэффициентов будем осуществлять, используя метод случайного поиска. Чтобы обеспечить необходимую точность вычисления прогнозируемого параметра, введем критерий, который минимизирует погрешность прогноза:

■А I I

Q(w) = N-£ у(,) -y((,)(d)\ ^ min (3)

8 i=1

Здесь |у-yr(d) - разность между наблюдаемым и вычисленным значениями параметра исхода заболевания, Ng - объем исследуемой совокупности больных.

При определении расчетных значений y(ri} задачу многомерной интерполяции функции у = f(X), заданной в узлах p -мерной нерегулярной сетки, сведем к задаче одномерной экстраполяции функций y<(i>(d) (i = 1,2,...,Ng) в окрестностях каждого i-го узла сетки. Относительно каждого i-го узла сетки пространства Rp по формуле (2) определяются расстояния между ним и остальными узлами сетки, в которых заданы значения функции y. Затем значения расстояний ранжируются в порядке возрастания. Отранжированный вектор расстояний обозначим Dt = (d<1‘> ,d(2>,..., dN)_1). В результате, имея массив данных, состоящий из пар чисел (d,,y,) (l = 1,2,...,k,...,Ng -1), решаем задачу экстраполяции дискретной зависимости y(dt) непрерывной функцией yr (d) методом наименьших квадратов. При этом при построении приближающей функции yr(d) используем только k -ближайшие узлы, то есть k < Ng -1. В качестве модели для приближения будем использовать квадратичный полином:

yr(d) = Х a‘d‘ (4)

i=0

Коэффициенты ai определим методом наименьших квадратов, то есть из условия минимизации функционала:

k 2

ст=Х!т - yr(dl,ai ^ = min (5)

l=1

Для прогнозирования выходного параметра у нового больного сначала по его качественным входным параметрам выявляются группы, в которые он попадает. В качестве наиболее информативной группы для дальнейшего анализа вы-

ИТ и диагностика

бирается та группа, в которой величина Q(W), характеризующая погрешность прогноза, минимальна. Расчет параметра исхода заболевания нового больного при известных коэффициентах W = (wj,w2,...,wm) сводится к задаче экстраполяции функции yr(d) в окрестности узла сетки нового больного. После того, как по окончанию лечения, станут известными выходные параметры больного, проводится уточнение весовых ко-

ЛИТЕРАТУРА

www.idmz.ru

2 00 7, №2

■■■■

W-ЩЯЯ

ЬМН

эффициентов в соответствии с предложенным методом.

Предлагаемый подход позволяет подобрать весовые коэффициенты входных параметров, не проводя предварительно классификацию больных и не снижая размерности признакового пространства, что в свою очередь дает возможность исключить потерю значимой информации и выявить слабые связи в рассматриваемых информационных массивах.

1. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных. - М.: Финансы и статистика, 1983. - 487 с.

2. Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ. - М.: Мир, 1982. - 488 с.

3. Гланц С. Медико-биологическая статистика. - М.: Практика, 1999. - 459 с.

4. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. - Новосибирск: «Изд-во Института математики», 1999. - 270 с.

5. Буров К.О. Обнаружение знаний в хранилищах данных//Открытые системы. - 1999. - № 5-6. - С.67-77.

6. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. - СПб.: БХВ-Петербург, 2004. - 336 с.

3-й Международный форум

MedSoft-2007

Выставка и конференция «Медицинские информационные технологии»

4-6 апреля 2007 г. Москва, Центральный дом предпринимателя

ТЕМАТИКА ВЫСТАВКИ И КОНФЕРЕНЦИИ:

4 Компьютерные системы для исследований и диагностики (функциональная и лучевая диагностика лабораторные нсследмани* н лр.)

* Системы компьютеризации массовых обследовании и профилактики 4 Компьютерные системы в стоматологии

* Систем! управления деятельностью медицински* учреждена

н органо* упроележя здравоохранением. Региомшше системы

* Компьютерные системы медицинского страхования

* Телемедицинские системы

* Медицинский Интернет

* Обучающие системы. Электронные атласы. Мультимедийные средспо

* Интеллектуальные медицинские системы

* Электронные истории болеж н амбулаторные корты

* Системы для научных исследовании 4 Системы обработки изображений

* Компьютерные системы я фармации и многое другое

Г*н*ралы*Ы слфнсер

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

.||Ы||.

CISCO

ImterSystems

\l'p\ IBM (Intel)

Аптек" ilV.V.Vi

рлс-и rcwrai фРШЕйпим шт -^.м^йле c*news ■ 'и.,

fZ\ iibaoe.Tbt

•дцТг.^ ^|еанцты

Я&ЧИРПС+

UOHEC^BOI

Вход на выставку свободный, участие в мероприятиях деловой программы бесплатное.

Адрес: Центральный дом предпринимателе, ул, Покровке, 47/24

Проезд: от. м. «Красные ворота». «Курская». Информация по тел.: (495) 400-10-62

Профоымо конференции и список участников еыстоеки опубликованы но сайте: *плпы,оггШгу

i Надоели баннеры? Вы всегда можете отключить рекламу.