Научная статья на тему 'Метод интеллектуальной обработки медико-биологических данных'

Метод интеллектуальной обработки медико-биологических данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
201
120
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод интеллектуальной обработки медико-биологических данных»

Несмотря на указанные недостатки, библиотека MaLLBa может с успехом использоваться как в прикладных, так и в академических целях.

Литература

1. Gaspero L.Di, Schaerf A. EasyLocal++: an object-oriented framework for the flexible design of local search algorithms and metaheuristics. In 4th Metaheuristics International Conference (MIC'2001), 2001, pp. 287-292.

2. E. Alba, et al. MaLLBa: A Library of Skeletons for Combinatorial Optimization. Proceedings of the Euro-Par'02, vol. 2004 of LNCS. - Springer-Verlag, 2002, pp. 927-932.

3. S. Cahon, N. Melab and E-G. Talbi. ParadisEO: A Framework for the Reusable Design of Parallel and Distributed Metaheuristics, Journal of Heuristics, vol. 10(3), pp. 357-380, May 2004.

4. Holger H. Hoos, Thomas Stutzle. SATLIB: An Online Resource for Research on SAT. In: I.P.Gent, H.v.Maaren, T.Walsh, editors, SAT 2000, pp. 283-292, IOS Press, 2000.

МЕТОД ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ МЕДИКО-БИОЛОГИЧЕСКИХ ДАННЫХ

(Работа поддержана РФФИ, проект № 06-07-89184)

И.А. Цыганкова, к.т.н. (Учреждение Российской академии наук Санкт-Петербургский институт информатики РАН, pallada-ltd@infopro.spb.su)

В работе представлен метод интеллектуальной обработки многомерных плохо формализованных массивов медико-биологической информации, базирующийся на эволюционном подходе к решению экстремальных задач функции многих переменных. Предлагаемый метод позволяет прогнозировать результаты лечения с учетом медико-биологических и социальных особенностей пациентов. Приведены результаты численного эксперимента.

Ключевые слова: обработка данных, эволюционный метод, медико-биологическая информация, прогнозирование.

Рост требований к качеству жизни, появление новых диагностических и лечебных технологий привели к резкому увеличению стоимости медицинских услуг. Это обострило проблему оптимизации затрат на лечение и профилактику заболеваний как для пациентов, так и для медицинских организаций различного уровня. Решить ее можно только современными методами оптимизации и прогнозирования результатов лечения, учитывающими медико-биологические и социальные особенности пациентов.

Развитие вычислительной техники и информационных технологий позволяет перейти к решению задач прогнозирования в медицине с помощью интеллектуальных методов анализа данных [1-3]. Особенностями реальных медико-биологических данных являются высокая размерность и разнотипность, большое количество шумящих и дублирующих признаков, пропущенные и аномальные значения. В такой ситуации эффективными становятся методы, основанные на эволюционном подходе, которые, в отличие от традиционных методов поиска оптимального решения, ориентированы на наилучшее (приемлемое) решение по сравнению с полученным ранее или предложенным в качестве начального.

Рассматривается задача прогнозирования результатов лечения при заданной тактике лечения на примере кожного хронического заболевания псориаз. Исходная информация о больных представлена в виде числовых таблиц «объект-свойство» с описанием входных и выходных параметров (признаков, характеристик) пациентов.

К входным параметрам относятся индивидуальные сведения о больном: анамнез, сопутствующие заболевания, клинико-функциональные, метаболические и иммунологические показатели, тактика лечения. Выходными (целевыми) параметрами являются продолжительность пребывания пациента в стационаре (количество койко-дней), продолжительность лечения до наступления улучшения состояния (эффект лечения), продолжительность периода ремиссии, наличие (или отсутствие) типичных остаточных поражений на коже, число обострений болезни в год. Входные параметры в различной степени влияют на выходные параметры, но какие из них оказывают наиболее существенное влияние на целевые параметры и какой моделью описываются зависимости их влияния, неизвестно.

В общем случае исходная информация об объектах представлена в виде матрицы

Z=(Zl, Z2,•••,Zj,•••,ZN), ' где Zj = (г^, г^, •••, гц, ••• , гш) - вектор анализируемых параметров (свойств, признаков) 1-го объекта. Каждый параметр г^ принимает значение из множества допустимых значений. Вся совокупность параметров объектов делится на входные у= (у1,у2,-,у1) и выходные У= (у1,у2,--,у5) параметры. Входные параметры V являются разнотипными, то есть измеряются в количественных и качественных шкалах. Обозначим через X = = (х1,х2, ••• ,хт) параметры, значения которых измеряются в количественных шкалах, а через и= (и1,и2, — ,иь) - параметры, значения кото-

рых измеряются в качественных (номинальных и порядковых) шкалах. Вектор выходных параметров У для сформулированной задачи измеряется в количественной шкале.

Требуется с приемлемой точностью предсказать значения неизвестных выходных параметров нового объекта по его известным входным параметрам.

Рассматриваемая задача прогнозирования является плохо формализованной в силу того, что вся информация об объектах представлена лишь набором параметров, о которых нельзя сколько-нибудь определенно сказать, что они полны, непротиворечивы и не искажены. При таких исходных данных будем использовать модель черного ящика, а при построении алгоритмов анализа данных опираться только на массивы прецедентов и гипотезу о монотонности пространства решений: «похожие входные ситуации приводят к похожим выходным реакциям системы».

Решение задачи прогнозирования с помощью предлагаемого метода состоит из нескольких этапов: предобработка данных, подбор весовых параметров в процессе обучения, предсказание значений целевых параметров.

Этап предобработки включает: структуризацию данных, выявление и устранение аномальных и пропущенных значений, кодировку и нормировку данных, измеряемых в непрерывных шкалах. Параметры, измеряемые в дискретных шкалах и имеющие число градаций больше двух, преобразуются в совокупность бинарных величин.

Введем вектор С = (§1,§2, ——,§л), где §, 0 = 1,2, — , п) - бинарные признаки объектов. На этапе предобработки все множество исследуемых объектов разбивается на подмножества (выборки) в соответствии со значениями Общее количество таких выборок составит сп, где п - количество бинарных величин; с - количество вариантов (альтернатив) группировки объектов по каждому бинарному признаку Возможны следующие варианты группировки объектов:

- в выборку попадают объекты вне зависимости от значения признака ;

- в выборку попадают объекты, для которых = 0;

- в выборку попадают объекты, для которых §¡ = 1.

Один и тот же объект может оказаться в нескольких выборках, которые имеют различное количество объектов. В дальнейшем используются только информативно значимые выборки, в которых количество объектов значительно больше числа количественных входных параметров.

На следующем этапе (процесс обучения) для каждой информативно значимой выборки определяются веса входных параметров X. Определение весовых коэффициентов базируется на эволюци-

онном подходе к решению экстремальных задач функции многих переменных и методе случайного поиска. Обозначим вектор весов через Ш = = (ш1,ш2, — ,Ш|, — шт), где ш, 0 = 1,2, — ,т) -весовые коэффициенты входных параметров.

Каждый 01 объект может быть представлен в виде вектора многомерного пространства Яр количественных параметров 0j = {х1,х2,— , X), — ,хт,у], где х) - входные параметры объекта, у - выходной (целевой) параметр объекта, р = т + 1 - общее количество параметров многомерного пространства. В этом случае задача определения искомого параметра у по известным входным параметрам X = (х1,х2, — ,Х), — ,хт) сводится к задаче интерполяции функции у = КХ), заданной в узлах р-мерной нерегулярной сетки.

Так как степень гладкости функции Г(Х) неизвестна, для ее интерполяции во всей области определения предлагается использовать функцию вида Г(Х) « уг^(Х,Ш)), где d - мера близости между объектами. В качестве меры близости между объектами j и I рассматривается взвешенное евклидово расстояние

^ = ^1ш)(хр-х^)2, 0 < м, < 1. (1)

Значения весовых коэффициентов Ш подбираются с использованием метода Монте-Карло.

Чтобы обеспечить необходимую точность вычисления прогнозируемого параметра, введем критерий, который минимизирует среднюю абсолютную ошибку прогноза

а(м) = 2-ЛIУ - Уп № И mjn. (2)

Здесь |у — уг№| - разность между наблюдаемым и расчетным значениями выходного параметра; — - объем исследуемой выборки.

Если целевая функция представляет собой комплекс выходных параметров, априори задаются коэффициенты значимости А, = 1,2, — , в) для каждого прогнозируемого параметра. Значения коэффициентов А, выбираются из интервала [0, 1], и для них должно выполняться условие нормировки Хв=1А, = 1, где в - количество прогнозируемых параметров.

Тогда критерий (2) может быть представлен в виде

а(м) = Г^ГЛ2в=1 А) |уШ — угТ№| ^ mjn. (3)

Для определения расчетных значений уг задачу многомерной интерполяции функции у = Г(Х), заданной в узлах нерегулярной сетки, сведем к задаче одномерной экстраполяции функций уг^) ^ = 1,2, — ,Г§) в окрестностях каждого 1-го узла многомерной сетки. Для этого относительно каждого 1-го узла сетки пространства Яр по формуле (1) определяются расстояния между ним и остальными узлами, в которых заданы значения

функции у. Затем полученные расстояния ранжируются в порядке возрастания. Ранжированный вектор расстояний обозначим =

Далее, имея массив, состоящий из пар чисел (йк,ук) (к = - 1), решаем задачу экстраполяции дискретной зависимости у(^) непрерывной функцией уг(й). При построении приближающей функции уг№ используются только п ближайших узлов (п < Ng — 1). В общем случае величина п определяется в процессе предварительного вычислительного эксперимента. В качестве модели для приближения используется квадратичный полином уг(й) = £2=оа^, в котором коэффициенты ai определяются из условия минимизации функционала

® = Хк=1[ук — у^к-а^2 ^ min.

Итеративный процесс уточнения критерия Q(w), вычисляемого по формуле (2) или (3), продолжается до тех пор, пока число итераций, на протяжении которых не происходит улучшение решения, не превысит заранее заданное значение, либо пока расчетное значение средней абсолютной ошибки прогноза не упадет ниже априори заданной величины допустимой погрешности, либо пока не будет превышено максимальное время вычислений. Следует отметить, что особенностью эволюционного вычислительного процесса является то, что он может быть остановлен и продолжен в любой момент.

Следующий этап решения задачи - использование полученных в процессе обучения результатов для прогнозирования искомых целевых параметров нового объекта по его известным входным характеристикам. Для этого сначала выявляются те информативные выборки, в которые попадает новый объект с учетом своих качественных признаков. Для дальнейшего анализа используется выборка, в которой ошибка прогноза имеет наименьшее значение. Расчет каждого целевого параметра нового объекта сводится к задаче экстраполяции функции уг(ф в окрестности узла сетки этого объекта.

После того как становятся известными выходные параметры нового объекта, объект пополняет обучающие выборки и проводится уточнение весовых коэффициентов в соответствии с изложенным методом. Таким образом, прогнозирование целевых параметров является не разовой операцией, а процессом, в ходе которого постоянно выполняются сбор, очистка и консолидация исходных данных, уточнение весовых параметров и верификация результатов.

Для оценки эффективности разработанного метода прогнозирования был проведен численный эксперимент с использованием реальных медико-биологических данных больных псориазом, полученных в лечебных медицинских учреждениях Санкт-Петербурга. При проведении численного

эксперимента использовался программный комплекс поддержки принятия врачебных решений, описание структуры которого приведено в работе [4]. Объем исходной выборки пациентов составил 308 человек. Из них случайным образом были отобраны 45 пациентов - контрольная выборка. Общее количество числовых параметров составило 44, их них 39 - входные параметры, а 5 - выходные. Обобщенные результаты расчетных исследований по оценке прогноза целевых параметров сведены в таблицу, из которой видно, что величина средней абсолютной ошибки прогноза параметров не превышает 17 %.

Результаты прогноза выходных параметров

№ Прогнозируемый параметр Средняя ошибка прогноза

1 Период лечения в стационаре (количество койко-дней) 0,101

2 Эффект лечения (период острой стадии) 0,112

3 Число обострений в год 0,139

4 Степень разрешения (остаточные поражения на коже) 0,163

5 Период ремиссии 0,167

На рисунке 1 приведен график эволюции процесса обучения - изменение средней абсолютной ошибки прогноза в зависимости от количества итераций поиска решения. Зависимость получена при прогнозировании периода лечения в стационаре. Из рисунка 1 видно, что приемлемые результаты обучения достигаются уже при первых 500 итерациях, продолжение обучения до 500 000 итераций приводит к улучшению прогноза менее 1 %. Достоверность полученных результатов проверялась на контрольной выборке. На рисунке 2 показано распределение ошибки прогноза, полученное на контрольной выборке пациентов.

Проведенные расчетные исследования оценки прогнозирования целевых параметров показали высокую эффективность предлагаемого метода.

0№) 0,16 ш о 3: 1У о & 0,14 £ о э 3 £ 0,12 г ф & 0,10

■ ■ ■ ■

■ ■ ■ ■

■ ■ ■ ■ ■■ ■

0,5 5,0 50,0 500,0 5000,0 50000,0 5Е5 Количество итераций Рис. 1. Эволюция процесса обучения при прогнозировании периода пребывания пациента в стационаре (объем обучающей выборки N=263)

Рис. 2. Распределение ошибки прогноза периода пребывания пациента в стационаре (объем контрольной выборки N=45)

Величина средней абсолютной ошибки прогноза составила 10-17 %. Достоверность полученных результатов подтверждена расчетами на контрольной выборке.

Разработанный метод интеллектуальной обработки многомерных разнотипных массивов медико-биологической информации позволяет подобрать весовые коэффициенты входных параметров,

не снижая размерности признакового пространства, что, в свою очередь, позволяет исключить потерю значимой информации и учесть слабые связи в рассматриваемых информационных массивах.

Предлагаемый метод прогнозирования может использоваться в любой предметной области, где сведения об объектах сведены в информационные массивы большого объема, описываются в протоколах «вход-выход», и для них справедлива гипотеза о монотонности принятия решений в локальной области.

Литература

1. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Изд-во Ин-та математики, 1999. 270 с.

2. Корнеев В.В., Гареев А.Ф., Васютин С.В., Райх В.В. Базы данных. Интеллектуальная обработка информации. М.: Нолидж, 2001. 496 с.

3. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data Mining, Visual Mining, OLAP. СПб: БХВ-Петербург, 2007. 275 с.

4. Цыганкова И.А. Программный комплекс системы поддержки принятия врачебных решений // Программные продукты и системы. 2008. № 4. С. 155-158.

НЕЙРОСЕТЕВАЯ СИСТЕМА ДИАГНОСТИКИ ВНУТРИЧЕРЕПНЫХ НОВООБРАЗОВАНИЙ

А.В. Кирсанова; Г.А. Дмитриев, д.т.н.

(Тверской государственный технический университет, kirsanich@mail.ru)

В статье описана медицинская диагностическая система, основанная на технологии нейросетей. Система используется для поддержки принятия решений в диагностике опухолей головного мозга на магнитно-резонансном томографе.

Ключевые слова: нейронные сети, заболевание головного мозга, медицинская диагностика.

В последние годы среди специалистов значительно выросла популярность систем интеллектуального анализа данных. Предоставляемые этими системами возможности способствовали их применению в различных отраслях - в финансах, промышленности, медицине, геологоразведке, физике и др.

Анализ применения компьютерных технологий в медицинских учреждениях показывает, что в основном они внедряются в областях, связанных с обработкой документации, хранением и передачей данных, а также для статистического анализа, в то время как некоторые важнейшие участки лечебно-диагностического процесса, такие как диагностика заболеваний, практически не используют возможности ЭВМ. Во многом этому препятствуют особенности медико-биологической информации и психологический аспект восприятия решений, продиктованных компьютером.

Однако именно в этом сегменте медицинских технологий наиболее актуальным является внедрение систем поддержки принятия решений. Прежде всего это обусловлено большим объемом и сложным характером анализируемых данных, которые врач не может учесть в своих выводах в полной мере.

В данной работе рассматривается реализация подобной системы для задачи медицинской диагностики на примере диагностики заболеваний головного мозга. Необходимость раннего выявления и дифференциальной диагностики такого рода опухолей объясняется особой тяжестью этих заболеваний, кроме того, при локализации объемного процесса в области жизненно важных мозговых центров они непосредственно угрожают жизни больного.

Внедрение системы поддержки принятия решений врача-радиолога для диагностики новооб-

i Надоели баннеры? Вы всегда можете отключить рекламу.