УДК 004.8.023
И. А. Цыганкова, канд. техн. наук,
Санкт-Петербургский институт информатики и автоматизации РАН
Эволюционный метод прогнозирования результатов лечения
Ключевые слова: медико-биологическая информация, обработка данных, поддержка принятия решений, прогнозирование, программный комплекс, эволюционный метод
В работе представлен метод обработки многомерных плохо формализованных массивов медико-биологической информации, базирующийся на эволюционном подходе к решению экстремальных задач функции многих переменных. Метод позволяет прогнозировать результаты лечения с учетом медико-биологических и социальных особенностей пациентов. Приводится описание и структура программного комплекса поддержки принятия врачебных решений, в котором реализуется предложенный метод. Представлены результаты численного эксперимента.
Введение
На современном уровне развития общества, когда повышаются требования к качеству жизни, оказание квалифицированной медицинской помощи становится все более дорогостоящим. Это резко обостряет проблему оптимизации затрат на лечение и профилактику заболеваний как для отдельных пациентов, так и для медицинских организаций различных уровней. Решение данной проблемы может быть получено только при условии использования современных методов оптимизации и прогнозирования результатов лечения, учитывающих медико-биологические и социальные особенности пациентов.
В настоящее время развитие вычислительной техники и информационных технологий позволяет перейти к решению задач прогнозирования в медицине, используя интеллектуальные методы анализа данных [1-4]. Особенностями полученных на практике медико-биологических данных являются: высокая размерность и разнотипность данных, большое количество шумящих и дублирующих признаков, пропущенные и аномальные значения. В такой ситуации в качестве эффективных рассматриваются методы, основанные на эволюционном подходе. В отличие от традиционных методов поиска оптимального решения, они ориентированы на получение наилучшего (приемлемого) решения по сравнению с достигнутым ранее или заданным в качестве начального.
Реализация методов эволюционного подхода невозможна без внедрения в повседневную врачебную
практику современных информационных систем поддержки принятия решений. Использование таких систем позволяет повысить качество медицинских услуг, облегчить работу медицинского персонала, улучшить качество жизни пациентов, а также существенно сократить затраты на лечение и профилактику заболеваний [5].
Постановка задачи
Рассматривается задача прогнозирования результатов лечения в соответствии с заданной тактикой лечения на примере кожного хронического заболевания — псориаза. Исходная информация о больных представлена в виде числовых таблиц «объект — свойство» с описанием параметров, измеренных у конкретного пациента, до и после лечения (входных и выходных). К входным параметрам относятся индивидуальные сведения о больном:
• анамнез;
• сопутствующие заболевания;
• клинико-функциональные, метаболические и иммунологические показатели; тактика лечения.
Входные параметры в различной степени влияют на выходные параметры, но неизвестно, какие из них оказывают наиболее существенное влияние на целевые параметры и какой моделью описываются зависимости их влияния.
Выходными (целевыми) параметрами являются:
• продолжительность пребывание пациента в стационаре (количество койко-дней);
• продолжительность лечения до наступления улучшения (эффект лечения);
• продолжительность периода ремиссии;
• наличие (или отсутствие) типичных остаточных поражений на коже;
• число обострений болезни в год.
В общем случае исходная информация об объектах представлена в виде матрицы
% = Z2, ••• , ,
где — вектор анализируемых параметров (свойств, признаков) ¿-го объекта, = (гц, гг2, ••• , ••• , г1М). Каждый параметр принимает значение из
биотехносфера
I № 5-Б (11-123/2010
множества допустимых значений. Вся совокупность параметров объектов делится на входные параметры V = (и^, — , иг) и выходные параметры У = (у^, у2, у3)' Входные параметры V являются разнотипными, то есть измеряются в количественных и качественных шкалах. Обозначим параметры, значения которых измеряются в количественных шкалах, как X = (х±, %2, ..., хт), а параметры, значения которых измеряются в качественных (номинальных и порядковых) шкалах, как и = (и^, и2, .••, и¡). Вектор выходных параметров У для сформулированной задачи измеряется по шкале.
Требуется с приемлемой точностью предсказать значения неизвестных выходных параметров нового объекта по его известным входным параметрам. Рассматриваемая задача прогнозирования является плохо формализованной в силу того, что вся информация об объектах представлена лишь набором параметров, о которых нельзя сколько-нибудь определенно сказать, что они полны, не противоречивы и не искажены. При таких исходных данных будем использовать модель «черный ящик», а при построении алгоритмов анализа данных опираться только на массивы прецедентов и гипотезу о монотонности пространства решений: «.похожие входные ситуации приводят к похожим выходным реакциям системы» [1].
Эволюционный метод обработки
Решение задачи прогнозирования с помощью предлагаемого метода предполагает выполнение нескольких этапов:
• предобработка данных;
• подбор весовых параметров в процессе обучения;
• предсказание значений целевых параметров.
Предобработка данных. На этом этапе проводятся:
• структуризация данных;
• выявление и устранение аномальных и пропущенных значений;
• кодировка и нормировка данных, измеряемых на непрерывных шкалах.
Параметры, измеряемые в дискретных шкалах и имеющие число градаций больше двух, преобразуются в совокупность бинарных величин.
Введем вектор G = (gl, g2, ..., gj, ... , £л), где gj = = (1, 2, ..., — бинарные признаки объектов. На этапе предобработки все множество исследуемых объектов разбивается на подмножества (выборки) в соответствии со значениями gj. Общее количество таких выборок составит с^, где ^ — количество бинарных величин, с — количество вариантов (альтернатив) группировки объектов по каждому бинарному признаку gj. Возможны следующие варианты группировки объектов:
• в выборку попадают объекты вне зависимости от значения признака gj;
в выборку попадают объекты, для которых
ё = о;
• в выборку попадают объекты, для которых ё = 1.
Один и тот же объект может оказаться в нескольких выборках, которые имеют различное количество объектов. В дальнейшем используются только информативно значимые выборки, где количество объектов значительно больше, чем количественных входных параметров.
Подбор весовых параметров в процессе обучения. Для каждой информативно значимой выборки определяются веса входных параметров X. Для нахождения весовых коэффициентов используется эволюционный подход к решению экстремальных задач функции многих переменных и метод случайного поиска. Обозначим вектор весов как Ж = (ш^, ..., Шу, ..., шт), где Шу — весовые коэффициенты входных параметров; ] = 1,2, ..., т.
Каждый объект Ог может быть представлен в виде вектора многомерного пространства ВР количественных параметров Ог = {х^, х2, ..., ху, ..., хт, у}, где X] — входные параметры объекта; у — выходной (целевой) параметр объекта;^ — общее количество параметров многомерного пространства,^ = т + 1. В этом случае задача определения искомого параметра у по известным входным параметрам X = (х^, х2, ..., ху, ..., хт) сводится к задаче интерполяции функции у = /(X), заданной в узлах_р-мерной нерегулярной сетки.
Так как степень гладкости функции /(X) неизвестна, для ее интерполяции во всей области определения предлагается использовать функцию вида /(X) ~ у^й^, Ж)), где й — мера близости между объектами. В качестве меры близости между объектами I и I рассматривается взвешенное евклидово расстояние
d =
£ w Х - хп )
/•=1
о < w < 1.
(1)
Подбор значений весовых коэффициентов Ж проводится с использованием метода Монте-Карло.
Чтобы обеспечить необходимую точность вычисления прогнозируемого параметра, введем критерий, который минимизирует среднюю абсолютную ошибку прогноза
1 ^
Щ») = il £\у- Ун WI
у g i=i
^ min,
(2)
где | у - ун (й) | — разность между наблюдаемым и расчетным значениями выходного параметра; Ng — объем исследуемой выборки.
Если целевая функция представляет собой комплекс выходных параметров, то априори задаются коэффициенты значимости Ьу, ] = 1, 2, ..., я для каждого прогнозируемого параметра. Значения коэффициентов Ьу выбираются из интервала [0, 1],
№ 5-Б (11-12)/2010 |
биотехносфера
и для них должно выполняться условие нормировки
£ ^ = 1.
/=1
где я — количество прогнозируемых параметров. Тогда критерий (2) может быть представлен в виде
, ^ в
®) = XX ^ I- Ун(V I ^ т1п- (3)
/=17=1
Для определения расчетных значений у^ задачу многомерной интерполяции функции у = /(X), заданной в узлах нерегулярной сетки, сведем задачу многомерной интерполяции к задаче одномерной экстраполяции функций у1^(й){г = 1, 2, ..., Ng) в окрестностях каждого ¿-го узла многомерной сетки. Для этого относительно каждого ¿-го узла сетки пространства Яр по формуле (1) определяются расстояния между ним и остальными узлами, в которых заданы значения функции у. Затем расстояния ранжируются в порядке возрастания. Ранжированный вектор расстояний обозначим = (йц, й^, —, йи, —, й^ _ Далее, имея массив, состоящий из пар чисел (йй, ук) (к = 1, 2, ..., Ng - 1), решаем задачу экстраполяции дискретной зависимости у(й^) непрерывной функцией уДй). При построении приближающей функции уг(й) используются только п ближайших узлов (п < Ng - 1). В общем случае величина п определяется в процессе предварительного вычислительного эксперимента. В качестве модели для приближения используется квадратичный полином 2
У = X ' где коэффициенты а1 определяются
1=0
по условию минимизации функционала
п
° = Е У - уг' а)]2 ^ т1п-
к=1
Итеративное уточнение критерия Я(ы), вычисляемого по формуле (2) или (3), продолжается до тех пор, пока:
• либо число итераций, на протяжении которых решение не улучшается, не станет больше заранее заданного значения;
• либо расчетное значение средней абсолютной ошибки прогноза не приобретет значение ниже заданной величины допустимой погрешности;
• либо максимальное время вычислений не будет превышено.
Следует отметить, что особенностью эволюционного вычислительного процесса является то, что он может быть остановлен и продолжен в любой момент времени.
Прогнозирование искомых целевых параметров по известным входным характеристикам нового объекта на основе полученных в процессе обучения результатов. Для этого сначала выявляются те информативные выборки, в которые включается новый объект с учетом его качественных признаков.
Для дальнейшего анализа используется та выборка, в которой ошибка прогноза имеет наименьшее значение. Расчет каждого целевого параметра нового объекта сводится к задаче экстраполяции функции у fid) в окрестности узла сетки этого объекта.
После того как становятся известны выходные параметры нового объекта, объект пополняет обучающие выборки, проводится уточнение весовых коэффициентов в соответствии с изложенным методом. Таким образом, прогнозирование целевых параметров является не разовой операцией, а процессом, в ходе которого постоянно выполняются сбор, очистка и консолидация исходных данных, уточнение весовых параметров и верификация результатов.
Программный комплекс
Для реализации разработанного метода прогнозирования создан программный комплекс поддержки принятия врачебных решений. Программный комплекс ориентирован на работу в среде ОС Window. При разработке комплекса использован модульный объектно-ориентированный подход, позволяющий создавать легко модифицируемые прикладные программы.
Комплекс состоит из базы данных, пакета программных модулей и пользовательского интерфейса. Доступ к комплексу настраивается в соответствии с пользовательской ролью пользователя и, как следствие, с задачами. Структурная схема программного комплекса представлена на рис. 1.
База данных представляет собой массивы медико-биологической информации о пациентах, методах и результатах лечения. Для структурирования информации используется реляционная модель, позволяющая естественно отобразить данные в таблице типа «объект—свойство». Массивы данных хранятся в электронных таблицах формата Excel. Обмен данными между электронной таблицей и программными модулями осуществляется с помощью механизма автоматизации технологии OLE. В состав программного пакета входят:
• модуль предобработки исходных данных;
• модуль обучения, обеспечивающий расчет весов входных параметров;
• модуль прогнозирования выходных параметров нового пациента по его известным входным характеристикам.
Программные модули реализованы в среде объектно-ориентированного языка программирования C++Builder. Пользовательский интерфейс комплекса обеспечивает ввод исходных данных и представление результатов расчета. Интерфейс имеет вид, понятный и принятый в профессиональной среде пользователей. Объектно-ориентированный подход к структуре интерфейса и использование графических компонентов, входящих в библиотеки ОС Windows и C++Builder позволяют оперативно модифицировать интерфейс в соответствии с требованиями
биотехносфера
| № 5-Б (11-123/2010
Биомедицинская информатика
Рис. 1 \ Структурная схема программного комплекса
пользователей. Предусматривается защищенный иерархический доступ к информационным базам данных и программным модулям для разных категорий пользователей: врачей, администраторов, разработчиков.
Врач вводит и редактирует исходные данные пациентов, выбирает метод лечения из регламентированного списка и получает отображение на экране результата расчета прогнозируемых параметров нового пациента. Предусматривается просмотр в интерактивном режиме таблицы данных, описание входных и выходных параметров пациентов, завершивших курс лечения и имевших показатели, схожие с теми, что определены у нового пациента.
Администратор обновляет и поддерживает базы данных, обеспечивает выполнение расчетных процедур по подбору весов входных параметров для различных комбинаций качественных величин медико-биологических данных.
Разработчик имеет полный доступ к программному комплексу и возможность модифицировать программный код.
метров. Задача прогнозирования решалась отдельно для каждого выходного параметра.
На рис. 2 представлен график эволюции процесса обучения — изменение средней абсолютной ошибки прогноза в зависимости от количества итераций поиска решения. Приведенная зависимость получена при прогнозировании периода лечения пациента в стационаре. Приемлемые результаты обучения достигаются уже при первых 500 итерациях, продолжение обучения до 500 000 итераций приводит к улучшению прогноза менее 1 % .
На рис. 3 представлены гистограммы распределения ошибки прогноза периода лечения пациента в стационаре, полученные на обучающей (рис. 3, а) и контрольной (рис. 3, б) выборках, соответственно. Распределения близки к нормальному закону. Проверка гипотезы о нормальности закона распределений была подтверждена с помощью критерия согласия х2.
Аналогичные исследования были проведены и для других прогнозируемых параметров. Обобщен-
Численный эксперимент
Для оценки эффективности разработанного метода прогнозирования был проведен численный эксперимент с использованием медико-биологических данных больных псориазом, полученных в лечебных медицинских учреждениях Санкт-Петербурга. При проведении численного эксперимента был задействован программный комплекс поддержки принятия врачебных решений, описание которого приведено выше.
В исходную выборку, на которой проводилось исследование, были включены данные 308 пациентов. Из них случайным образом были отобраны 45 записей, которые составили контрольную выборку, остальные 263 пациента вошли в обучающую выборку. Общее количество числовых параметров, относящихся к каждому пациенту, — 44, в том числе 39 входных параметров и 5 выходных пара-
0,16
о
к а
0,14
£
0,12
0,10
50,0 500,0 5000,0 50000,0 5Е5 Количество итерации
Рис. 2 | Эволюция процесса обучения
№ 5-6 (11-123/2010 |
биотехносфера
Биомедицинская информатика
-0,5 -0,4 -0,3 -0,2 -0,1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 Распределение погрешности прогноза
б)
16
Î12
S
s
^
а
§ s
1
я \
§ ■ р
V É Û, ш
У//АШ///, ш ». УЖ ,
-0,4 -0,3 -0,2 -0,1 0 0,1 0,2 0,3 0,4 0,5 Распределение погрешности прогноза
Рис. 3 Распределение погрешности прогноза периода лечения в стационаре: а — обучающая выборка, объем выборки N — 263 пациента; б — контрольная выборка, объем выборки N — 45 пациентов
ные результаты расчетных исследований по оценке прогноза целевых параметров сведены в таблицу.
Проведенные расчетные исследования оценки прогнозирования параметров показали достаточно высокую эффективность предлагаемого метода. Величина средней абсолютной ошибки прогноза составила 10-17 %. Достоверность полученных результатов подтверждена расчетами с использованием контрольной выборки.
Результаты прогноза выходных
параметров
Прогнозируемый параметр Средняя ошибка прогноза Q(w)
Период лечения в стационаре (количество койко-дней) 0,101
Эффект лечения (период острой стадии) 0,112
Число обострений за год 0,139
Степень разрешения (остаточные
поражения на коже) 0,163
Период ремиссии 0,167
Заключение
Предлагаемый метод прогнозирования может быть использован в различных предметных областях, где сведения об объектах сведены в информационные массивы большого объема, описываются в протоколах «вход—выход», и для информационных массивов справедлива гипотеза о монотонности принятия решений в локальной области. Разработанный метод обработки медико-биологической информации позволяет подобрать весовые коэффициенты входных параметров, не снижая размерности признакового пространства, что, в свою очередь, позволяет исключить потерю значимой информации и выявить слабые связи в рассматриваемых информационных массивах.
I Л и т е р а т у р а I
1. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. Новосибирск: Изд-во Ин-та математики, 1999. 270 с.
2. Корнеев В. В., Гареев А. Ф., Васютин С. В. и др. Базы данных. Интеллектуальная обработка информации. М.: Нолидж, 2001. 496 с.
3. Дюк В., Самойленко А. Data Mining: Учебный курс. СПб.: Питер, 2001. 368 с.
4. Барсегян А. А., Куприянов М. С., Степаненко В. В. и др. Технологии анализа данных: Data Mining, Visual Mining, OLAP. СПб.: БХВ-Петербург, 2007. 275 с.
5. Гулиева И. Ф., Рюмина Е. В., Гулиев Я. И. Медицинские информационные системы: затраты и выгоды // Врач и информационные технологии. 2009. № 3. С. 4-16.
биотехносфера
| № 5-6 (11-12)/2010