Научная статья на тему 'Комплексный анализ медицинских данных'

Комплексный анализ медицинских данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1315
211
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ ДАННЫХ / ИНФОРМАЦИОННАЯ МОДЕЛЬ / ОРТОПЕДИЯ / ТРАВМАТОЛОГИЯ / THE ANALYSIS OF THE DATA / INFORMATION MODEL / ORTHOPEDY / TRAUMATOLOGY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Самойленко Н. Э., Кувина В. Н., Кувин С. С.

В статье излагаются методы комплексного анализа слабо формализованных данных в задачах выявления скрытых взаимодействий параметров (признаков) сложных систем, что актуально в задачах разработки средств программной поддержки принятия решений в системах автоматизированного проектирования сложных технических объектов, в автоматизированных системах профессиональной подготовки специалистов, а также в системах медицинской диагностики

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Самойленко Н. Э., Кувина В. Н., Кувин С. С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE COMPLEX ANALYSIS OF THE MEDICAL DATA

In article methods of the complex analysis of poorly formalized data in problems of revealing of skry interactions of parametres (signs) of difficult systems that is actual in problems of working out of means of programs of support of decision-making in systems of the automated designing of difficult technical objects, in the automated systems of vocational training of experts, and also in systems medical diagnostiki are stated

Текст научной работы на тему «Комплексный анализ медицинских данных»

УДК 681.3

КОМПЛЕКСНЫЙ АНАЛИЗ МЕДИЦИНСКИХ ДАННЫХ

Н.Э. Самойленко, В.Н. Кувина, С.С. Кувин

В статье излагаются методы комплексного анализа слабо формализованных данных в задачах выявления скрытых взаимодействий параметров (признаков) сложных систем, что актуально в задачах разработки средств программной поддержки принятия решений в системах автоматизированного проектирования сложных технических объектов, в автоматизированных системах профессиональной подготовки специалистов, а также в системах медицинской диагностики

Ключевые слова: анализ данных, информационная модель, ортопедия, травматология

В ходе многолетних клинических исследований наблюдения и лечения пациентов с экологически обусловленными проявлениями диспластиче-ски-дистрофических состояний тазового пояса накоплен большой объём информации, включая данные клинических, амбулаторных исследований и анализов (данные диагностики, результаты применения различных схем лечения и т.п.).

Сложность медицинских процессов, индивидуальность течения заболеваний, большое количество слабо формализованных факторов и симптомов, которые подлежат анализу, с одной стороны, и наличие, с другой стороны, достаточно жёстких математических требованию к объёму и согласованности к данным компьютерного анализа приводит к необходимости выявления скрытых закономерностей в статистических данных о больных.

Решение данной задачи возможно на основе применения автоматизированных систем, которые обеспечивают врача средствами интеллектуальной поддержки, средствами поддержки принятия решений (СПР) ориентированных на обработку разнородных (количественных, качественных, текстовых) данных неограниченного объема [1]. При этом инструментальные средства для обработки «сырых» данных должны быть просты в использовании, а результаты должны быть конкретны и понятны пользователю.

Существенным этапом компьютерного анализа данных является предварительная обработка данных (предобработка), включающая преобразование данных из формы, в которой их наиболее удобно собирать, в форму, требуемую для наиболее эффективного применения выбранных методов анализа.

Самойленко Наталья Эдуардовна - ВГТУ, канд. техн. наук, доцент, E-mail ju.i@mail.ru Кувина Валентина Николаевна - НЦ РВХ СО РАМН, академик РАЕН, д-р мед. наук, профессор, E-mail qvs@mail.ru

Кувин Сергей Сергеевич - ИОДКБ, д-р мед. наук, профессор, E-mail qss@mail.ru

Данный этап предполагает вычисление производных параметров, разбиение данных на обучающую и тестовую выборки, масштабирование и нормирование данных, очистку их от ошибок, и многие другие преобразования данных.

Собственно автоматический анализ данных заключается в применении методов, выбранных на этапе постановки задачи в интерактивном режиме, то есть при непосредственном участии пользователя (медицинского эксперта) [3]. При этом возможно уточнение параметров найденной модели для достижения наилучших результатов.

Анализ и интерпретация полученных знаний включает оценку значимости и других характеристик обнаруженных знаний. Они могут быть как объективными (вычисление некоторых статистических показателей) так и субъективными - оценка осмысленности полученных моделей в контексте уже имеющихся знаний о предметной области.

На базе проведённых исследований сформирована компьютерная база данных (БД) пациентов с учётом выделенных клинических параметров (структурных признаков), которые, по предварительной оценке экспертов-медиков, могут оказаться наиболее существенными в задачах ранней диагностики и прогнозирования альтернативных методов лечения пациентов с ДДС.

Корректность построения и полнота информационной базы во многом определяет качество и достоверность генерируемых программной системой решений, что определяет необходимость отладки и тестирования формируемого информационного обеспечения.

Необоснованное применение стандартных методов компьютерного анализа к некорректному массиву данных может привести к выводам, не имеющим практической ценности.

Поэтому в качестве базовых выбраны следующие положения:

- каждый из структурных признаков корреги-рует со всеми остальными, следовательно, необходимо провести оценку их парного и множественного взаимодействия;

- необходимо провести исследования по установлению иерархии структурных признаков (на целенаправленных выборках без учёта вспомога-

тельных параметров), что позволит получить иерархическую модель;

- для построения информационной модели проведена классификация структурных признаков по группам (выделено 7 групп). В I группу включены характерологические данные (пол, возраст, сроки заболевания, инвалидность, профессия, пункты 1 - 25 сводной таблицы признаков ДДС). II группа описывает ортопедический статус пациента. В III группу вошли элементы структуры ДДС, в IV группу- данные дополнительных лабораторных исследований. V группа содержит функции опоры и движения, VI группа - нейрофизиологические показатели, VII группа - иммунный статус.

По мнению экспертов-медиков наиболее существенным является взаимодействие показателей группы III с показателями групп II, V и VI.

При этом по степени взаимодействия показатели (признаки) оцениваются по трехбалльной шкале: вероятные (малая степень достоверности), достоверные (более 50 %) и патогномоничные (более 75 %).

В состав показателей по группам включены следующие.

I группа - пол. возраст, сроки заболевания, инвалидность, профессия.

II группа - боль, хромота, относительное укорочение конечности, пользование средствами дополнительной опоры, функция тазобедренного сустава (справа), функция тазобедренного сустава (слева), односторон-ний процесс, двухсторонний процесс.

III группа - асимметрия таза, дисплазия пояснично-крестцового отдела, дисплазия тазобедренных суставов, состояние головок бёдер, сколиоти-ческая деформация, диспластический кифоз грудного отдела, сопутствующая ортопедическая патология, поперечное плоскостопие, продольнопоперечное плоскостопие, продольное плоскостопие, остеохондропатия бугристости большой берцовой кости (болезнь Осгуд-Шляттера), остеохондропатия апофиза пяточной кости(болезнь Шинца), вальгусная деформация проксимального отдела бедра (coxa valga), варусная деформация проксимального отдела бедра (coxa vara), дистрофическая грудная клетка, другие аномалии развития.

IV группа - общий анализ крови, визуальное исследование мочи, микроскопия осадка, биохимия крови;

V группа - весо-ростовой индекс (Кетле), основная стойка, равномерное распределение, средства дополнительной опоры, исследование временных параметров ходьбы, хромота, клиренс.

VI группа - координация работы мышц, сила мышц, утомляемость мышц, дегеративно-

дистрофические отклонения от нормы, асимметрия электрической активности, функция нервных клеток.

VII группа - 52 иммунологических показателя, полученных при анализе крови.

Для проведения компьютерного анализа медицинских данных по патофизиологическим изменениям взрослых пациентов выбрана структура таблиц БД и сформированы соответствующие электронные таблицы для последующего исследования. Наличие структурного признака у пациента в таблице кодируется символом «+», а его отсутствие -«-».

Данный подход к созданию обобщённой БД клинических показателей вызван тем, что в каждой группе структурных признаков своё количество показателей, а уровни ранжирования по каждому показателю также различны.

Действительно, часто применяемый подход, заключающийся в выделении двух или трёх уровней выраженности каждого признака, является грубо-эмпирическим и не позволяет учесть реальную степень взаимодействия диагностических и прогностических признаков.

В ходе клинических исследований экологически обусловленных проявлений диспластически-дистрофических состояний тазового пояса (ДДС) накоплен большой объём медицинской информации, включающий данные клинических, амбулаторных исследований и анализов (данные диагностики, результаты применения различных схем лечения и т.п.).

В настоящий момент в исследование включены данные 300 взрослых пациентов и 150 детей, которые в период с 2006 по 2009 год проходили лечение и наблюдались в поликлинике и отделении ортопедии Научного центра реконструктивновосстановительной хирургии СО РАМН г. Иркутска (НЦ РВХ СО РАМН), ортопедотравматологическом отделении Иркутской областной детской клинической больницы (ИОДКБ), санаторной школы №4 г. Усолье, Областном детском реабилитационном центре «Сосновая горка».

Полученные данные были подвергнуты математическому и статистическому анализу при помощи программных средств БЕБИСТОЯ и КЕУ-КОРЯО.

Программа БЕБИСТОЯ реализует метод, основанный на построении дерева решений, основными преимуществами которого являются:

- анализ по принципу "если-то";

- быстрый анализ значимости факторов;

- результат работы представляется в легко интерпретируемом для человека виде;

- на вход алгоритма деревьев решений можно подавать любое количество параметров, алгоритм сам выберет наиболее значимые параметры и только они будут фигурировать в построенном дереве;

- точность прогноза деревьев решений сопоставима с другими методами построения классификационных моделей (статистические методы, нейронные сети);

- алгоритмы построения деревьев решений имеют методы специальной обработки пропущенных данных;

- классические и современные методы статистики, используемые в задачах классификации работают только с числовыми данными, деревья решений успешно работают как с числовыми, так и строковыми значениями [2];

- позволяют извлекать правила на естественном языке.

Клинический материал, послуживший основой формирования базы данных для компьютерного анализа по методу дерева решений - верифицированные случаи 72 больных диспластическим кок-сартрозом (одно- и двухсторонний, 2-4ой степени). Рассматривались 52 клинико-лабораторных показателя, субъективных симптома и признака.

В задаче классификации требуется найти правила, позволяющие отнести записи базы данных к одному из двух или нескольких классов.

Применялся алгоритм индукции деревьев решений. После работы алгоритма была создана иерархическая структура классифицирующих правил типа "ЕСЛИ... ТО..." (if-then), имеющая вид дерева. Для принятия решения, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. В случае положительного ответа осуществляется переход к правому узлу следующего уровня, в случае отрицательного - к левому узлу; затем снова следует вопрос, связанный с соответствующим узлом.

Произведённый пробный (тестовый) компьютерный анализ данных иммунологических показателей у больных с диспластическим коксартрозом показал, что на основе метода деревьев решений (программа DEDUCTOR) данные классифицируются лишь на 1-2 группы, что говорит о не совсем корректной постановке исходной задачи анализа. Для преодоления данного недостатка в базу данных включена информация о здоровых пациентах и произведена экспертная оценка значимости анализируемых показателей для расчёта коэффициентов значимости и повышения точности модели.

Аналогичные тестовые исследования данных были проведены с применением программы NEY-ROPRO, которая реализует метод нейронных сетей для решения неформализованных задач прогнозирования и классификации на основе обучающей выборки.

Рассмотрим основные этапы решения задачи с применением программы NEYROPRO: сбор данных для обучения; подготовка и нормализация данных; выбор топологии сети; экспериментальный подбор характеристик сети; экспериментальный подбор параметров обучения; собственно обучение; проверка адекватности обучения; корректировка параметров, окончательное обучение; вербализация сети с целью дальнейшего использования.

Выбор данных для обучения сети и их обработка является самым сложным этапом решения задачи. Набор данных для обучения должен удовлетворять нескольким критериям: репрезентатив-

ность — данные должны иллюстрировать истинное положение вещей в предметной области; непротиворечивость — противоречивые данные в обучающей выборке приведут к плохому качеству обучения сети.

Исходные данные преобразуются к виду, в котором их можно подать на входы сети. Каждая запись в файле данных называется обучающей парой или обучающим вектором. Обучающий вектор содержит по одному значению на каждый вход сети и, в зависимости от типа обучения (с учителем или без), по одному значению для каждого выхода сети. Обучение сети на «сыром» наборе, как правило, не дает качественных результатов.

Существует ряд способов улучшить «восприятие» сети.

Нормировка выполняется, когда на различные входы подаются данные разной размерности. Например, на первый вход сети подается величины со значениями от нуля до единицы, а на второй — от ста до тысячи. При отсутствии нормировки значения на втором входе будут всегда оказывать существенно большее влияние на выход сети, чем значения на первом входе. При нормировке размерности всех входных и выходных данных сводятся воедино.

Квантование выполняется над непрерывными величинами, для которых выделяется конечный набор дискретных значений. Например, квантование используют для задания частот звуковых сигналов при распознавании речи.

Фильтрация выполняется для «зашумленных» данных.

Выбор типа сети производится исходя из постановки задачи и имеющихся данных для обучения. Для обучения с учителем требуется наличие для каждого элемента выборки «экспертной» оценки. Иногда получение такой оценки для большого массива данных просто невозможно. В этих случаях естественным выбором является сеть, обучающаяся без учителя, например, самоорганизующаяся карта Кохонена или нейронная сеть Хопфилда. При решении других задач, таких как прогнозирование временных рядов, экспертная оценка уже содержится в исходных данных и может быть выделена при их обработке. В этом случае можно использовать многослойный перцептрон или сеть Ворда[3].

После выбора общей структуры нужно экспериментально подобрать параметры сети. Для сетей, подобных перцептрону, это будет число слоев, число блоков в скрытых слоях (для сетей Ворда), наличие или отсутствие обходных соединений, передаточные функции нейронов.

При выборе количества слоев и нейронов в них следует исходить из того, что способности сети к обобщению тем выше, чем больше суммарное число связей между нейронами. С другой стороны, число связей ограничено сверху количеством записей в обучающих данных.

После выбора конкретной топологии, необходимо выбрать параметры обучения нейронной сети. Этот этап особенно важен для сетей, обучающихся с учителем.

От правильного выбора параметров зависит не только то, насколько быстро ответы сети будут сходиться к правильным ответам. Например, выбор низкой скорости обучения увеличит время схождения, однако иногда позволяет избежать паралича сети.

Увеличение момента обучения может привести как к увеличению, так и к уменьшению времени сходимости, в зависимости от формы поверхности ошибки.

Исходя из такого противоречивого влияния параметров, можно сделать вывод, что их значения нужно выбирать экспериментально, руководствуясь при этом критерием завершения обучения (например, минимизация ошибки или ограничение по времени обучения).

В процессе обучения сеть в определенном порядке просматривает обучающую выборку. Порядок просмотра может быть последовательным, случайным и т. д.

Некоторые сети, обучающиеся без учителя, например, сети Хопфилда просматривают выборку только один раз. Другие, например, сети Кохонена, а также сети, обучающиеся с учителем, просматривают выборку множество раз, при этом один полный проход по выборке называется эпохой обучения.

При обучении с учителем набор исходных данных делят на две части: собственно обучающую выборку и тестовые данные; принцип разделения может быть произвольным.

Обучающие данные подаются сети для обучения, а проверочные используются для расчета ошибки сети (проверочные данные никогда для обучения сети не применяются). Таким образом, если на проверочных данных ошибка уменьшается, то сеть действительно выполняет обобщение.

Если ошибка на обучающих данных продолжает уменьшаться, а ошибка на тестовых данных увеличивается, значит, сеть перестала выполнять обобщение и просто «запоминает» обучающие данные. Это явление называется переобучением сети или оверфиттингом. В таких случаях обучение обычно прекращают. В процессе обучения могут проявиться другие проблемы, такие как паралич или попадание сети в локальный минимум поверхности ошибок. Невозможно заранее предсказать проявление той или иной проблемы, равно как и дать однозначные рекомендации к их разрешению.

Программа КЕУЯОРЯО обладает рядом преимуществ по сравнению с аналогами.

1. Чтение, запись, редактирование, конвертирование файлов данных, представленных в форматах ^ (СУБД ЖаБе, РохРго, СИррег) и ^ (СУБД Ратаях).

2. Создание слоистых нейронных сетей для решения задач прогнозирования и классификации.

3. Обучение нейронной сети с применением методов градиентной оптимизации

4. Тестирование нейронной сети, получение статистической информации о точности решения задачи.

5. Вычисление и отображение значимости входных сигналов сети, сохранение значений показателей значимости в файле на диске.

6. Внесение случайных возмущений в веса синапсов сети.

7. Упрощение (контрастирование) нейронной

сети.

8. Генерация вербального описания нейронной сети Вербальное описание может редактироваться и сохраняться в файле на диске.

Кроме того, на данном этапе своего развития программа NEYROPRO является свободно распространяемой.

Проанализируем результаты проведённых ап-робационных исследований.

Сначала создается файл базы данных, с которой будет работать программа. Это можно сделать как встроенными средствами Borland Database так и с помощью программы Microsoft Office Access, так как такой возможности в программе NEYROPRO нет.

Процесс проектирования нейронной сети состоит из подключения БД в программу, обучения сети при помощи специальной функции, встроенной в программу и прогона.

Добиться устойчивых результатов удалось при включении во входную сеть поля возраст.

Проверка верификации полученных на основе компьютерного анализа результатов подтвердила достоверность прогнозируемых решений, например: Пучков. Диагноз = 1,2118. Каширихина. Диаг-ноз=1,8612, что близко к диагнозам 1 и 2 соответственно.

Как видно, данные вполне соответствуют предполагаемому результату. Число входных полей было уменьшено по сравнению с 52 полями исходных медицинских данных иммунного статуса.

Для применения выбранных в качестве инструмента компьютерного анализа программных средств для компьютерного анализа созданной БД в полном объёме и повышения степени адекватности информационной модели целесообразно:

- дополнить базу данных по структурным признакам количественной информацией;

- для тех полей, где останется лишь наличие или отсутствие признака, важно провести экспертное исследование важности выбранных структурных показателей и групп основных показателей, для этого желательно провести опрос не менее 10 компетентных экспертов-медиков, каждый из них должен оценить каждый показатель по 10-бальной шкале;

- внести в базу данных информацию о здоровых пациентах;

- чётко сформулировать набор классифицируемых диагнозов.

Таким образом, проведённый комплексный анализ медицинских данных показал, что предложенный подход позволяет извлекать из выборки данных объективные знания о причинноследственных соотношениях (моделях) между входными (независимыми) и выходными (зависимыми) переменными.

Модели извлеченных знаний имеют оптимальную сложность и представлены в удобной и понятной для понимания символьной форме, описываемой компактной системой логических (булевых) функций. Предложенная технология исключает использование в моделях неинформативных переменных и может оперировать с неточными решениями.

При этом результаты моделирования не зависят от влияния субъективных факторов, знаний и умения пользователей.

Предложенная технология может найти широкое применение при создании баз знаний медицинских экспертных систем, систем поддержки принятия решений врача- диагноста.

Литература

1. Саати Т. Принятие решений. Метод анализа иерархий: Пер. с англ. - М.: Радио и связь, 1993. 320 с.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Кулаичев А. П. Методы и средства комплексного анализа данных. -М. : ФОРУМ: ИНФРА-М, 2006.- 512 с.

3. Интеллектуальные системы управления организационно - техническими системами / Под ред. А. А. Большакова.- М.: Горячая линия - Телеком, 2006.- 160 с.

Воронежский государственный технический университет

Научный центр реконструктивно-восстановительной хирургии СО РАМН, г. Иркутск Иркутская областная детская клиническая больница

THE COMPLEX ANALYSIS OF THE MEDICAL DATA

N.E. Samojlenko, V.N.Kuvina, S.S. Kuvin

In article methods of the complex analysis of poorly formalized data in problems of revealing of skry interactions of pa-rametres (signs) of difficult systems that is actual in problems of working out of means of programs of support of decisionmaking in systems of the automated designing of difficult technical objects, in the automated systems of vocational training of experts, and also in systems medical diagnostiki are stated

Key words: the analysis of the data, information model, orthopedy, traumatology

i Надоели баннеры? Вы всегда можете отключить рекламу.