ПРИМЕНЕНИЕ ДЕРЕВЬЕВ РЕШЕНИЙ КАК ИНСТРУМЕНТА ДЛЯ ОПРЕДЕЛЕНИЯ СТЕПЕНИ ЗАБОЛЕВАНИЯ1
© Хачумов М.В.*
Институт системного анализа Российской академии наук, г. Москва
Рассматривается задача классификации степени заболевания мочекаменной болезнью методом деревьев решений (decision trees). Объектом исследования служат сложные графические объекты - полутоновые снимки фаций, полученных путем специальной кристаллизации капель мочи. Описания фаций врачами-экспертами и выделенные из снимков характерные признаки белковой зоны и зоны кристаллизации являются исходной информацией для построения обучающей выборки. Разработаны варианты деревьев решений, которые достаточно точно классифицируют фации по степени заболевания. Качество дерева проверяется путем сравнения результатов автоматического анализа с диагнозом врачей экспертов.
Ключевые слова дерево решений, классификация, интеллектуальный анализ, мочекаменная болезнь, фация мочи.
Введение
Проблема повышения качества оказываемой медицинской помощи актуальна и остро стоит во всем мире. Эффективным способом ее решения является внедрение информационных технологий в клиническую медицину. Современные информационные технологии позволяют повысить качество медицинской помощи путем автоматизации решения различных задач [1]. К ним относится установление предварительного диагноза и определение степени заболевания по медицинским снимкам, путем извлечения и интеллектуального анализа информативных признаков.
Исследование морфологии мочи методами, предложенными в Российском НИИ геронтологии Минздрава России, позволяет получать интегрированную информацию о состоянии органов мочевой системы [2]. С развитием средств анализа изображений, методов искусственного интеллекта и распознавания образов появляется возможность автоматического анализа морфологической картины мочи по интенсивности насыщения кристаллами солей, распределенных по областям фаций, форме и величине кристаллических образований [3]. Фация - это сухая пленка, полученная из капли мочи или другой биологиче-
1 Работа выполнена в рамках проекта РФФИ № 13-07-12162 офи_м «Исследование и разработка методов и алгоритмов синтеза медицинских технологических процессов на основе прецедентной информации».
* Научный сотрудник, кандидат физико-математических наук.
ской жидкости специальным приемом дегидратации. Структура фации является интегрированным образом имеющихся в ней взаимосвязей, поэтому морфологический анализ позволяет выполнять оперативный мониторинг состояния организма человека. В настоящей работе рассмотрены вопросы эффективности автоматической классификации степени мочекаменной болезни с помощью деревьев решений (решающих правил), что позволяет заменить рутинную работу врача - эксперта по сортировке фаций по сложности заболеваний. В исследовании были использованы данные первичной обработки фаций, выполненные в ИЦИИ ИПС им А.К. Айламазяна РАН.
1. Типовые виды фаций при мочекаменной болезни и результаты формализации их представления
На рис. 1 представлены последовательно примеры фаций с нормой (norma), а также низкой (low), умеренной (medium) и высокой (hire) степенью заболеваний мочекаменной болезни.
Рис. 1. Исходные данные для проведения расчетов
Методы предобработки изображений фаций включают фильтрацию, оконтуривание, утоньшение и др. [3]. Для описания граничной зоны фации, имеющей важное значение для нормализации снимка, используются алгоритмы выделения границ, преобразования изображения из декартовой системы координат в полярные координаты и восстановления границы. Для выделения белковой зоны и сравнительного анализа качества белковой и кристаллической зон фации используются методы выявления и исследования закономерностей изменения яркостей в срезах, гистограммы и другие средства.
В результате анализа фации получают перечень информативных характеристик полутонового представления изображений, служащих для постановки первичного диагноза: bw-prot, bw-cryst - определяют соотношение черного и белого цветов в белковой и кристаллической зонах; cryst-prot -отношение bw-cryst / bw-prot; pearson - коэффициент корреляции, предназначенный для сравнения гистограмм яркостей изображений белковой и кристаллической зон фации; lsum и rsum - левая и правая суммы коэффициентов относительно среднего уровня значений дискретного синусного преобразования Фурье (DST), построенного для получения спектрального представления изображения белковой зоны и др.
В табл. 1, показан фрагмент обучающей выборки, содержащей выделенные характеристики фаций. В качестве меры близости изображений белковой и кристаллической зон фации предложено использовать коэффициент корре-
< В, В >
ляции гистограмм этих зон В1 и В2 вида ук (Вь В2) = .р . , где В = |В(/')| -
В IIВ 2 II
вектор значений гистограммы, <В1, В2> = ^В1 (г) В (г), ||В|| = В2 (г).
•ея \ е
Таблица 1
Исходные данные для построения дерева решений
Тип и имя фации bw-prot bw-cryst cryst-prot pearson Lsum rsum
high-08162324 1.926 0.981 0.525 0.868 16741.111 141059.476
high-08162328 0.454 0.442 0.975 0.802 39688.242 105460.980
high-12090438 1.125 2.176 0.525 0.907 21175.462 86829.661
high-12091105 0.439 5.538 0.100 0.261 28330.527 98336.349
high-12091112 0.576 2.103 0.275 0.519 31450.917 144124.837
high-12095800 0.106 7.925 0.025 -0.140 15244.728 125629.593
high-18130142 0.754 1.295 0.600 0.756 18320.701 83408.809
high-18130208 0.814 0.869 0.950 0.909 15435.505 99221.921
high-18130515 2.944 1.905 0.650 0.688 22068.982 180123.185
high-18130702 0.268 5.579 0.050 0.238 15228.316 129468.949
high-18130707 1.532 2.176 0.725 0.825 17901.012 102188.229
high-18130723 1.956 3.411 0.575 0.951 13495.457 75893.002
low-08170734 0.409 0.418 1.000 0.793 14092.767 57032.284
low-08170740 0.498 0.554 0.900 0.936 6063.135 125664.821
low-29184440 0.138 44.092 0.025 -0.275 14159.568 110757.543
low-29184444 0.640 1.762 0.375 0.327 14573.353 79983.080
low-31122644 1.616 0.706 0.450 0.700 14349.401 126347.380
low-31134152 0.598 0.990 0.625 0.859 11145.054 109506.509
medium-08170254 0.094 3.017 0.050 0.118 34518.048 98885.300
medium-0817025 8 0.978 2.613 0.375 0.903 8437.401 141119.250
medium-08170529 0.556 0.446 0.825 0.361 10396.587 121173.842
medium-08170532 0.729 1.439 0.525 0.924 5698.795 120200.243
medium-29181500 0.481 5.733 0.100 0.635 18588.727 102535.687
normal-08155801 0.097 161.755 0.025 -0.407 8419.851 37811.488
normal-08161648 0.109 4.249 0.050 -0.130 7879.355 45101.580
normal-08161653 0.618 0.820 0.775 0.814 5220.540 83132.962
normal-08161816 0.374 2.497 0.150 0.308 3398.417 102013.717
2. Построение дерева решений и оценка качества его работы
Деревья решений строились с использованием алгоритмов CART и C4.5 [4-6]. Алгоритм CART решает задачи классификации и регрессии построением бинарного дерева решений, в котором каждый узел при разбиении имеет двух потомков, а алгоритм C4.5 строит дерево решений с неограниченным количеством ветвей у узла.
В статье был использован принцип интуитивного подбора условий разбиения исходных множеств образцов на каждом шаге с анализом коэффициентов качества. Классификационная модель, представленная в виде дерева решений, учитывает, таким образом, субъективный взгляд разработчика на важность критериев и его понимание решаемой задачи. В то же время, построенное дерево правильно классифицировало учебную выборку, хотя и допускало некоторые сбои на дополнительной выборке, предоставленной экспертами для тестирования. Т.е. качеству дерева решений соответствовала вполне объективная оценка врача-эксперта.
Общий вид одного из деревьев решений построенного с использованием табл. 1 алгоритмом C4.5 показан на рис. 2.
Рис. 2. Дерево решений Результат работы дерева отражен в табл. 2.
Дерево на 58 изображениях дает формально 11 ошибочных решений, что составляет 19 %. Однако следует отличать грубые ошибки от приемлемых отклонений в диагнозе. Как отмечено в таблице, наиболее опасными являются ошибки, когда высокая степень заболевания (high) определяется как норма (normal). Подобных грубых ошибок немного, но они есть. От этих основных и некоторых других ошибок удается избавиться в результате введения дополнительного анализа на основе быстрого преобразования Фурье (БПФ - FFT). В этом случае уточненное дерево имеет вид, показанный на рис. 3.
Таблица 2
Результат работы дерева решений
Тип и имя фации Диагноз Тип и имя фации Диагноз Тип и имя фации Диагноз
high-08162324 high high-18130757 high medium-08170532 medium
high-08162328 high high-29141655 high medium-29181500 medium
high-12090438 high high-29142204 high medium-29185019 high
high-12091105 high hl2h-30114836 normal medium-29185033 medium
high-12091112 high hl2h-31131344 normal medium-31123303 medium
high-12095800 high high-31135856 high medium-31123311 high
high-12095811 high high-31135906 high medium-31124233 high
high-13094115 high high-31142724 high medium -17okt-12 high
high-18125918 high high-31142730 high normal-08155801 normal
high-18125925 high high-31143020 high normal-08161648 normal
high-18125941 high high-31143026 high normal-08161653 normal
high-18125949 high low-08170734 low normal-08161816 normal
high-18130142 high low-08170740 low normal-08165017 normal
high-18130208 high low-29184440 high normal-10091457 normal
high-18130515 high low-29184444 high normal-15191632 normal
high-18130702 high low-31122644 low normal-25100724 normal
high-18130707 high low-31134152 high normal-25141852 normal
high-18130723 high medium-08170254 high normal-29184206 normal
high-18130741 high medium-0817025 8 medium
high-18130748 high medium-08170529 low
Рис. 3. Уточненное дерево решений
Дерево дает восемь неточностей, что составляет 14 %, при отсутствии грубых ошибок. К сожалению, улучшить достигнутое качество классификации при выбранных признаках не удалось, очевидно, необходимы дополнительные дескрипторы и иные механизмы их выделения.
Заключение
В настоящей работе выполнено исследование эффективности применения деревьев решений на примере определения степени тяжести заболевания мочекаменной болезнью. Интеллектуальный анализ данных основан на использовании информативных признаков, полученных на основе изучения фаций по методике применении дискретного преобразования Фурье, меры близости гистограмм белковой зоны и зоны кристаллизации, а также других признаков. Выполненное исследование качества автоматической классификации показало, что деревья решений могут быть использованы для первичной оценки степени мочекаменной болезни и могут быть использованы как инструментарий для поддержки практикующих врачей.
Список литературы:
1. Назаренко Г.И., Осипов Г.С., Молодченков А.И., Назаренко А.Г. Интеллектуальные системы в клинической медицине. Синтез плана лечения на основе прецедентов // Информационные технологии и вычислительные системы. - 2010. - № 1. - С. 24-35.
2. Шабалин В.Н., Шатохина С.Н. Морфология биологических жидкостей человека. - М.: Хризостом, 2001. - 304 с.
3. Мажуга В.В., Хачумов М.В., Алгоритмы обработки изображений для классификации состояний биологических систем // Информационные технологии и вычислительные системы. - 2012. - № 2. - С. 54-63.
4. Quinlan J.R. Induction of Decision Trees - Machine Learning, Kluwer Academic Publishers. - 1986. - № 1 (1). - Р. 81-106.
5. Breiman L., Friedman J.H., Olshen R.A., Stone C.J. Classification and regression trees. - Wadsworth International Group, 1984. - Р. 358.
6. Murthy S.K. Automatic construction of decision trees from data: A multi-disciplinary survey // Data Mining and Knowledge Discovery. - 1998. - № 2 (4). -Р. 345-389.