Анализ данных
www.idmz.ru
2007,
ГЧЯЯ
I Ы.МЯЯ
В.К.ФИНН, В.Г.БЛИНОВА, Е.С.ПАНКРАТОВА, Е.Ф.ФАБРИКАНТОВА,
Всероссийский институт научной и технической информации Российской академии наук, г.Москва
ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ
ДЛЯ АНАЛИЗА МЕДИЦИНСКИХ ДАННЫХ.
Часть 3*
В статье
представлен
метод
качественного анализа данных посредством компьютерных интеллектуальных систем и его применение для задач
фармакологии и медицинской диагностики. Части 1 и 2 статьи были опубликованы в «ВиИТ», 2006, №5-6.
5. МЕДИЦИНСКАЯ ДИАГНОСТИКА Общее описание задач
Врачам часто бывает затруднительно проанализировать в совокупности результаты специальных обследований больного. Наш опыт общения с экспертами-врачами различных медицинских учреждений** разных специальностей показывает, что им хотелось бы иметь интеллектуальную систему, помогающую в принятии решения при диагностике различных заболеваний и при выборе способа лечения конкретного больного. В силу реализации ДСМ-метода в интеллектуальных системах, работающих в интерактивном режиме, ДСМ-метод удобен для решения задач мониторинга различных медицинских эффектов, представленных в базах фактов для клинических данных.
Таким образом, анализ данных средствами ДСМ-рассуждений является новым средством формализованного качественного анализа данных в интеллектуальных системах (с возможно дополнительным применением вычислительных алгоритмов в случае наличия числовых параметров).
Рассмотрим общие принципы построения интеллектуальных ДСМ-систем для применения в медицине на примерах трех поставленных задач:
1. Прогнозирования высокопатогенных типов вируса папилломы человека (ВПЧ) по цитологическим результатам исследования мазков (кафедра клинической и лабораторной диагностики Российской медицинской академии последипломного образования).
*Работа выполнена при финансовой поддержке РФФИ (проект № 05-01-00914).
**Кафедра клинической и лабораторной диагностики Российской медицинской академии последипломного образования; лаборатория клинической физиологии зрения МНИИ глазных болезней им. Гельмгольца; отделение нефрологии Городской клинической больницы им. Боткина.
© В.К.Финн, В.Г.Блинова, 2007 г.
© Е.С.Панкратова, Е.Ф.Фабрикантова, 2007 г.
51
Анализ данных
Мр
W-ЩШШ
kJH
I и информационные
технологии
2. Диагностики двух заболеваний глаз: дегенеративного ретиношизиса и наследственных витреоре-тинальных дистрофий (лаборатория клинической физиологии зрения МНИИ глазных болезней им. Гельмгольца).
3. Диагностики системной красной волчанки (отделение нефрологии Городской клинической больницы им. Боткина).
Настройка ИНТ ДСМ на каждую из перечисленных задач должна включать в себя следующее:
® разработку языка представления данных;
© определение понятия «объект» и «свойство» в терминологии ДСМ-метода;
© определение аксиом предметной области;
© задание операции сходства;
© задание отношения вложения.
Разработка языка представления данных
Первоначальной задачей является разработка языка представления данных. Эта работа ведется совместно со специалистами-медиками. Врач перечисляет все возможные признаки описания больного или описания конкретного анализа больного, по которым надо делать прогноз наличия или отсутствия конкретного заболевания либо определить подходящий способ лечения.
Анализируя признаки заболеваний, предоставленные врачами различных специальностей, можно выделить несколько различных типов данных:
a) в кортеже длины «и» (где и - количество элементов списка признаков) указываются присутствующие качественных признаки, вместо отсутствующих признаков ставится Л (пустой элемент):
El(1> = <Atv...,At....At >
В задаче © - рефракция:
El(I> = < миопия, Л, астигматизм>;
b) указывается один из возможных качественных признаков:
El(2> = At, i € [l,...,n],
где n-число признаков в списке.
В задаче ©: El - длительность нефрита (до 3 месяцев, 3 месяца - 1 год, 1 год - 3 года, 3 года - 10 лет, больше 10 лет), выбирается один из интервалов, например, El(2> = At3;
c) в и-элементном кортеже указываются все присутствующие (+) и все отсутствующие (-) признаки из заранее разработанного списка, наличие или отсутствие остальных признаков считается неизвестным (т):
El(3> <<Atpk1>,...,<At,k>,...,<Ati,k>>, k.€[+,-,f},
где при
k. = T,<At,k> = Л
i 7 i i
Пример из задачи ©: El(3> - стекловидное тело: At1 - «плавающие помутнения +»;
At2 - «нитчатые помутнения -»;
At3 - «мембраны т»;
At4 - «выраженная зернистая деструкция +»;
At5 - «преретинальные пленки +»;
At6 - «шварты т»;
At7 - «задняя отслойка стекловидного тела +». El(3> = <<At, +>, <At2, ->, Л, <At, +>, <At, +>, Л, <At7, +>>;
d) указывается норма признака или интервал отклонения признака от нормы с указанием направления отклонения:
El(4> = <At,dir,k>, где
dir € [i, N, t N - норма признака;
i - отклонение от нормы в сторону уменьшения; t - отклонение от нормы в сторону увеличения; k € [1, 2, 3, 4, 5}.
Пример из задачи ©: антитела к ДНК до 20 ед. (норма до 20 ед.):
1.21-30 2. 31-40 3.41-100+
4. 101-200
5. свыше 201
El(4> =<антитела к ДНК, t, 3> (антитела к ДНК выше нормы, значение параметра находится в интервале от 40 до 100 ед.).
е) указывается конкретный признак иерархической структуры со знаком «+» или «-» («т» по умолчанию).
Пример из задачи ©: изменение сосудов сетчатки (да - нет, t):
At1 - изменение артерий;
At11 - сужение артерий;
At12 - расширение артерий «-»;
Анализ данных
www.idmz.ru
2007,
W-ЩШШ I Ы.МЯЯ
At13 - извитость артерий;
At2 - изменение вен;
At2I - сужение вен;
At2 2 - расширение вен «+»;
At2 3 - извитость вен;
At3 - новообразованные сосуды;
At4 - муфты по ходу сосудов;
At5 - шварта сосудов.
El( } - <Atjj.р Atjj. 1. р Atjj. 1. 2Г• •> Используются следующие аксиомы:
AtII22 - + = At II2 - + : «значение параметра «+» переходит (=) на предыдущий уровень»; AtII.I.1- - = AtILI - Л: «значение параметра «-» не переходит на предыдущий уровень»•
Е1(5)—<Л Л Л Л Atii.2 + Л At1122+ Л Л Л Atns->
Определение операции сходства
Операция сходства над объектами («П») определяется поэлементно:
O’- <El’p El’r••, El’i>
O” - < El”, El”,-, El”n>,
О’ПО” - <El\n El”, El’2 n ElEl’31 n El”31> Сходство элементов кортежей («n») определяется в зависимости от того, какому типу данных принадлежит признак:
El(I’4)\ -<At,k’> (1)
El(I’4)’\ -<At,k”>
l Y
El(I)’ n El(I)”
Л, если< A^i,ki' > = Л или < Ati,k«” >=Л
c Ati,min jk,,ki” j;
В случае непустых значений исходных элементов в результате операции сходства имеем кортеж: название атрибута и наименьшее значение из двух исходных коэффициентов выраженности:
El(I)’ - <At1’,:;At.’,:;Atn’>*
ei(I) ”- ^t^-Je^At ”>
El(I)’n El(I)” - <Atr!,Atp-,At>,
где At. -
l
Л, если At A = Л илиА(”Л Ati, иначе
(2)
*Здесь и далее в объектах i е {1,...,n}, n - число признаков в списке.
В результирующем кортеже присутствуют только те признаки, которые имеются в обоих исходных кортежах.
El(2)’ - At.’ (3)
El(2)”- At”
El(2) ’ n El(2) ” -
Л иначе
Сходство имеет место только в случае совпадения признаков исходных элементо:
(4)
El(3)’ - <<Atpkj’>,:;<At^k.’>,:;<Att!k >>, к’е{+,-,т) E(3)” - <<Atpk1”>f:.f<At.fki”>f:;<Atrfkn”>>f k.”e{+,-,T При k.- % <At,k> - Л
El(3)’n El(3)” - <<At,kr>r„,<At,k.>,-,<At.k >> При kI’ &k” <Atpk> - Л
Ati, если Ati = Atj
В результирующем кортеже присутствуют только те признаки (со знаком «+» или «-»), которые в исходных кортежах имеют одновременно знак «+» или знак «-».
(5)
В(4)’-<At,dk’,k>, где (Иг’е{1, N, 1), аk’e{1,2, 3,4, 5} E(4)”-<At,dfr”,k’>, где db”e{l, N, 1), а k”e{If 2, 3,4f 5)
El(4)’n El(4)”
< At, dir, min
>.
если dir, = dir”
Л, иначе
Сходство имеет место, если значения «норма» имеются в обоих исходных кортежах или же в исходных кортежах совпадают направления отклонения от нормы. В результирующем кортеже интервал отклонения от нормы выбирается минимальным:
El } <AtILP AtILLP AtIII.Г" >
Е1(5> - <AtILP AtIUP AtIUP•••>
(6)
El(5)’n El(5) ” -
< Atu,...,Atij.k,... >, если At’i.j.k = Af’i.j.k = +
или At’i.j.k = Af’i.j.k =-,
Л, иначе
В результирующем кортеже с соответствующим знаком присутствуют только совпадающие по знаку («+» или «-») атрибуты.
Анализ данных
Мр
W-ЩШШ
kJH
I и информационные
технологии
Определение отношения вложения
Определяются два типа вложения: сильное и слабое. При сильном вложении требуется вложение одноименных элементов со значениями «+» и «-» в соответствующие элементы со значениями «+» и «-». При слабом вложении допускается вложение элементов со значениями «+» и «-» в элементы «т», запрещается только вложение атрибутов противоположных знаков.
Прогнозирование высокопатогенных типов вируса папилломы человека (ВПЧ) по цитологическим результатам исследования мазков
Задача прогнозирования высокопатогенных типов вируса папилломы человека (ВПЧ) по цитологическим результатам исследования мазков была поставлена кафедрой клинической и лабораторной диагностики Российской медицинской академии последипломного образования.
Классическим цитологическим проявлением инфекции ВПЧ считаются койлоциты (клетки с характерными изменениями ядра и цитоплазмы). Однако койлоциты встречаются при ВПЧ и высокого, и низ-
кого риска и не всегда они обнаруживаются при различных формах инфекции. Имеется также ряд косвенных признаков ВПЧ-инфекции: паракератоз, дис-кератоз, амфофилия цитоплазмы, наличие двухъядерных клеток и др. В доступной нам литературе мы не встретили работ, в которых проводился бы анализ сочетания различных прямых и косвенных цитологических признаков, характерных для ВПЧ-инфек-ции, а также прогностического значения различных признаков и их сочетания.
Анализ поставленной задачи подтвердил возможность применения ДСМ-системы. Здесь выполняются требования структурированности данных: в каждом мазке, по которому делается прогноз наличия или отсутствия ВПЧ, отмечаются полуколичественно в зависимости от выраженности (от + до +++), характерные цитологические признаки. Список цитологических признаков приведен в первом столбце табл. 1.
Настройка существующей ДСМ-системы на новую предметную область заключается в определении понятий «объекта», «свойства», операции сходства и отношения вложения, а также во введении необходимых аксиом предметной области.
Цитологические признаки
Таблица 1
Признак №325 hyp № 34 № 37 №110 №187 №284 №298
i 2 3 4 5 6 7 8 9
Амфофиллия цитоплазмы 3 1 1 1 1 1 3 3
Атипическая плоскоклеточная метаплазия 1 0 0 0 0 0 2 0
Структуры с атипией 0 0 0 0 0 0 2 2
Гиперкератоз 1 1 1 1 1 1 1 1
Двухъядерные клетки с укрупненными ядрами 2 1 2 1 2 2 2 2
Дегенеративные изменения 1 0 1 1 0 2 1 1
Дискариоз 0 0 1 0 1 0 3 3
Дискератоз 0 0 0 0 0 0 1 2
Явные признаки дисплазии 0 0 0 0 0 0 3 3
Классические койлоциты с крупным дегенеративным ядром 2 2 3 3 2 2 2 2
Плоскоклеточная метаплазия 3 0 0 0 2 2 1 2
Многоядерные клетки 0 0 1 0 0 0 1 3
Паракератоз 3 1 1 1 1 1 3 3
Клетки,подозрительные на койлоцитоз 3 0 0 0 0 1 1 1
Степень дисплазии 0 0 0 0 0 0 3 3
Структуры без атипии 1 1 1 1 1 2 1 2
Клетки с укрупненными ядрами 3 1 1 1 1 2 3 2
Пустоты в цилиндрическом эпителии 0 0 0 0 0 0 0 0
Анализ данных
Сотрудниками кафедры клинической лабораторной диагностики Российской медицинской академии последипломного образования был предоставлен массив результатов исследования мазков (БФ), полученных от 324 больных с указанием наличия или отсутствия вируса ((+)- и (-)-примеров, с точки зрения ДСМ), а также массив из 31 результата исследования мазков без указания наличия или отсутствия вируса, информация о которых имелась только на кафедре (т)-примеров.
На первом этапе средствами ДСМ-системы п.п.в.1 (индукцией - выявлением причин эффектов на основе обнаруженных сходств фактов) порождались гипотезы 1-го рода: «Наличие в мазке конкретного набора цитологических признаков с конкретной степенью выраженности есть причина наличия или отсутствия вируса». Порожденные гипотезы являлись фрагментами БЗ.
На втором этапе правилами 2-го рода (аналогией - правдоподобных выводов, использующих ранее обнаруженные индукции: наличие положительных или отрицательных причин в фактах с неопределенной оценкой, требующей уточнения - наличия или отсутствия изучаемого эффекта) доопределялось наличие или отсутствие вируса в мазках, данных на прогноз.
Следует отметить, что в данном компьютерном эксперименте использовались следующие варианты стратегий:
♦ простой метод сходства;
♦ метод сходства с запретом на контрпримеры (по сравнению с простым методом сходства требовалось дополнительное условие невложения порожденных гипотез в исходные примеры противоположного знака).
В случае простого метода сходства было порождено 19 отрицательных доопределений (прогнозировалось отсутствие ВПЧ). В случае метода сходства с запретом на контрпримеры было 12 положительных доопределений (прогнозировалось наличие ВПЧ). Следует отметить следующий факт: не было случая противоречивого доопределения, то есть доопределения одного и того же примера положитель-
www.idmz.ru
2007,
W-ЩШШ I Ы.МЯЯ
9 0 9
ным в одном варианте стратегий и отрицательным в другом. В результате работы система правильно доопределила наличие или отсутствие ВПЧ в 30 мазках из 31, данного на прогноз: результаты совпали с имеющимися на кафедре данными [1].
Поясним работу системы на примере. В столбце №1 табл. 1 перечислены цитологические признаки. Столбцам №4-10 соответствуют исходные положительные примеры из БФ № 34, 37, 110, 187,
284, 298, где 0 означает отсутствие признака, а 1, 2, 3 - присутствие цитологического признака с соответствующей степенью выраженности. Положительной гипотезой (столбец №3), полученной п.п.в.1 из исходных положительных примеров из БФ №34, 37, 110, 187, 284, 298 (столбцы №4-9), при помощи п.п.в.2 доопределено наличие ВПЧ примера №325 из БФ.
Второй эксперимент проводился на аналогичном массиве из 245 больных. Система правильно доопределила 58 случаев и неправильно 1 [2].
Диагностика двух заболеваний глаз: дегенеративного ретиношизиса и наследственных витреоретинальных дистрофий
В задаче объект, соответствующий истории болезни конкретного больного, представляет собой кортеж из 31 элемента:
0 = <Е1Г..., Е1}1>
Каждый элемент этого кортежа соответствует конкретному признаку. В соответствие с языком представления данных каждый элемент объекта принадлежит одному из 5 типов или же является комбинацией каких-либо типов.
Так как задачей врача является диагностирование одного из двух заболеваний дегенеративного ретиношизиса и наследственных витреоретинальных дистрофий, то в терминологии ДСМ-метода эти заболевания являются свойствами.
Компьютерный эксперимент проводился на данных обследования 50 больных, у 21 из которых был поставлен диагноз дегенеративный ретиношизис миопический.
Анализ данных
Мр
W-ЩШШ
kJH
I и информационные
технологии
На первом этапе средствами ДСМ-системы п.п.в.1 (индукцией) порождались гипотезы 1-го рода: «Наличие у больного конкретного набора признаков есть причина наличия или отсутствия диагноза дегенеративного ретиношизиса миопического». Например, набор следующих признаков: «характер заболевания - приобретенный; общая характеристика ЭРГ -умеренно субнормальная; макулярная ЭРГ - субнорма; функциональное состояние фоторецепторов -угнетение умеренное; РЭРГ на 30 Гц - субнорма», есть причина диагноза дегенеративного ретиноши-зиса миопического.
Порожденные гипотезы являлись фрагментами БЗ.
На втором этапе с использованием гипотез 1-го рода правилами 2-го рода (п.п.в.2 - аналогией) доопределялось наличие или отсутствие дегенеративного ретиношизиса миопического у больных, представленных на прогноз.
В результате компьютерного эксперимента у 38 больных диагноз был определен верно. Ошибок нет. Остальные недоопределены.
Диагностика системной красной волчанки (СКВ) по клиническим и лабораторным признакам больного
Объект аналогично предыдущей задаче соответствует истории болезни конкретного больного и представляет собой кортеж из 61 элемента:
О. = <Е1р...., Е161>
Каждый элемент этого кортежа соответствует конкретному признаку, причем некоторое количество признаков повторяют признаки задачи ©. Как и в предыдущей задаче, каждый элемент объекта также принадлежит одному из 5 типов или же является комбинацией каких-либо типов. Свойством является постановка диагноза СКВ.
Компьютерный эксперимент проводился на клинических и лабораторных данных обследования 85 больных, у 64 из которых был поставлен диагноз СКВ.
Для каждого больного экспертами-врачами разработан список клинических и лабораторных признаков, важных для этого заболевания.
На первом этапе средствами ДСМ-системы п.п.в.1 (индукцией) порождались гипотезы 1-го рода: «Наличие у больного конкретного набора признаков есть причина наличия или отсутствия диагноза заболевания СКВ». Например, набор следующих признаков: лихорадка, наличие на коже «бабочки» и поражение суставов, есть причина для установки диагноза СКВ.
Порожденные гипотезы являлись фрагментами БЗ.
На втором этапе с использованием гипотез 1-го рода правилами 2-го рода (п.п.в.2 - аналогией) доопределялось наличие или отсутствие СКВ у больных, представленных на прогноз. В результате компьютерного эксперимента у 53 больных диагноз был определен верно, у двух - ошибочно, остальные недоопределены.
Таким образом подтверждается возможность использования ДСМ-метода автоматического порождения гипотез в области медицинской диагностики, где недостаток формальных знаний может быть «скомпенсирован» богатым фактическим материалом. В некоторых областях медицины, находящихся на стадии феноменологического описания и накопления данных, развитые логико-математические методы порождают гипотезы о причинно-следственных зависимостях, служат для пополнения знаний на основе имеющихся фактических данных и являются средством усиления интеллектуальных возможностей экспертов-медиков.
ЗАКЛЮЧЕНИЕ
Рассматривемый ДСМ-метод автоматического порождения гипотез является примером интеллектуального анализа медицинских данных [3], в котором на основе базы фактов порождаются гипотезы о причинах изучаемых эффектов (процедура индукции). Эти гипотезы образуют фрагмент базы знаний, который используется для предсказания изучаемых эффектов (процедура аналогии). Качество же (то есть информативность) БФ проверяется с помощью процедуры абдукции. Все эти процедуры образуют эвристику для решения медицинских задач.
Анализ данных
Отметим, что распространенный сейчас термин evidence based medicine [4], к сожалению, переведен как «доказательная медицина», а не как «медицина, основанная на очевидных фактах». Между тем методы, относящиеся к evidence based medicine, основаны на установленных фактах и используют эти факты как аргументы при принятии решений в медицине, в частности, для диагностики по клиническим данным. Смысл этого термина состоит в том, что решения, принимаемые врачами, должны быть аргументированными (но не доказанными - ведь авторы говорят о вероятных прогнозах, то есть о гипотезах!), что означает, что принимаемые решения используют аргументы, извлеченные из клинических данных. Однако заметим, что данные могут быть не только количественными, они могут включать также качественные параметры.
www.idmz.ru
2007,
ГЧЯЯ
I Ы.МЯЯ
9 0 9
Приведенные выше примеры говорят о том, что ИС, основанные на ДСМ-методе автоматического порождения гипотез, относятся к evidence based medicine.
Следует обратить внимание на то, что использование только вычислительных методов для решения рассматриваемых задач не дает объяснений механизмов явлений. Однако одновременное использование интеллектуального анализа данных (на основе структурного сходства) и вычислительных методов создает возможность взаимной верификации и фальсификации результатов, а для вычислительных методов фрагменты-причины, полученные посредством установления структурного сходства, являются еще и интерпретацией их результатов.
ЛИТЕРАТУРА
1. Панкратова Е.С., Панкратов Д.В., В.К.Финн В.К., Шабалова И.П. Применение ДСМ-метода для прогнозирования высокопатогенных типов вируса папилломы человека//НТИ. Сер 2. - 2002. -№6. - С.22-26.
2. Цидаева И.Г. Критерии цитологической диагностики онкогенных типов вируса папилломы человека: Автореферат дисс.... на соискание ученой степени канд. мед. наук. - Москва, 2003.
3. Финн В.К. Об интеллектуальном анализе данных//Новости искусственного интеллекта. - 2004. - №3. - С.3-18.
4. Флетчер Р, Флетчер С., Вагнер Э. Клиническая эпидемиология//Основы доказательной медицины. - М.: Медиа Сфера, 2004.