МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ И ВЫВОДА ПО ПРЕЦЕДЕНТАМ В ПРОГРАММНОЙ СИСТЕМЕ ПОДДЕРЖКИ ВРАЧЕБНЫХ РЕШЕНИЙ
Юдин В. Н., к. т. н. (Институт системного программирования РАН, viidin@ispras .ru).
Карпов Л. Е., д. т. н. (Институт системного программирования РАН, mak@ispras.ru).
Ватазин А. В., д. м. н. (МОНИКИ им. М. Ф. Владимирского, vatazin@vandex.m),
Описывается метод построения интеллектуальных систем поддержки врачебных решений в диагностике и выборе лечения на основе алгоритмов и эвристик вывода по прецедентам (Case Base Reasoning) и интеллектуального анализа данных (Data Mining). Подход основан на предварительном разбиении базы прецедентов на классы эквивалентности, для этого используются методы Data Mining - кластеризация и классификация в пространстве признаков. Решается проблема выбора наиболее подходящих прецедентов (аналогов) в условиях, когда объект исследования не полностью описан и оценивается неоднозначно.
Проблема повышения качества и сокращения сроков медицинской диагностики решается с применением различных методов. В настоящее время в нашей стране и за рубежом разработан ряд систем для информационной поддержки врачебных решений. В них используются методы распознавания образов, искусственный интеллект, многозначная (неклассическая логика), прикладная математическая статистика, теория экспертных систем и т. д. В Институте системного программирования РАН совместно с МОНИКИ им. М. Ф. Владимирского ведётся работа по применению собственных научных наработок в медицине, требующих новых подходов к решению давно поставленных, но всё ещё актуальных проблем.
Изучая эти новые подходы к реализации систем поддержки принятия врачебных решений, авторы поставили перед собой задачу исследовать действенность методов интеллектуального анализа данных (Data Mining) и вывода по прецедентам (Case Base Reasoning) в диагностике и выборе лечения. В данном контексте диагностика рассматривается как оценка состояния пациента и отнесение его к одному из возможных классов, а процесс лечения может рассматриваться как адаптивное управление и трактуется как последовательность управляющих воздействий на больного.
Вывод на основе прецедентов представляет собой метод принятия решений, моделирующий человеческие рассуждения. Метод использует знания о предыдущих ситуациях или случаях (прецедентах), которыми могут быть встречавшиеся ранее проблемы или типичные случаи, а также принятые тогда решения. При рассмотрении новой проблемы (текущего случая) находится похожий прецедент в качестве аналога. Решение, выбранное из аналога, либо используется прямо, либо адаптируется к текущему случаю. При адаптации главные проблемы - поиск алгоритмов адаптации, основанных на взаимозависимости между признаками прецедентов и находящимися в них решениями. После того, как текущий случай будет решен, он вносится в базу прецедентов вместе со своим решением для его возможного последующего использования (рис.1).
Адаптация найденного решения до сих пор остается недостаточно формализованной, сильно зависящей от предметной области, и поэтому не поддающейся автоматизации, задачей. Большинство систем оставляет её человеку. Поэтому цикл вывода выполняется в режиме диалога человек-машина.
Когда выбор прецедентов достаточно велик, нужны специальные меры, чтобы выбрать прецедент, который поможет в решении текущей проблемы. В основе всех подходов к отбору лежит оценка схожести прецедента и текущего случая. Обычно для этого вводится метрика в пространстве признаков, в этом пространстве определяется точка, соответствующая текущему случаю, на основе
метрики находится ближайшая точка, представляющая прецедент. В зависимости от вида признаков, используются метрики Евклида, Хэмминга, Манхэттенская, Махалонобиса, Журавлева, и др. Однако в некоторых случаях ввести метрику не удается. В этих случаях вместо метрики используется так называемая мера близости.
Предложенное решение
Рис. 1 Цикл вывода на основе прецедентов.
Структуризация множества прецедентов помогает облегчить поиск. Различные методы, в том числе методы Data Mining, позволяют выявлять скрытые знания о предметной области. Разбиение множества прецедентов на классы - один из способов ускорить поиск: прецеденты, принадлежащие одному классу, по определению, являются схожими. Классы могут быть построены различными способами: с помощью экспертного знания, на основе обучающей выборки, или путем кластеризации базы прецедентов.
Однако на практике не всегда удается четко разграничить классы, куда попадает текущий случай. Одной из причин этого является недостаток информации в описании текущего случая. Он может попасть в область пересечения классов, другими словами, неоднозначно оцениваться. Проиллюстрируем это на простом примере.
Два непересекающихся класса, A и B (рис. 2), описаны в пространстве признаков (х1, x2}. Текущий случай O представлен одним признаком x1, признак х2 отсутствует. В пространстве признаков {x1} проекции классов пересекаются, и объект попадает в это пересечение.
Классы нужно дифференцировать, добавляя значения недостающих признаков
„ - ~ для текущего случая. В медицине подобная
Рис. 2. Отнесение недостаточно J J *,11
описанного объекта к двум классам задача носит название диффврвнци(ллън(ля
диагностика. На практике добавление может быть затруднено из-за нехватки средств, времени или оборудования. Но главная причина заключается в том, что реальные приложения редко укладываются в рамки фиксированного признакового пространства. Окружающие объекты и описания классов могут иметь свое пространство признаков. В медицине каждое заболевание характеризуется своим набором существенных признаков. Разные
наборы показателей могут быть не только у разных заболеваний, но и в разных случаях одного и того же заболевания. И, наконец, текущий случай может иметь набор показателей, не совпадающий с наборами показателей заболеваний, которые введены в систему. Формально сущность предложенного метода оценки неполностью описанных случаев сводится к следующему:
• Описание случая - набор признаков.
• Описание класса - многомерный параллелепипед, минимально объемлющий прецеденты класса.
• Исследуемый случай сравнивается с проекциями классов на пространство своих признаков.
• Случай может быть отнесен к классу, если он попал в проекцию этого класса.
• Дифференциальный ряд случая - набор классов, в пересечение проекций которых он попал.
• Близкими к случаю считаются прецеденты, принадлежащие классу, в проекцию которого попал случай.
• Аналоги - наиболее подходящие прецеденты. Если случай попал в область пересечения проекций классов, то аналоги случая - прецеденты этих классов, также находящиеся в этой области пересечения. В этом заключается смысл искомой меры близости, отражающей сходство текущего объекта и выбранного прецедента.
В зависимости от сложности пересечения, все аналоги делят на группы. Аналоги, находящиеся в общей с текущим случаем области пересечения, естественно считать более близкими к нему, чем те, что находятся только в одном из классов. В конечном счете, аналоги самого высокого ранга находятся в области пересечения всех классов, образующих дифференциальный ряд текущего случая.
Первоначальный отбор прецедентов может не дать ощутимого результата. Например, наличие в текущем случае всего лишь одного признака «высокая температура» даст обилие аналогов. Тогда нужно либо согласиться, что с таким набором признаков проблему не решить, либо наращивать этот набор.
Информацию о том, какие дополнительные признаки нужно выявить, содержат сами аналоги. На рис. 3 одномерный текущий случай x=a попадает в проекции классов xy и xz. Для сравнения с аналогами из класса xy ему не хватает признака у, с аналогами из класса xz - признака 2.
Рис. 3. Использование аналогов для определения недостающих признаков у текущего случая
Цикл отбора прецедентов, таким образом, разбивается на этапы:
1. Отбор аналогов для текущего случая.
2. Оценка адекватности полученного набора (выполняет человек). Если «да», то отбор закончен. Если «нет» - к следующему этапу.
3. Составление ранжированного списка дополнительных признаков с целью дифференцировать классы (перечень таких признаков можно выбрать из самих прецедентов).
4. Попытка выявления дополнительных признаков (выполняет человек). Часть признаков заведомо не удастся выявить. Если выявить невозможно, цикл прекращается с отрицательным результатом.
Нет четких критериев для решения о том, какие прецеденты можно использовать, а какие - нет. Решение всегда остается за человеком. Он принимает его, используя свои знания о предметной области, в дополнение к тому знанию, которое имеется в системе.
Описанный метод управления воплощен в программной системе Спутник Врача, обеспечивающей поддержку врачебных решений в диагностике и выборе лечения. В отличие от большинства экспертных систем, применяемых в медицине, Спутник Врача не навязывает врачу своего решения. Она не ограничена отдельной областью медицины, может быть использована врачами специализированных лечебных учреждений, поликлиник, а также для обучения студентов и практикантов.
Работа выполнена при поддержке Российского Фонда Фундаментальных Исследований, проекты № 06-07-89098-а и № 06-01-00503-а.
1. Klaus-Dieter Althof, Eric Auriol, Ralph Barlette, and Michel Manago. "A Review of Industrial Case-Based Reasoning Tools", AI Intelligence, 1995.
2. V.N. Yudin. Applying Cluster Analysis for Searching for Analogs in Diagnostics and Choice of Treatment. Pattern Recognition and Image Analysis, Vol. 13, No. 4, 2003, pp 706-713.
3. Л. Е. Карпов, В. Н. Юдин. Методы добычи данных при построении локальной метрики в системах вывода по прецедентам. Институт Системного Программирования РАН, Препринт, 2006.
4. Л. Е. Карпов, В. Н. Юдин. "Интеграция методов добычи данных и вывода по прецедентам в медицинской диагностике и выборе лечения". Сборник докладов 13-й Всероссийской конференции "Математические методы распознавания образов (ММРО-13)", октябрь, 2007, стр. 589-591.
APPLICATION OF DATA MINING AND CASE BASE REASONING IN SOFTWARE SYSTEM FOR PHYSICIAN’S DECISION SUPPORT.
Yudin V. N., Ph. D. (Institute for System Programming, Russian Academy of Sciences, yudin@ispras.ru).
Dr. Karpov L. E. (Institute for System Programming, Russian Academy of Sciences, mak@ispras.ru),
Dr. Vatazin A. V. (MONIKI, vatazin@yandex.ru),
The integrated approach for building the physician’s decision support systems was developed. This approach is based on using the Data Mining in Case-Based Reasoning. The technique was used which permits the lack of attributes for investigated object, so this object can be treated ambiguously. Using the approach, one can separate the case base into the equivalence classes in the attribute space and use the measure of closeness that takes into account the ambiguous estimations of the objects from the class intersections.