Научная статья на тему 'Оценка эффективности диагностических правил базы знаний при решении задач медицинской диагностики'

Оценка эффективности диагностических правил базы знаний при решении задач медицинской диагностики Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
141
41
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСШИРЕНИЕ ЗНАНИЙ / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / ВРАЧЕБНАЯ ДИАГНОСТИКА / КЛАСТЕРЫ / КЛАССИФИКАЦИЯ / KNOWLEDGE EXPANSION / DATA MINING / MEDICAL DIAGNOSTICS / CLUSTERS / CLASSIFICATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Саруханов Б. А., Карп В. П.

Разработана концепция приобретения новых профессиональных знаний специалиста. Предложен алгоритм семантического анализа базы знаний. Определена методика оценки мощности кластеров диагностических правил. Продемонстрирована эффективность результатов исследования на примере конкретной медицинской задачи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Саруханов Б. А., Карп В. П.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DIAGNOSTIC RULES EFFICIENC ESTIMATION IN SOLUTION OF MEDICAL DIAGNOSTICS TASKS

A concept of a specialist’s new professional knowledge acquisition is developed. An algorithm of knowledge base semantic analysis is suggested. A new method of diagnostic rules clusters estimation is defined. Study results efficiency is shown on an example of specific medical task.

Текст научной работы на тему «Оценка эффективности диагностических правил базы знаний при решении задач медицинской диагностики»

Sarookhanov B. A., Karp V.P.

Moscow State Technical Univercity of Radioengineering, Electronics and Automation

DIAGNOSTIC RULES EFFICIENC ESTIMATION IN SOLUTION OF MEDICAL DIAGNOSTICS TASKS

Abstract. A concept of a specialist’s new professional knowledge acquisition is developed. An algorithm of knowledge base semantic analysis is suggested. A new method of diagnostic rules clusters estimation is defined. Study results efficiency is shown on an example of specific medical task.

Key words: knowledge expansion, data mining, medical diagnostics, clusters, classification.

Саруханов Б. А., Карп В. П.

Московский государственный технический университет радиотехники, электроники и автоматики

ОЦЕНКА ЭФФЕКТИВНОСТИ ДИАГНОСТИЧЕСКИХ ПРАВИЛ БАЗЫ ЗНАНИЙ ПРИ РЕШЕНИИ ЗАДАЧ МЕДИЦИНСКОЙ ДИАГНОСТИКИ

Аннотация. Разработана концепция приобретения новых профессиональных знаний специалиста. Предложен алгоритм семантического анализа базы знаний. Определена методика оценки мощности кластеров диагностических правил.

Продемонстрирована эффективность результатов исследования на примере конкретной медицинской задачи.

Ключевые слова: расширение знаний, интеллектуальный анализ данных, врачебная диагностика, кластеры, классификация.

Проблема принятия решений в условиях не-определённости остаётся актуальной практически во всех областях человеческой деятельности. Особенно явно она проявляется там, где высока ответственность лица, принимающего решения (например, в медицине). В таких областях объекты исследования часто характеризуются как сложно организованные, нередко возникает необходимость принятия решения в условиях неполной и/или зашумленной информации.

В последнее время в качестве решения данной проблемы всё активнее применяются компьютерные системы поддержки принятия решений (СППР). Основу таких систем составляют базы

знаний (БЗ), состоящие из набора решающих правил, способных поддержать принятие решений специалистом. Способы представления таких правил в базах знаний могут быть различны, выбор той или иной модели обусловлен особенностями решаемой задачи [2].

Данная статья посвящена решению проблемы, возникающей при практическом использовании специалистом диагностических правил (ДП), построенных для решения задачи медицинской диагностики. В этом случае БЗ представлена двумя списками продукционных правил за каждый из сравниваемых классов. Фрагмент БЗ в компьютерном виде представлен в табл.1.

№ п/п a B c Wi NA NiB

i 55 59 289 3,384 4l 0

53 55 289 3,384 4l 0

k 126 ll 59 2,954 30 0

Табл. i. Фрагмент компьютерной базы знаний

Обычно каждое правило БЗ рассматривается отдельно от остальных, что с одной стороны облегчает его интерпретацию, но с другой - может вызвать у специалиста затруднения при попытке «охватить» всю картину проблемы целиком [1].

Решением этой проблемы может служить объединение ДП в группы на основе их содержательной близости (такие группы называются кластерами). Разработанный алгоритм кластеризации диагностических правил [3, 4, 5] позволяет

—--------------------------—

выявлять скрытые связи в ДП и анализировать области (скопление объектов), описываемые кластерами этих правил. На рис.1 приведён пример построенного кластера ДП базы знаний для задачи диагностики состояния новорожденных. Кластер состоит из трёх частей (подкластеров), они обозначены овалами и пронумерованы (1.1, 1.2, 1.3). В ячейках подкластера указаны номера симптомов (конкретных значений определённого медицин-

ского показателя, важного для постановки диагноза), входящих в него. В скобках указано количество объектов за оба класса состояний, у которых проявляется ДП. Например, в первом подкла-стере присутствуют симптомы 55, 59 и 237, комбинация которых встречается у 59 объектов из неблагополучного класса (класс А) и у 2 объектов из благополучного (В).

Рис.і. Пример кластера за класс А

Интерпретация кластеров специалистами осуществляется при помощи таблиц соответствия номеров симптомов и их смыслового значения. Специалист, анализируя набор правил, вошедших в кластер, описывает его элементы на своём профессиональном языке.

На рис. 2 изображены примеры интерпретации специалистами подкластеров 1.1, 1.2 и 1.3 (фрагментов кластера №1). Следует отметить, что в ДП «базовые» симптомы по своему смысловому содержанию могут быть как факторами-причинами, так и следствиями.

59 55

48 (41-0) 289 (47-O)

297 (3O-O)

2З7 (59-2)

4 (16-O)

303 (ІЗ-O)

305 (13-O)

371 (12-O)

i.i

(5-0) 284 85

(32-0) 126 126

59

i.2

94 77 (18-0)

245 77 (41-0)

55

l.3

Типичным для врождённого сифилиса является отсутствие дородового лечения матери (55&59), сопровождаемое высокой степенью позитивности нетрепонемных тестов (>5) как у матери в околородовый период (237), так и у новорожденного (305), причём титры ребёнка могут быть выше материнских (371).

Наличие клинических проявлений (126) при отсутствии лечения матери во время бе ременности (59) является основным фактором при диагностике врождённого сифилиса, который может поддерживаться такими симптомами, как низкий вес при рождении (менее 3000 г.) (85) и повышением индексов нетрепонемных тестов матери от второго триместра к родам (284).

Диагноз «врождённый сифилис» характерен для новорожденных, матери которых не лечились до беременности (55) и не получили профилактического лечения (77) во время беременности, на фоне высокого индекса разведения нетрепонемных тестов в околородовый период (>=5) (245) и ранними родами (на сроке 31-35 недель недель) (94).

Рис.2. Пример интерпретации подкластеров кластера №i за класс А

Представление структуры проблемной области в виде кластеров позволяет увидеть дополнительные связи между симптомами, участвующими в разных диагностических правилах БЗ, но ока-

завшихся в составе одного кластера. Это облегчает задачу специалисту, ведущему построение обобщённой картины проблемной области по со-

вокупности анализа всех кластеров, выявленных алгоритмом.

Для этого специалисту может потребоваться информация о том, на каком множестве объектов материала исследования (и на каких именно объектах) проявляется (встречается) каждый из кластеров; а также, насколько они дополняют друг друга на всем материале исследования.

Для предоставления специалисту возможности получить эту информацию разработан алгоритм «Оценка мощности ДП кластера (подкласте-ра)» (ОМК-ДП), позволяющий дать количественную оценку встречаемости каждого подкластера (и кластера в целом) на заданном множестве объектов.

Алгоритм ОМК-ДП вычисляет, как часто ДП одного кластера (или подкластера) обнаружены на объектах исследования. Для этого алгоритмом фиксируется информация о том, какие правила конкретного подкластера были обнаружены у каждого объекта. При формировании списка ДП для текущего кластера алгоритм формирует список объектов, имеющих хотя бы одно из этих пра-

вил. Доля таких объектов относительно объема (количества объектов) соответствующего класса является показателем мощности ДП кластера. Алгоритм предусматривает также формирование информации о мощности ДП кластера относительно всего материала обучения.

В табл. 2 приведен пример расчета мощности кластера №1, (представленного ранее на рис.1), относительно «своего» класса обучения (класса А), относительно альтернативного (сравниваемого) класса - В, а также относительно всего материала.

Используемые в таблице обозначения:

Ыа - общее количество объектов класса А в материале обучения (165).

ЫЬ - общее количество объектов класса В в материале обучения (150).

Ы(А+В) - объём материала обучения (315 объектов).

Ыка - кол-во объектов класса А, охваченных кластером (подкластером).

ЫкЬ - кол-во объектов класса В, охваченных кластером (подкластером).

Табл. 2.Оценка мощности подкластеров и кластера №1 относительно каждого класса обучения и

материала обучения в целом

Мощность подкластеров кластера №i (кл .А) Кол-во объектов, охваченных подклас-тером ( Nka - Nkb) Мощность относительно классов (Nka/Na - Nkb/Nb) Мощность относительно материала обучения (Nka+Nkb)/N(А+В)

і 2 3 4 5

Подкластеры i.i 84-2 5o,9%-i,3% (84+2)/зі5 = (27,3%)

l.2 зб-o 2i,8%-o% 36/3^ = (ii,4%)

l.3 49-° 29,7%-o% 49/3і5 = (i5,6%)

Кластер №i (i.ivi.2vi.3) 9l-2 55,2%-i,3% (9і/і65 - 2/i5o) 93/3i5 = (29,5%)

Иными словами, используя алгоритм ОМК-ДП можно количественно оценить, насколько типичными (для кл. А) являются выявленные связи между ДП подкластеров и кластера в целом (столбец №4), или какую долю в определении специфичности каждого класса играет кластер ДП в целом или его подкластеры (столбец №5). Из таблицы 2 следует, что кластер №1 в совокупности охватывает 93 объекта МО - 91 объект из «своего» класса (кл. А), и 2 объекта из альтернативного класса (кл. В). Суммарная мощность кластера №1 относительно кл. А составляет 55,2%, а относительно кл. В - 1,3%. Наибольший вклад в «типичность» ДП кластера №1 вносят ДП подкластера 1.1., объекты которых составляют 50,9% относительно всех объектов кл. А (столбец №4). Относительно

специфичности ДП этого подкластера можно утверждать, что она соответствует 27,3% объектов всего МО, а специфичность кластера №1 в целом -29,5% (столбец №5).

Из проведенного анализа можно сделать вывод о том, что кластер в целом характерен для 55,2% объектов класса А, и есть подозрение, что 1,3 % (2 объекта противоположного класса В), имеют сходные характеристики (проявления) с объектами класса А.

Анализ и интерпретация всех полученных кластеров ДП БЗ позволяют сформировать у специалиста целостную картину исследуемой проблемной области. Это, в свою очередь, облегчает задачу расширения его профессиональных знаний и принятие решений в сложных ситуациях.

ЛИТЕРАТУРА:

1. Барсегян А. А., Куприянов М. С., Степаненко В. В., Холод И. И. Методы и модели анализа данных: OLAP и Data Mining. - СПб.: БХВ-Петербург, 2004. - 336 с

2. Карп В. П. Методы и средства контроля и диагностики сложноорганизованных объектов: Учебное пособие /Московский государственный институт радиотехники, электроники и автоматики. -М., 2008.-196 стр.

3. Карп В. П., Саруханов Б. А. Поддержка процесса расширения знаний врача-эксперта с помощью методов интеллектуального анализа данных. - Сб.

трудов XII Всемирного Конгресса «Здоровье и образование в XXI веке». М. РУДН. - 2011. - с. 245-246.

4. Карп В. П., Саруханов Б. А. Нелинейная динамика мышления эксперта и алгоритмы расширения его профессиональных знаний (на примере медицинских задач) / / Известия высших учебных заведений: прикладная нелинейная динамика. Том 19, №6, Саратов, 2011. - с.36-50.

5. Алгоритм кластеризации диагностических правил компьютерной базы знаний, представленной в виде продукционной модели, как средство поддержки процесса расширения знаний эксперта // Сборник научных тезисов Х1Х Международной конференции «Математика, Компьютер, Образование», Дубна, 2012. - с. 147.

i Надоели баннеры? Вы всегда можете отключить рекламу.