Научная статья на тему 'Технология формирования баз знаний в медицинских информационных системах'

Технология формирования баз знаний в медицинских информационных системах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
517
184
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕДИЦИНСКИЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ / МЕТОДЫ DATA MINING / ПРОДУКЦИОННЫЕ МОДЕЛИ / MEDICAL INFORMATION SYSTEMS / METHODS OF DATA MINING / PRODUCTION MODELS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Берестнева Ольга Григорьевна, Шаропин Константин Александрович, Старикова Анастасия Викторовна, Кабанова Людмила Игоревна

Рассматриваются вопросы, связанные с технологией формирования баз знаний в медицинских информационных системах, а именно вопрос заполнения базы знаний логическими правилами в виде продукций.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Берестнева Ольга Григорьевна, Шаропин Константин Александрович, Старикова Анастасия Викторовна, Кабанова Людмила Игоревна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

TECHNOLOGY OF KNOWLEDGE BASE DEVELOPMENT FOR MEDICAL INFORMATION SYSTEMS

The questions connected with technology of knowledge base development for medical information systems are considered in this article. Filling of knowledge base with logical rules in a form of production model is considered in details.

Текст научной работы на тему «Технология формирования баз знаний в медицинских информационных системах»

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Гонсалес, Р. Цифровая обработка изображений в среде MATLAB[TeKCT] / Р. Гонсалес, Р. Вудс, С. Эдине. - М.: Техносфера, 2006. - 616 с.

2. Фил ист С.А., Пихлап С.В., Томакова РА. Нечеткие нейросетевы е структуры для сегмен-

// -ского университета. - Воронеж, 2009. - Т. 5, № 4. - С. 42-45.

Белобров Андрей Петрович Борисовский Сергей Александрович Томакова Римма Александровна

ГОУ ВПО «Курский государственный технический университет».

E-mail: [email protected]

305040, г. Курск, ул. Челюскинцев 19, к. Б.

.: 84712587098.

Belobrov Andrey Petrovich Borisovsky Sergey Aleksandrovich Tomakova Rimma Aleksandrovna

SEI HVT “Kursk state technical university”.

E-mail: [email protected]

19, Cheljuskintsev street, the case B, Kursk, 305040, Russia.

Phone: +74712587098.

УДК 61:681

ОТ. Берестнева, КА. Шаропин, А.В. Старикова, Л.И. Кабанова

ТЕХНОЛОГИЯ ФОРМИРОВАНИЯ БАЗ ЗНАНИЙ В МЕДИЦИНСКИХ ИНФОРМАЦИОННЫХ СИСТЕМАХ*

Рассматриваются вопросы, связанные с технологией формирования баз знаний в медицинских информационных системах, а именно вопрос заполнения базы знаний логическими правилами в виде продукций.

Медицинские информационные системы; методы Data Mining; продукционные модели.

O.G. Berestneva, K.A. Sharopin, L.I. Kabanova, A.V. Starikova TECHNOLOGY OF KNOWLEDGE BASE DEVELOPMENT FOR MEDICAL INFORMATION SYSTEMS

The questions connected with technology of knowledge base development for medical information systems are considered in this article. Filling of knowledge base with logical rules in a form of production model is considered in details.

Medical information systems; methods of Data Mining; production models.

Основным побудительным мотивом работы по внедрению компьютерных технологий в систему здравоохранения является высокая общественная значимость улучшения ситуации в этой сфере, включая повышение качества и скорости лечения, снижение затрат на предоставление услуг и приобретение эффективных средств обеспечения соответствия нормативным документам и прочим требованиям. Врачи консультируют пациентов on-line, диагностическая аппаратура оснащена мощными процессорами, конференции и консилиумы проводятся через интер-

* Работа выполнена при финансовой поддержке РФФИ (проект № 08-06-00313а). 32

Раздел I. Медицинская диагностика и терапия

нет. Медицинские информационные технологии приобретают все большую акту, -бованными. Медицинская информационная система (МИС) - комплексная автоматизированная информационная система, в которой объединены электронные медицинские записи о пациентах, данные медицинских исследований в цифровой форме, данные мониторинга состояния пациента с медицинских приборов, средства общения между сотрудниками, финансовая и административная информация, напрямую связанная с медицинской деятельностью (например, стоимость медицинских услуг, расписание приёмов и т. п.) [1].

Отличительной особенностью интеллектуальных МИС является наличие базы знаний. База знаний, БЗ (англ. Knowledge base, KB) - это особого рода база данных, разработанная для управления знаниями (метаданными), т.е. сбором, хране-

, . фактов и правил вывода, допускающих логический вывод и осмысленную обра-. :

1) приобретение знаний;

2) извлечение знаний;

3) обнаружение знаний.

Под приобретением (acquisition) знаний понимается способ автоматизированного наполнения базы знаний посредством диалога эксперта и специальной .

Извлечением (elicitation) знаний называют процедуру взаимодействия инже-

( , .).

Термины «обнаружение знаний» (knowledge discovery), а также Data Mining связывают с созданием компьютерных систем, реализующих методы автоматического обнаружения знаний.

elicitation knowledge

discovery.

Известно много экспертных систем для постановки медицинских диагнозов.

, , , -личных симптомов различных заболеваний. С помощью таких правил узнают не , , . -рать средства медикаментозного воздействия, определять показания - противопо-, , эффективного лечения, предсказывать исходы назначенного курса лечения и т.п.

Data Mining -

, .

Data Mining - это процесс обнаружения в "сырых" данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других и т.д. Найденные знания должны быть применимы и на новых данных с некоторой степенью достоверности. Полезность заключается в том, что эти знания могут приносить определенную выгоду при их применении. Знания должны быть в понятном для поль. , -струкции "если ... то ...". Более того, такие правила могут быть использованы в различных СУБД в качестве SQL-запросов. В случае, когда извлеченные знания непрозрачны для пользователя, должны существовать методы постобработки, позволяющие привести их к интерпретируемому виду.

В нашем случае БЗ содержит логические правила в виде продукционных мо.

знаний. В них отсутствуют жесткие ограничения, характерные для логических ис, .

В общем виде под продукцией понимается выражение следующего вида:

(i); Q; Р; А = >В; N.

i - ,

всего множества продукций. Элемент Q характеризует сферу применения продукции. Основным элементом продукции является ее ядро: А=>В. Интерпретация ядра продукции может быть различной и зависит от того, что стоит слева и справа от знака секвенции =>. Обычное прочтение ядра продукции выглядит так: ЕСЛИ A, ТО B, более сложные конструкции ядра допускают в правой части альтернативный выбор, , , B1, B2. -

ном логическом смысле как знак логического следования В из истинного А (если А

, ). -гие интерпретации ядра продукции, например A описывает некоторое условие, необходимое для того, чтобы можно было совершить действие В [1].

Элемент Р есть условие применимости ядра продукции. Обычно Р представляет собой логическое выражение (как правило, предикат). Когда Р принимает значение "истина", ядро продукции активизируется. Если Р ложно, то ядро продукции не может быть использовано.

N .

в том случае, если ядро продукции реализовалось.

Если в памяти системы хранится некоторый набор продукций, то они образуют систему продукций. В системе продукций должны быть заданы специальные процедуры управления продукциями, с помощью которых происходит актуализация продукций и выбор для выполнения той или иной продукции из числа актуа-.

Продукции по сравнению с другими формами представления знаний имеют следующие преимущества [1]:

♦ модульность;

♦ единообразие структуры (основные компоненты продукционной модели могут применяться для построения интеллектуальных систем с различной

);

♦ естественность (вывод заключения в продукционной модели во многом

);

♦ гибкость родовидовой иерархии понятий, которая поддерживается только как связь между правилами (изменение правила ведет за собой изменение

).

« »,

так как в продукционных моделях отсутствует средства для установления иерар-.

, :

♦ деревья решений;

♦ метод огранич енного перебора.

Деревья решений - это способ представления правил в иерархической, по, ,

.

Под правилом понимается логическая конструкция, представленная в виде "если ... то ...". Данный метод реализован в пакете See 5/C 5.0. Задача See 5/C 5.0

состоит в предсказании диагностического класса какого-либо объекта по значениям его признаков. При этом See 5/C 5.0 конструирует классификатор в виде дерева , , , -торое множество логических правил. В ряде случаев полученное дерево решений может оказаться слишком сложным для восприятия. Например, при построении задач высокой размерности для неоднородных данных дерево нередко получается кустистое и довольно большое. Поэтому, с целью упрощения логического вывода рекомендуется использовать логическую связку "И". Если по смыслу существует логическая связка "ИЛИ", то формируется второе аналогичное правило, содержащее только связки "И".

Рассмотрим технологию построения деревьев решений в задаче прогнозирования исхода беременности.

Исходная выборка содержала 171 объект (беременных женщин), состояние которых описывалось с помощью 13 психофизиологических признаков.

В результате обработки данной выборки с помощью пакета С5.0 пользователь получает отчет, который содержит следующую информацию.

Отображается построенное дерево решений. Каждая ветка дерева (рис. 1) заканчивается указанием номера класса, к которому она приводит. Сразу за номером следует запись (n) или (n/m). Например, если первая ветка заканчивается записью s, (10/4) это означает, что эта ветка описывает класс s и сюда попадает 10 объектов, из которых 4 попадает ошибочно.

В следующем разделе отчета приводятся характеристики сконструированного классификатора: дерево решений имеет 37 веток (size = 37), а ошибка классификации наблюдается на 42 объектах, что составляет 24,6 %.

В завершающей части отчета дается таблица с детальным разбором результатов классификации. В нашем примере из первого класса k (кесарево сечение) правильно классифицируются 56 объектов, а 17 объектов ошибочно относят к классу 2;

( ) 63 ,

а 9 ошибочно «приписывают» исход родов типа кесарево сечение; 10 объектов третьего класса диагностируются верно, 14 относят не к тому классу.

В заключение система С5.0 выдает сообщение о затраченном на решение . 0,4 .

скорость работы алгоритма С5.0, позволяющую оперативно обрабатывать высокоразмерные массивы информации, содержащие тысячи и десятки тысяч записей.

В С5.0 предусмотрена возможность преобразования дерева решений в набор правил 1F...THEN. Результаты в виде набора правил являются более простыми и , . набором значений признаков и идентификатором класса. Более того, количество , ,

, , .

60. . .

продемонстрировали свою эффективность при решении множества задач из самых .

Эти алгоритмы вычисляют частоты комбинаций простых логических событий в подгруппах данных. Примеры простых логических событий: X = a; X < a; X>a; a < X < b и др., где X - какой либо параметр, "a" и "b" - константы. Ограничением служит длина комбинации простых логических событий (у М. Бонгарда она была равна 3). На основании анализа вычисленных частот делается заключение о полезности той или иной комбинации для установления ассоциации в данных, для , .

Данный метод реализован в системе поиска скрытых закономерностей WizWhy компании WizSoft. Эта система интересна тем, что ее разработчики утверждают, что она способна обнаружить все «если...то...» - правила в данных. Это подтверждение подкрепляется сообщением о весьма большом количестве структур, использующих WizWhy. Поиск логических правил осуществляется в системе WizWhy, , -

ские события с низкой частотой.

Приведенную выше технологию можно рассмотреть на примере создания информационной системы мониторинга психофизиологического состояния беременных женщин и прогнозирования исходов родов. Вопросы актуальности создания подобной системы и концептуальная схема системы подробно изложены в [2,3]. Ядром системы является подсистема интеллектуального анализа, которая заполняется вышеупомянутыми средствами. Для формирования окончательного варианта БЗ подсистемы были выбраны устойчивые закономерности на основе анализа полученных результатов:

1) логических правил, полученных в системе WizWhy [4];

2) деревьев решений (построенных на базе See5) [5];

3) , ( . . [2,3]).

В настоящее время система внедрена в опытную эксплуатацию в одной из женских консультаций г. Томска.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Дюк В., Эмануэль В., Информационные технологии в медико-биологических исследованиях. - СПб.: Питер, 2003. - 528 с.

2. . ., . ., . .

системы для мониторинга психофизиологического состояния беременных женщин и выявление групп социально-псмологического риска // Мать и дитя: Материалы IX Всероссийского научного форума. - Москва, 2-5 октября 2007. - М., 2007. - С. 70-71.

3. . ., . ., . ., . .

//

методы распознавания образов (ММРО-13): Труды Всероссийской научно-технической конференции - Москва, 10-15 октября 2007. - М.: Физматлит, 2007. - C. 574-577.

4. . . -

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ческого состояния беременных женщин // Технологии Microsoft в теории и практике программирования: Материалы конференции студентов, аспирантов и молодых ученых - Новосибирск, 1-2 марта 2008. - Новосибирск: НГУ, 2008. - С. 95.

5. . ., . ., . ., . ., . . -

мирование базы знаний для экспертной системы прогнозирования исхода беременности // - « -мы» (AIS-07) и «Интеллектуальные САПР» (CAD-2007). - Дивноморское, 3-10 сентября 2007. - М.: Физматлит, 2007. - С. 424-429.

Берестнева Ольга Григорьевна

Национальный исследовательский Томский политехнический университет. E-mail: [email protected].

634004, г. Томск, ул. Советская, 84, к. 109.

Тел.: 83822426100'.

Шаропнн Константин Александрович

E-mail: [email protected].

Старикова Анастасия Викторовна

E-mail: [email protected].

Кабанова Людмила Игоревна E-mail: [email protected].

Berestneva Olga Grigorevna

National Research Tomsk Polytechnic University.

E-mail: [email protected].

84/109, Sovetskaya street, Tomsk, 634004, Russia.

Phone: +73822426100.

Sharopin Konstantin Aleksandrovich

E-mail: [email protected].

Starikova Anastasia Viktorovna

E-mail: [email protected].

Kabanova Ludmila Igorevna

E-mail: [email protected].

УДК 616.28-008.1-053.2-073.97

Г.Ш. Гафиятуллина, E.B. Трофимова

ПРИНЦИПЫ АНАЛИЗА ФУНКЦИОНАЛЬНЫХ ПАРАМЕТРОВ ПАМЯТИ, ВНИМАНИЯ И МЫШЛЕНИЯ У СЛАБОСЛЫШАЩИХ ДЕТЕЙ

Изучены психофизиологические особенности детей с нейросенсорной тугоухостью. , , -

, .

; ;

анализ и синтез.

G.Sh. Gafiyatullina, E.V. Trofimova

ANALYSIS PRINCIPLES OF MEMORY, ATTENTION AND THINKING PARAMETERS IN CHILDREN WITH NEUROSENSORY BRADYACUASIA

The psychophysiological features in children with neurosensory bradyacuasia were investigated. It was detected that the ways of perception formed through mastering by verbal generalisations are late in development.

Neurosensory bradyacuasia; verbal nonverbal analysis and synthesis.

Влияние биологических и социальных факторов на познавательное развитие детей с нейросенсорной тугоухостью различного генеза приобретает особое значение в условиях их социально-психологической адаптации к школьному обучению. При поступлении в образовательное учреждение центральным блоком мыслительной деятельности ребенка становится умственная работа, однако у слабо-

i Надоели баннеры? Вы всегда можете отключить рекламу.