№ 2 - 2006 г. 22.00.00 социологические науки
УДК 61:681.3
ИСПОЛЬЗОВАНИЕ СЕТЕВОЙ МОДЕЛИ ДЛЯ АНАЛИЗА НЕФОРМАЛИЗОВАННЫХ МЕДИЦИНСКИХ ЗНАНИЙ
А.В.Недосеков 1, С.И. Карась 1, А.В. Конев2
1 ГОУ ВПО Сибирский государственный медицинский университет Федерального агентства по здравоохранению и социальному развитию (г. Томск)
2 ОГУП "Медтехника" (г. Томск)
Подходы к исследованию и моделированию знаний (инженерия знаний) развиваются с 80-х годов прошлого века. Некоторые модели представления знаний стали каноническими, но по отдельности не смогли обеспечить универсального подхода к представлению и обработке знаний. В связи с этим стоят задачи выбора наиболее гибкой модели представления знаний, разработки и реализации методов и алгоритмов ее исследования.
Предлагаемый авторами комплекс "TNet" получил государственную регистрацию (Свидетельство о регистрации N 2007610372 Российского агентства по патентам и товарным знакам), но это не конечный вариант продукта, его следующая версия активно развивается и совершенствуется. Продолжается работа по реализации способов субъективного анализа знаний (система фильтров и механизмы визуализации сети) и объективного исследования структуры знаний предметной области (алгоритм кластеризации знаний).
Ключевые слова: программный комплекс "TNet", инженерия знаний в медицине, сетевая модель, "Lynx", информационные объекты и связи, визуализация сети знаний, теория графов, алгоритм Флойда
Введение. Проблемы инженерии знаний особенно четко видны при моделировании слабо формализованных медицинских знаний, а тем более при изучении их структуры [4, 6, 7]. Отсутствуют стандартная методология такого исследования и компьютерные инструменты работы с этим типом информации. Во многом это связано с отсутствием универсальной модели представления знаний, в которой можно было бы разработать и реализовать подходы к анализу их структуры. Каждая модель представления знаний (продукционная, фреймовая, сетевая) имеет свою организацию, которой соответствуют способы анализа знаний [1, 5].
Можно сформулировать следующие требования к "универсальной" модели знаний:
1. минимальные ограничения, накладываемые на элементы модели,
2. наличие стандартных алгоритмов исследования модели,
3. совместимость с форматами других моделей (возможность импорта информации).
Всем этим требованиям удовлетворяет сетевая модель представления знаний. Эта модель позволяет описывать знания любой структуры без ограничений характеристик отдельных элементов знаний [6]. Алгоритмы теории графов могут быть применены к сети знаний, как к графу произвольной структуры [3]. Продукционная и фреймовая модели могут быть реализованы как частные случаи сетевой модели с оговоренными ограничениями на типы элементов и способы их связей.
Материалы и методы. На предварительном этапе работы для представления знаний в сетевой модели использовался программный комплекс "Lynx" (свидетельство о регистрации ? 2002611433 Российского агентства по патентам и товарным знакам) [2].
Для разработки программного комплекса "TNet" был использован объектно-ориентрованный язык программирования Delphi в среде Borland Delphi 7 Enterprise. Кроме стандартного набора компонентов Delphi, был использован дополнительный компонент TZip, позволяющий программе работать с архивами без участия пользователя. В ходе исследования на основании класса TGraphiControl было разработано два новых компонента, с помощью которого отображались объекты и связи на рабочих листах формы.
Для импорта отчетов в MS Word использовалась OLE-технология, доступ к которой обеспечивался стандартными компонентами Delphi. В качестве СУБД для баз знаний выбрана <клиент-файловая> система Paradox 7.0.
Для представления экспертных знаний в формате сетевой модели предварительно был разработан и реализован программный комплекс "Lynx", с помощью которого была создана база знаний по различным областям психиатрии [2].
Результаты исследований. Работа с комплексом сводится к выделению и описанию основных информационных элементов знаний (объекты предметной области, процессы, явления) и установлению связей между ними. Сначала группа экспертов определяла набор терминов, с помощью которых предполагалось описывать предметную область. После того, как набор информационных элементов был согласован, эксперты устанавливали связи между ними, осуществляя описание предметной области.
На этом этапе работы использовались две характеристики связей между элементами знаний - направление и сила, которая отражала семантическую близость связанных объектов. Считалось, что все связи являются ассоциативными, поэтому тип связи на данном этапе работы в анализе не использовался. Поддерживался режим работы многих экспертов над одним набором информационных элементов.
Для анализа структуры данной сетевой модели были применены методы теории графов. В частности, реализован алгоритм кластеризации, задачей которого являлось выявление сильно связанных друг с другом и обособленных от других информационных элементов (кластеров). Процедура кластеризации строилась на основе расчета матрицы расстояний между элементами графа при помощи алгоритма Флойда. Кроме того, рассчитывались дополнительные характеристики -характеристики кластера (центральные узлы, радиус), позволяющие оценить базовое множество элементов знаний (остов графа) и их гомогенность.
Отсутствие характеристики "тип связи" не позволяло в комплексе "Lynx" использовать форматы других моделей знаний, что ограничивало его применение. Достаточно сложная структура модели предметной области приводила к тому, что при
визуализации сети наличие огромного количества связей между элементами затрудняло анализ и контроль процесса представления знаний. Иными словами, в "Lynx" отсутствовала возможность общего обзора модели, сложность которой препятствовала визуализации элементов сети.
Программный комплекс "TNet", разработанный также на основе сетевой модели, в большей степени реализует ее широкие возможности, в частности, использование баз знаний других форматов. В программе реализованы все функции, необходимые для описания медицинских предметных областей различной степени формализации. В связи с особенностью среды разработки программа состоит из модулей, каждый из которых выполняет отдельные функции.
Обсуждение результатов. Рассматриваемые модули могут быть разделены на две группы. Первая группа модулей предназначена для создания структурных элементов (информационные объекты и связи) сетевой модели представления знаний. Эти модули реализуют основные возможности, предусмотренные моделью: создание, редактирование и удаление объектов; определение, редактирование и удаление связей между объектами (рис. 1); определение характеристик элементов знаний. Использование Paradox упрощает процедуру импорта баз знаний в любые другие СУБД, которые могут быть использованы для создания новой системы, основанной на знаниях.
Вторая группа модулей предназначена для представления знаний и включает модуль визуализации сети знаний (рис. 2) и модуль создания отчета (рис. 3).
Сложная структура сетевой модели знаний не позволяет экспертам и инженерам по знаниям анализировать ее и, следовательно, контролировать процесс представления и анализа знаний. Эти модули позволяют ограничить количество визуализируемых объектов сети в соответствии с требованиями эксперта или инженера по знаниям.
Во-первых, вместо визуализации всей сети с большим числом связей пользователь может определить ее фрагмент, проанализировать его и принять решения о необходимости коррекции или доработки части модели.
Во-вторых, если пользователю все же необходим обзор всей сети, то он может использовать систему фильтров, которая позволяет наложить ограничения на характеристики информационных объектов и связей между ними (рис. 4).
Под фильтром понимается набор условий, ограничивающих визуализацию элементов знаний, если они не удовлетворяют требованиям пользователя. Ограничения могут быть связаны с различными комбинациями характеристик объектов и связей и позволяют существенно облегчить обзор, анализ и коррекцию разрабатываемой модели. Тесная взаимосвязь модулей обеспечивает возможность создания достаточно сложных структур предметных областей и, в тоже время, позволяет контролировать процесс представления знаний описываемой предметной области.
Выводы. Важной особенность программного комплекса "TNet" является возможность создания собственного типа связи. Это обеспечивает гибкость модели, необходимую для описания различных предметных областей, а также возможность импорта баз знаний, созданных с использованием других программных продуктов и моделей представления знаний.
На данный момент комплекс "TNet" прошел государственную регистрацию (Свидетельство о регистрации N 2007610372 Российского агентства по патентам и
товарным знакам), но его следующая версия активно развивается и совершенствуется. Продолжается работа по реализации способов субъективного анализа знаний (система фильтров и механизмы визуализации сети) и объективного исследования структуры знаний предметной области (алгоритм кластеризации знаний). В первую очередь используется ориентация на характеристики связей между элементами знаний (сила, направление, тип связей).
Список литературы
1. Гаврилова Т.А. Базы знаний интеллектуальных систем / Т.А. Гаврилова, В.Ф. Хорошевский. - СПб.: Питер, 2000.
2. Карась С.И. Программный комплекс инженерии знаний "Lynx" / С.И. Карась, А.В. Конев // Свидетельство Роспатента об официальной регистрации программы для ЭВМ N2002611433. - 2002.
3. Кристофидес Н. Теория графов. Алгоритмический подход / Н. Кристофидес. -М.: Мир, 1978.
4. Поспелов Д.А. Представление знаний. Опыт системного анализа / Д.А. Поспелов // Системные исследования. Методологические проблемы. - М.: Наука, 1985. - С.83-102.
5. Уэно Х. Представление и использование знаний / Х. Уэно, М. Исидзука. - М.: Мир, 1989.
6. Червинская К.Р. Медицинская психодиагностика и инженерия знаний / К.Р. Червинская, О.Ю. Щелкова. - СПб.: Ювента, 2002.
7. Feigenbaum E. Knowledge engineering: the applied side of artificial intelligence / E. Feigenbaum. - Stanford, 1980.