Научная статья на тему 'СИСТЕМА КОНЦЕПТУАЛЬНОГО АНАЛИЗА ДАННЫХ НА ОСНОВЕ МНОГОМЕРНЫХ ФОРМАЛЬНЫХ КОНТЕКСТОВ'

СИСТЕМА КОНЦЕПТУАЛЬНОГО АНАЛИЗА ДАННЫХ НА ОСНОВЕ МНОГОМЕРНЫХ ФОРМАЛЬНЫХ КОНТЕКСТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
66
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ ФОРМАЛЬНЫХ ПОНЯТИЙ / КОНЦЕПТУАЛЬНОЕ МОДЕЛИРОВАНИЕ / МУЛЬТИМОДАЛЬНАЯ КЛАСТЕРИЗАЦИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Богатырев Михаил Юрьевич, Коржук Николай Львович

Рассматривается архитектура, функциональные возможности и реализация информационной системы концептуального анализа данных. Система относится к классу систем поддержки принятия решений и предназначена для извлечения знаний из гетерогенных данных. Гетерогенные данные представлены сочетаниями числовых значений и текстов. В качестве концептуальных моделей, реализованных в системе, используются концептуальные графы и многомерные формальные контексты. В системе реализована мультимодальная кластеризация формальных контекстов, позволяющая извлекать нетривиальную информацию из данных доменов формального контекста.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF MULTIDIMENSIONAL FORMAL CONTEXTS IN NATURAL LANGUAGE TEXT ANALYSIS

The architecture, functionality and implementation of the information system of conceptual data analysis are considered. The system belongs to the class of decision support systems and is designed to extract knowledge from heterogeneous data. Heterogeneous data is represented by combinations of numeric values and texts. Conceptual graphs and multidimensional formal contexts are used as conceptual models implemented in the system. The system implements multimodal clustering of formal contexts, which allows extracting non-trivial information from the domains of the formal context.

Текст научной работы на тему «СИСТЕМА КОНЦЕПТУАЛЬНОГО АНАЛИЗА ДАННЫХ НА ОСНОВЕ МНОГОМЕРНЫХ ФОРМАЛЬНЫХ КОНТЕКСТОВ»

УДК 004.4'414

DOI: 10.24412/2071-6168-2021-12-313-319

СИСТЕМА КОНЦЕПТУАЛЬНОГО АНАЛИЗА ДАННЫХ НА ОСНОВЕ МНОГОМЕРНЫХ ФОРМАЛЬНЫХ КОНТЕКСТОВ

М. Ю. Богатырев, Н. Л. Коржук

Рассматривается архитектура, функциональные возможности и реализация информационной системы концептуального анализа данных. Система относится к классу систем поддержки принятия решений и предназначена для извлечения знаний из гетерогенных данных. Гетерогенные данные представлены сочетаниями числовых значений и текстов. В качестве концептуальных моделей, реализованных в системе, используются концептуальные графы и многомерные формальные контексты. В системе реализована мультимодальная кластеризация формальных контекстов, позволяющая извлекать нетривиальную информацию из данных доменов формального контекста.

Ключевые слова: анализ формальных понятий, концептуальное моделирование, мультимодальная кластеризация.

Введение. Одной из проблем анализа данных является проблема интерпретации результатов обработки данных современными методами. Несмотря на то, что совокупность таких методов относят к «интеллектуальному анализу», результаты их применения в виде кластеров, деревьев решений, ассоциативных правил и нейронных сетей не всегда могут быть однозначно интерпретированы как новые знания.

Фундаментальный характер данной проблемы обусловлен тем, что она возникает независимо от типов обрабатываемых данных и появляется при применении любого из методов интеллектуального анализа. Особенно остро данная проблема возникает, когда обрабатываемые данные принадлежат категории больших данных.

Решение данной проблемы в большой степени связано с построением, исследованием и практическим применением семантических моделей анализируемых данных. Среди семантических моделей концептуальные модели составляют обширный класс. Концептуальная модель в общем виде представляет собой множество объектов, связанных отношениями. Эти объекты, называемые «концепт», «концепция», «понятие» могут строиться на данных различной природы.

В рассматриваемой в данной работе системе применяются несколько концептуальных моделей: концептуальные графы, формальные контексты, решётки понятий, мультимодальные кластеры. Основным информационным ресурсом системы является многомерный формальный контекст, с помощью которого возможно моделирование больших данных.

Архитектура системы. Архитектура информационной системы (ИС) - это концепция, определяющая модель, структуру, выполняемые функции и взаимосвязь компонентов информационной системы. Архитектура ИС является базовой организацией системы, воплощенной в ее компонентах, их отношениях между собой и с окружением, а также в принципах, определяющие проектирование и развитие системы.

Проектирование современных сложных ИС выполняется с помощью специальных технологий автоматизированного проектирования - CASE технологий (Computer Aided System Engineering). При проектировании системы применялась подобная технология. Это одна из признанных CASE-систем, Sybase PowerDesigner [1], которая позволяет проектировать ИС полностью, начиная от общих структурных моделей, и заканчивая моделями программного обеспечения, например, объектно-ориентированными моделями.

На рис. 1 показана архитектура системы концептуального моделирования. Одновременно рис. 1 является интерактивным изображением в CASE- технологии. Это означает, что, выбрав графический элемент на рис. 1, можно получить доступ к объекту, который он изображает.

Рассмотрим основные элементы архитектуры системы.

Информационные ресурсы системы. В системе имеются внутренние и внешние информационные ресурсы. К внутренним ресурсам относится база данных системы. Внешними являются ресурсы, являющиеся источником данных, например, система PubMed [2]. Также к внешним ресурсам относится онтология используемых в системе данных.

313

Подсистема обработки запросов. Входные запросы поступают в систему от пользователей в виде текстов. Текст содержит фразу или ключевое слово. Данная подсистема обрабатывает тексты, используя внешние ресурсы - словари, тезаурусы и т.п. В эту подсистему входит модуль построения концептуальных графов, который размещает их в базе данных. В базе данных также хранятся сами запросы.

Ссмантичсс*ий анализатор

Рис. 1. Архитектура системы концептуального моделирования

Семантический анализатор. Эта подсистема работает, взаимодействуя с подсистемой обработки запросов, и также использует внешние ресурсы. Входящий в подсистему детектор фактов реализует алгоритмы автоматического извлечения фактов, разработка которых запланирована на следующий этап выполнения проекта.

Подсистема визуализации. Эта подсистема реализует описанные в предыдущем разделе методы цветной кластеризации и представления кластеров как элементов решётки понятий.

Подсистема кластеризации. Эта подсистема работает с онтологической моделью, основу которой составляют формальные контексты, строящиеся на данных базы. Контекст может быть построен непосредственно по запросу пользователя после обработки запроса или заранее сформированные контексты могут храниться в базе данных.

Функции системы. В системе выполняется анализ и обработка данных с применением концептуальных моделей: концептуальных графов [3], многомерных формальных контекстов и решёток понятий [4]. Эти модели описаны в публикациях [5-7], отражающих этапы разработки системы. В данной работе мы рассмотрим примеры практического применения данных моделей в типовых задачах анализа данных с использованием разработанной системы концептуального моделирования.

Архитектура системы концептуального моделирования позволяет работать с данными различных форматов. В экспериментах использовались данные различного информационного содержания: текстовые данные о биотопах бактерий [8], данные осложнений инфаркта миокарда [9] и данные о правонарушениях подростков в США [10].

Рассмотрим основные функции системы на примере данных осложнений инфаркта миокарда, содержащих сведения о 1700 пациентах, включающие данные анамнеза, данные о применяемой терапии и данные о результатах терапии. Все пациенты представлены анонимно: каждый имеет уникальный идентификатор (ГО), который служит ключом при обращении к данным.

На рис. 2 показан пример данных анамнеза.

На данных выбранного ресурса решается задача фенотипирования забо-левания - в данном случае это осложнение инфаркта миокарда.

Фенотипирование относится к определению формы заболевания на основе клинического профиля. Клинический профиль - это кластер, который может включать различные данные, описывающие как само заболевание, так и методы его лечения, а также состояние пациентов. Таким образом, построение фенотипа заболевания формулируется как задача кластеризации.

В системе обрабатываются двумерные и многомерные формальные контексты.

Двумерный формальный контекст имеет вид

K == (О, М, I), (1)

где О - множество объектов; М - множество принадлежащих им атрибутов, связь между объектами их атрибутами задаётся отношением I с О х М .

Формальный контекст представляет собой либо [0,1]-матрицу с элементами, отражающими факт принадлежности атрибута объекту, либо числовую матрицу, в которой задаётся характеристика принадлежности атрибутов объектам. Пара подмножеств (А, В), А с О = В сМ таких, что А' = В, В = А, называется формальным понятием контекста ^ Здесь штрихом обозначается оператор, реализующий связь между объектами и атрибутами в виде отношения. В матрице контекста понятия (А, В) задаются максимальными по вложению подматрицами со всеми ненулевыми элементами.

4. Количество (этучаев инфаркта миокарда а анамнезе (1(\1Р_АМАМ)

Анамнез заболевания: Амбулаторная карта и архив ЭКГ не предоствлены.

Более 10-ти лет страдает артериальной гипертонией, максимальнее цифры АД 200/... мм.рт.ст. Последнее время АД на уровне 120/70-140-160Ш0 мм.рт.ст. Постоянно принимаетэналаприл 10 мг утро, бетолок 50 мг, розарт20 мг, кардиолмагнил. С физическими нагрузками справляется удовлетворительно.

Рис. 2. Пример данных анамнеза

На рис. 3, а фрагмент данных, содержащихся в базе данных инфаркта миокарда, показан в виде двумерного двоичного контекста. Контекст содержит 7 объектов и 4 двоичных атрибута.

дЬ ап! ¡т ¡т рд р 1 а

332 X х X

321 X х

1500 х X

1126 х X

"1336 X х

1503 х X

1655 X х X

агЧ ¡111

1503 1385 ^ 11 20

1500 321

1 655 1

а

б

Рис. 3. Пример формального контекста и решётки понятий на фрагменте данных

Объекты формального контекста являются идентификаторами пациентов, и значение атрибутов выглядит следующим образом: gb is - наличие гипертонической болезни; ай_т -наличие переднего инфаркта миокарда (левого желудочка); im_pg_p - наличие инфаркта миокарда правого желудочка; - летальный исход заболевания.

В примере на рис. 3 у всех пациентов имеется передний инфаркт миокарда. В соответствии с сокращенной маркировкой, мы можем видеть в решетке, что атрибут а^гт представлен во всех пяти заполненных концепциях. Среди пациентов те, у кого ГО равны 1500,1503 и 1655, имеют летальный исход. Слева в решетке есть отдельный путь с узлами в виде следующих формальных понятий:

({({1500, 1503, 1655}, {а^_т, М»), (1655, {а^_т, gb}).

Первое понятие является более общим, чем второе, так как оно расположено над ним. Первая понятие отражает два факта: наличие инфаркта миокарда и летальный исход для всех трех пациентов. Второе понятие отражает особенность пациента с ГО1655: он единственный из трех, у кого отмечено наличие гипертонической болезни.

Таким образом, формальный контекст и решетка являются визуальным инструментом для представления знаний, содержащихся в онтологии.

Хранение и обработка многомерных контекстов имеют особенности. Многомерный, парный контекст К = <КХ, К2,...,Kn,R > задаётся отношением ЯН D1r D2r ...Г Dn, К1 сDi. Построение формальных понятий на таком контексте заменяется нахождением мультимодаль-ных кластеров вида

Н = < X1, X2, ..., X >, (2)

где X с Кг .

Кластеры (2) отличаются от формальных понятий. Формальные понятия представляют собой гиперкубы в многомерном тензоре формального контекста, все элементы которых

аг, ],..., г = 1 . В мультимодальных кластерах данное условие выполняется не для всех элементов

1 N '

кластера, поэтому они характеризуются определенной плотностью.

В системе концептуального моделирования мультимодальные кластеры строятся с применением эволюционных вычислений методом, описанным в [11]. Данный метод позволяет находить хорошо интерпретируемые варианты мультимодальных кластеров.

Экспериментальные исследования многомерных формальных контекстов. Приведем некоторые характерные результаты, полученные с применением эволюционной мульти-модальной кластеризации данных осложнений инфаркта миокарда. Рассмотрим результаты, полученные на трёхмерных формальных контекстах.

На рис. 4 показан типичный кластер, построенный на трехмерном формальном контексте.

Density: 0.357143

Volume: (3, 1, 2 -> 42}

Fitness(with coefficients): 357.143

gb

ant_im

321 lat_im

1386 inf^im

1655 post_im

im_pg_ p

tikl„s_n

Рис. 4. Пример трёхмерного кластера

В кластере на рис. 4 первое подмножество - это номера пациентов, второе подмножество содержит атрибуты контекста, а третье - дни, когда осуществлялась терапия пациентов препаратом Тиклид (атрибут тгМ_8_п). У всех пациентов имеется инфаркт миокарда, а атрибуты Ш_Ш, гп гт, post im, детализируют его варианты. Атрибут gb означает наличие эссенциальной гипертензии в анамнезе - повышенного артериального давления. Из рис. 4 видно, что Тиклид применялся сразу (0-й день) и на 21 - й день терапии, что выглядит странно для пациентов с повышенным давлением. Однако, рассматриваемый кластер неплотный и это означает, что не все комбинации элементов из трех подмножеств кластера имеют место. Информативность многомерных кластеров зависит от их плотности, но не абсолютно.

В данном примере мы не уверены, что Тиклид применялся к этим трем пациентам только в эти дни, но факт, содержащийся в этом кластере, может представлять интерес для кардиологов. "Абсолютно достоверные" факты содержатся в абсолютно плотных кластерах, которые являются формальными понятиями. Однако особые факты, выпадающие из общих закономерностей, также могут быть найдены в неплотных кластерах. Что касается примера на рис. 4, то эта подгруппа пациентов может не образовывать абсолютно плотных кластеров, и для неё факты следует искать в кластерах с низкой плотностью путем их дополнительного анализа.

Эволюционные методы позволяют моделировать процесс кластеризации таким образом, чтобы они позволяли исследовать распределение плотности по кластерам и, таким образом, иметь подробную картину кластеризации.

В экспериментах нас интересовали специальные кластеры. Прежде всего, это кластеры с большими группами пациентов, характеризующимися определенными комбинациями атрибутов из доменов "пациент", "лечение", "результаты лечения". Было получено несколько таких групп и среди них имеются две следующие.

1. Мы обнаружили, что летальный исход инфаркта миокарда присущ пожилым пациентам старше 60 лет. Этот факт согласуется с известными данными кардиологии.

2. Более подробно, случаи сердечного приступа в анамнезе коррелируют со смертельным исходом, что также выглядит естественным.

Для обеих этих групп пациентов мы обнаружили абсолютно плотные кластеры, построенные на тензорах с признаками возраста и анамнеза.

Неожиданный результат. Мы обнаружили один неожиданный результат, который заключается в следующем. По данным инфаркта миокарда, существуют стабильные (не изменяющиеся в соответствии с различными параметрами генетического алгоритма) и довольно плотные кластеры, в которых подгруппа пациентов с летальным исходом не получала определенных лекарств. В то же время пациенты с нелетальным исходом принимали эти препараты. Один из кластеров, подтверждающих данный результат показан на рис. 5. Речь идет о фибринетлити-ческой терапии с помощью препарата Стрептодеказа - атрибут у!Ьг_(ег_08.

Density: 1.

Volume: [7, 1, 1 -> 7) Fitness : 1. 14«

j- Select I Results (MIC) - I5QL Session 1

Id Age Sex Fibr Ter 03

1567 1696 1611 1640 1652 1633

, [ fibr ter es ■, ( e i f

1467 61 0 0

1567 67 0 0

1606 60 0 0

1611 55 1 0

1640 57 0 0

1652 68 1 0

16B3 61 0 0

Рис. 5. Плотный кластер и результат запроса к БД

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Как видно из рис. 5, запрос к базе данных для пациентов, попавших в кластер, подтвердил найденную закономерность.

Заключение. В данной работе представлена система концептуального моделирования гетерогенных данных в виде формальных контекстов. В системе применен метод эволюционной мультимодальной кластеризации, которым строятся кластеры данных, позволяющие извлекать нетривиальную информацию из различных доменов формального контекста. Система реализована в виде пилотного исследовательского проекта. Промышленное внедрение системы в конкретной предметной области данных возможно путем расширения ее интерфейсов с сохранением ядра, в котором реализованы рассмотренные в данной работе функции системы.

Работа выполнена при поддержке РФФИ, гранты № 19-47-710007, № 19-07-01178. № 20-07-00055.

Список литературы

1. Нартова А. PowerDesigner 15. Моделирование данных. М., Лори, 2012. 486 с.

2. U.S. National Library of Medicine [Электронный ресурс]. -URL: http://www.ncbi.nlm л1П1^о\/риЬп^(дата_обращения:1().()8.2()21).

3. Sowa J.F. Conceptual Structures: Information Processing in Mind and Machine. Addison-Wesley. London. 1984. 481 p.

4. Ganter, Bernhard; Stumme, Gerd; Wille, Rudolf, eds. Formal Concept Analysis: Foundations and Applications // Lecture Notes in Artificial Intelligence. Sowa J.F. Conceptual Structures: Information Processing in Mind and Machine. Addison-Wesley. London. 1984. No. 3626. SpringerVerlag. Berlin. 2003.

5. Bogatyrev, Mikhail. Fact Extraction from Natural Language Texts with Conceptual Modeling. - Communications in Computer and Information Science. 2017. Vol. 706. P. 89-102.

6. Богатырев М.Ю., Коржук Н.Л. Анализ текстов естественного языка с применением многомерной кластеризации // Известия Тульского гсударственного университета, 2019. Вып. 9. С. 142-149.

7. Mikhail Bogatyrev, Dmitry Orlov. Application of Formal Contexts in the Analysis of Heterogeneous Biomedical Data. Russian Advances in Artificial Intelligence: selected contributions to the Russian Conference on Artificial Intelligence (RCAI 2020), 2020. M.: CEUR Workshop Proceedings. Vol. 2648. P. 315-329.

8. BioNLP Shared Tasks. [Электронный ресурс]. -URL: https://2019.bionlp-ost.org(дата обращения:10.08.2021).

9. Myocardial infarction complications Data Set. [Электронный ресурс]. -URL: http://archive.ics.uci.edu/ml/machine-learning-databases/00579(дата обращения:10.08.2021).

10. Juvenile triadic Data Set. [Электронный ресурс]. -URL: https://fca-tools-bundle.com/view-context/60b92250ef71886d7336e49e(дата обращения:10.08.2021).

11. Mikhail Bogatyrev, Dmitry Orlov1 and Tatyana Shestaka. Multimodal Clustering with Evolutionary Algorithms. Proceedings of the 9th International Workshop "What can FCA do for Artificial Intelligence?"co-located with the 30th International Joint Conference on Artificial Intelligence (IJCAI 2021). Montréal, Québec, Canada, August 21, 2021. CEUR Proceedings, Vol. 2972. P. 7186.

Богатырев Михаил Юрьевич, д-р техн. наук, профессор, okkambo@mail.ru, Россия, Тула, Тульский государственный университет,

Коржук Николай Львович, канд. техн. наук, профессор nikolaikorzhuk@mail. ru, Россия, Тула, Тульский государственный университет

APPLICATION OF MULTIDIMENSIONAL FORMAL CONTEXTS IN NATURAL LANGUAGE TEXT ANALYSIS

M.Yu. Bogatyrev, N.L. Korzhuk

The architecture, functionality and implementation of the information system of conceptual data analysis are considered. The system belongs to the class of decision support systems and is designed to extract knowledge from heterogeneous data. Heterogeneous data is represented by combinations of numeric values and texts. Conceptual graphs and multidimensional formal contexts are used as conceptual models implemented in the system. The system implements multimodal clustering of formal contexts, which allows extracting non-trivial information from the domains of the formal context.

Key words: conceptual modelling, conceptual lattices, formal concept analysis multimodal clustering.

Bogatyrev Mikhail Yurievich, doctor of technical sciences, professor, okkambo@mail.ru, Russia, Tula, Tula State University,

Korzhuk Nikolay Lvovich, candidate of technical sciences, docent, nikolaikorzhuk@mail.ru, Russia, Tula, Tula State University

i Надоели баннеры? Вы всегда можете отключить рекламу.