Научная статья на тему 'Исследование семантической инвариантности концептуальных моделей текстовых данных'

Исследование семантической инвариантности концептуальных моделей текстовых данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
121
29
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕМАНТИЧЕСКАЯ ИНВАРИАНТНОСТЬ / АНАЛИЗ ФОРМАЛЬНЫХ ПОНЯТИЙ / КОНЦЕПТУАЛЬНОЕ МОДЕЛИРОВАНИЕ / КОНЦЕПТУАЛЬНЫЕ ГРАФЫ / МУЛЬТИМОДАЛЬНАЯ КЛАСТЕРИЗАЦИЯ / SEMANTIC INVARIANCE / CONCEPTUAL GRAPHS / CONCEPTUAL LATTICES / FORMAL CONCEPT ANALYSIS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Богатырев Михаил Юрьевич, Коржук Николай Львович

Рассматривается понятие семантической инвариантности концептуальных моделей текстовых данных в виде концептуальных графов и формальных контекстов. Эти модели связаны, поскольку формальные контексты основной объект Анализа формальных понятий строятся с применением концептуальных графов. Для построения формальных контекстов используются предикатные выражения, идентифицируемые в концептуальных графах. Обсуждается свойство семантической выразительности формальных контекстов, которое иллюстрируется в решениях задачи кластеризации формальных контекстов. Полученные кластеры интерпретируются как источники фактов, извлекаемых из текстов. Текстовые данные представлены текстами естественного языка, образующими корпус аннотаций научных статей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STUDY OF SEMANTIC INVARIANCE OF CONCEPTUAL MODELS OF TEXT DATA

The concept of semantic invariance of conceptual models of text data in the form of conceptual graphs and formal contexts is considered. These models are related because formal contexts-the main object of Formal Concept Analysisare constructed using conceptual graphs. Predicate expressions identified in conceptual graphs are used to construct formal contexts. The property of semantic expressiveness of formal contexts, which is illustrated in the solutions of the problem of clustering of formal contexts, is discussed. The resulting clusters are interpreted as sources of facts extracted from texts. Text data are represented by natural language texts, forming a corpus of abstracts of scientific articles.

Текст научной работы на тему «Исследование семантической инвариантности концептуальных моделей текстовых данных»

УДК 004.4'414

ИССЛЕДОВАНИЕ СЕМАНТИЧЕСКОЙ ИНВАРИАНТНОСТИ КОНЦЕПТУАЛЬНЫХ

МОДЕЛЕЙ ТЕКСТОВЫХ ДАННЫХ

М.Ю. Богатырев, Н.Л. Коржук

Рассматривается понятие семантической инвариантности концептуальных моделей текстовых данных в виде концептуальных графов и формальных контекстов. Эти модели связаны, поскольку формальные контексты - основной объект Анализа формальных понятий - строятся с применением концептуальных графов. Для построения формальных контекстов используются предикатные выражения, идентифицируемые в концептуальных графах. Обсуждается свойство семантической выразительности формальных контекстов, которое иллюстрируется в решениях задачи кластеризации формальных контекстов. Полученные кластеры интерпретируются как источники фактов, извлекаемых из текстов. Текстовые данные представлены текстами естественного языка, образующими корпус аннотаций научных статей.

Ключевые слова: семантическая инвариантность, анализ формальных понятий, концептуальное моделирование, концептуальные графы, мультимодальная кластеризация.

Введение. Характерной особенностью современных систем искусственного интеллекта является появление в них подсистем «понимания текста». Такие подсистемы обрабатывают текстовые данные различной степени структурированности с целью представления их смысла для решения различных задач в системах искусственного интеллекта, например, задач поддержки принятия решений.

Методы обработки текстовых данных, ориентированные на их понимание, известны как методы Text Mining [1]. Так же часто называют и системы понимания текста. Системы Text Mining развиваются двумя способами: экстенсивно и интенсивно. Экстенсивный путь развития характеризуется ростом информационных ресурсов, используемых в решении задач Text Mining, - различных словарей, текстовых корпусов и т.п. Очевидно, что этот рост в целом ведёт к более полным и «правильным» решениям задач Text Mining, но также снижает быстродействие реальных систем. В итоге расширение информационных ресурсов может поставить под угрозу реализуемость полученных с их помощью решений.

Интенсивный путь в Text Mining связан с построением, исследованием и применением семантических моделей, заменяющих тексты при решении конкретных задач. Всякая семантическая модель, например, концептуальная графовая модель, является значительно более компактным объектом, чем текст, которому она соответствует. Более того, концептуальное моделирование имеет основательную математическую поддержку в виде методов теории графов, математической логики и алгебраических методов.

Интенсивный путь развития Text Mining перспективен и становится основным при создании интеллектуальных систем, работающих на текстовых данных. Однако замена «живых» текстов их математическими моделями порождает ряд проблем.

Одна из таких проблем - проблема семантической выразительности концептуальных моделей. В данной работе исследуется проблема семантической выразительности двух концептуальных моделей: концептуальных графов и многомерных формальных контекстов. Одной из характеристик семантической выразительности данных моделей является их семантическая инвариантность. Эта характеристика позволяет применять менее сложные модели в системах Text Mining, обеспечивая декомпозицию концептуальных моделей. Декомпозиция как способ представления сложных моделей совокупностью более простых принципиально важна в анализе текстовых данных, имеющих, как правило, большой объем.

Концептуальные модели текстовых данных. Семантический анализ можно рассматривать как задачу перевода предложений естественного языка в формальный язык некоторой модели. Среди моделей семантики концептуальные модели занимают особое место. Концептуальная модель - это «модель, представленная множеством понятий и связей между ними, определяющих смысловую структуру рассматриваемой предметной области или её конкретного объекта» [1]. Понятия и связи между ними образуют граф. Вершины графа представляют собой понятия (концепты) концептуальной модели, а связи могут реализовываться в виде рёбер (дуг), соединяющих вершины, либо посредством вершин другого типа, моделирующих именованные связи. Последний вариант реализации связей соответствует двудольным графам. В общем случае граф концептуальной модели может быть мульти- графом с несколькими типами вершин.

На текстовых данных концептуальные модели применяются в качестве семантических моделей. Соответственно, понятия в такой модели должны соответствовать понятиям, выражаемым текстами. В силу сложности формализации термина «понятие» в естественных языках, существует проблема реализации данного термина в концептуальных моделях.

В данной работе мы рассматриваем две концептуальные модели, применяемые к текстам естественного языка: модель в виде концептуальных графов и модель в виде формальных концептов. Ранее эти модели уже использовались нами в технологии извлечения фактов [3] и технологии технической

поддержки, использующей электронные сообщения [4]. Здесь мы демонстрируем новые результаты исследования семантической инвариантности рассматриваемых моделей, которые устанавливаются посредством единого подхода к применению этих моделей в анализе текстовых данных.

Концептуальные графы как модели семантики текста. Концептуальные графы являются одной из семантических моделей текста, относящейся к классу семантических сетей. Впервые концептуальные графы были предложены в работах Дж. Совы, обобщённые результаты которых представлены в его монографии [5, Ошибка! Источник ссылки не найден.], и в настоящее время играют важную роль как средство моделирования структур, наделённых смыслом, в таких областях как математическая лингвистика, биоинформатика, математическая логика.

Формализация семантики концептуальных графов осуществляется с помощью логики предикатов первого порядка [6]. Рассмотрим формальную модель простого концептуального графа, введя для этого следующие определения.

Определим предметную область задачи анализа текстов как множество сущностей Е, связанных друг с другом. Каждая сущность - это объект, имеющий имя и атрибуты. Связи между сущностями описываются концептуальной макро-моделью. Например, это может быть модель в виде онтологии.

Определим словарь (домен) предметной области в виде множества слов V. Реально все системы анализа текстов работают со словарями. Это могут быть словари различных видов в зависимости от предметной области и решаемой в ней задачи. Словари необходимы технически для работы таких программ как морфологические анализаторы, используемые, например, при построении концептуальных графов. Множество V можно трактовать как множество допустимых слов. Тогда слова, написанные с ошибками, или слова, не входящие в множество V, фиксируются программным средством поддержки словаря и подлежат дополнительному анализу.

На множестве V определим подмножество типов Т с V. Подмножество типов может совпадать с множеством терминов Т( с Т. Словарь терминов как раз необходим при обработке текстов заданной предметной области. Например, словарь терминов в виде названия белков и генов использовались нами в задаче исследования экспрессии генов [7].

Строя отображения вида V ® V и V ® Т , мы можем формировать подмножества концептов С с V и отношений Я с V, применяемые в концептуальных графах. В концептуальных графах используются именованные отношения, которые образуют фиксированное множество (например, это множество стандартных семантических ролей «агенс», «пациенс» и т.д.) или множество, формируемое непосредственно из анализируемого текста.

Концептуальный граф - это двудольный направленный граф, состоящий из двух типов узлов: концептов и концептуальных отношений, или просто отношений. На рис. 1 показан пример концептуального графа, построенного на тексте предложения методом, описанным в [8]. Здесь применяются одноместные предикаты и семантические роли в качестве отношений.

«Сообщества живых организмов различных видов образуют экологическую систему»

Применение исчисления предикатов:

:Дг 06разавать)13у ]Сцсп1емв)(32 : 'ЗтяогичеасцыУВп'-Сообщеапво) 1Я3: Организм^: Жнеои^И: Яиг))(3] : РахппныЩ/Л

Генети^ид)лАл1р1гоут1г.]У) Формат хш1:

- сппггштЬег="1"> и /СгО'ОГТ >СО ОбщеСТВО ОПГ£>

- пиггтЬег="2">

' |г; 1_-1г 1Г1Г 1 г[ 11 1п_- .г |г гг >

- -:сог 16):( питЬег="4'>

Рис. 1. Пример концептуального графа и его запись в формате XML и в виде предикатов

Концептуальный граф на рис. 1 построен с применение вербоцентрического подхода, когда за основу в предложении берётся глагол. Семантика такого графа определяется предикатными выражениями вида

k

S = И P (Xi,j , хи) с1)

v= 1

Здесь Pv (x1v.., xn) - в общем случае n - местный предикат; x^..., xn - концепты.

Каждый предикат Pv соответствует глаголу. Именованные отношения также записываются в виде предикатов, как показано на рис. 1.

Идентификация предикатов - глаголов в предложениях имеет принципиальное значение. Во многих задачах анализа текстов важна главная информация о содержании текста. Вербоцентрический подход [9] как раз основан на том, что главное содержание предложения отражает глагол. В предложении может быть несколько глаголов или не быть их совсем. Выражение (1) отражает семантику предложения в виде совокупности предикатов - глаголов.

Семантическая инвариантность текста в рамках вербоцентрического подхода заключается в следующем.

Текст представляется в виде предикатных выражений (1). Тексты считаются семантически эквивалентными, если совпадают их предикатные выражения. На практике в разных предложениях маловероятно получать один и тот же набор глаголов. Поэтому данный принцип инвариантности модифицируется введением в него поддержки иерархии сущностей предметной области. Это достигается построением отображений Pv (xi,..., xn) ® ek еЕ предикатных выражений в сущности предметной области. Несколько глаголов могут описывать одну и ту же сущность, что определяет инвариантность текстов, содержащих данные глаголы.

Практическая реализация принцип семантической инвариантности при использовании концептуальных графов в качестве семантической модели заключается в идентификации в графах предикатных выражений Pv (xi,... , xn) определённой арности и использовании их далее для моделирования семантики текста при помощи формальных контекстов и решёток понятий.

Предикатные выражения, соответствуют подграфам концептуальных графов. Размерность этих выражений, как правило, не превышает четырёх. Мы идентифицировали предикатные выражения, соответствующие абстрактному смысловому представлению (Abstract Meaning Representation) для текста [11]. Абстрактное смысловое представление задаётся графом, реализующим смысловую схему из нескольких элементов. Например, такой схемой является конструкция «кто (что)» - «что делает» - «с кем (чем)», которой соответствует предикатная форма (1) с семантическими ролями «Агенс» и «Пациенс». Используя данные семантические роли концептуальных графов, мы отбираем концепты, составляющие заданную AMR - схему.

На рис. 2 показан фрагмент концептуального графа, построенного для предложения «Genetic modifiers of the Drosophila blue cheese gene link defects in lysosomal transport with decreased life span and altered ubiquitinated-protein profiles». На графе выделены концепты, входящие в трёхэлементную схему AMR. В четырёхэлементную схему «кто (что)»-«что делает»-«с кем (чем)»-«как» войдут концепты, связанные с концептами трёхэлементной схемы при помощи семантических ролей «attribute» или «genitive».

Рис. 2. Концептуальный граф, построенный для предложения «Genetic modifiers of the Drosophila blue cheese gene link defects in lysosomal transport with decreased life span and altered ubiquitinated-protein

profiles»

Обработка концептуальных графов при построении формальных контекстов имеет ряд особенностей. Так в графе на рис. 2 выделенный подграф соответствует фразе Drosophila blue cheese gene обрабатываемого предложения. Эта фраза описывает название гена, которое должно использоваться как единый термин. Для этого используется предикатное выражение для данного подграфа:

attribute(gene, cheese)Aattribute(gene,Drosophila)Aattribute(blue, cheese).

Семантика формальных контекстов. Формальный контекст - это концептуальная модель данных, связанных некоторым отношением. Арность отношения определяет размерность формального контекста. В работе [10] нами описан метод построения многомерных формальных контекстов на множестве концептуальных графов. В методе применяется алгоритм идентификации предикатных выражений в концептуальных графах. В работе [10] исследованы трёхмерные схемы AMR. В данной работе, кроме трёхмерных схем, исследованы также четырёхмерные схемы AMR.

Концептуальные графы, имеющие одну и ту же AMR-схему, семантически инвариантны. Формальные контексты, построенные на таких графах, минимальны. В связи с этим возникает вопрос о том, насколько полно они отражают семантику моделируемых текстов, т.е. какова их семантическая выразительность.

Термин «семантическая выразительность» уточняется с помощью следующей гипотезы.

Если для моделирования смысла текста применяется концептуальная модель, в которой имеет место понятие размерности, то чем выше размерность такой модели, тем глубже она позволяет моделировать смысл текста. Соответственно, концептуальная модель более высокой размерности обладает и большей семантической выразительностью.

Для проверки данной гипотезы необходимы не только двумерные, но также трёх-, четырёх- и, в общем случае, n - мерные формальные контексты.

При работе с текстами нас интересует прежде всего семантика получаемых решений. Такими решениям на формальном контексте являются кластеры. Получаемые кластеры представляют собой подмножества сочетаний слов текстов, объединённых в соответствии с выбранной мерой близости. Применяемая нами семантическая мера близости основана на совпадении слов. Поэтому близкими будут точки, состоящие из n слов, в которых есть одинаковые слова.

Для построения кластеров применялся алгоритм, основанный на штрих-операторах, аналогичный алгоритму OAC-трикластеризации [12].

Исследование семантической инвариантности формальных контекстов выполнялось путём сравнения результатов вычисления трёх- и четырёхэлементных кластеров на соответствующих формальных контекстах при использовании концептуальных графов, соответственно, при применении трёх- и четырёхэлементных AMR-схем.

В качестве входных данных использовались 250 текстов аннотаций научных статей биомедицинской тематики из системы PubMed. На этих текстах, кроме триконтекстов, строились четырёхмерные контексты, для чего был модифицирован алгоритм построения формальных контекстов.

Результаты исследования заключаются в следующем.

Формальные контексты, построенные по трёх- и четырёхэлементным AMR-схемам, семантически инвариантны с точностью до решений задачи кластеризации: подмножества слов, входящих в кластеры, полученные на трёхмерных контекстах, перекрываются подмножествами слов, входящих в кластеры, полученные на четырёхмерных контекстах.

Все решения задачи кластеризации (трёх- и четырёхмерные) содержат следующие типы кластеров:

изолированные кластеры, в которых все подмножества слов состоят только из одного слова;

пересекающиеся кластеры, в которых имеются общие слова в соответствующих подмножествах;

плотные кластеры - формальные понятия.

Изолированные кластеры не раскрывают связей между отдельными текстами и в трёхмерном случае мало информативны. Интерес здесь представляют неизолированные кластеры.

Четырёхмерные изолированные кластеры, наоборот, обладают выраженной информативностью, поскольку содержат больше информации.

На рис. 3 показаны примеры трёх- (рис. 3, а) и четырёхмерных (рис. 3, б) кластеров, в которых имеется слово «мутация».

{{{cause}, {mutation}, {hyperactivation, ns, jmml, effect, dysplasia, ac ftd, hyperalgesia, osteopenium, osteopenium, nature}}, {{characterize {{induce, promote}, {mutation}, {malignancy, apoptosis, nesistance}}, {{show, identify, demonstnate}, {mutation, tumor, craniosynostos}, {stu

а

{mutation} ^ {{{mutation}, {Phosphatase}, {signaling}, {intenleukin-3}}, {{mutation}, {cause}, {hypenactivation }, {activity}}, {{mutation}, {in. {{mutation}, {cause}, {disease}, {myeloproliferative}}, {{mutation}, {i {{mutation}, {increase}, {hyperactivation}, {Erk}}, {{mutation}, {lead} {{mutation}, {enhance}, {capability}, {increase}}, {{mutation}, {lead, r {{mutation}, {lead}, {death}, {neuronal}}, {{mutation}, {lead}, {degenei

б

Рис. 3. примеры трёх- (а) и четырёхмерных (б) кластеров, в которых имеется слово «мутация»

Из рисунка видно, что изолированные четырёхмерные кластеры содержат сочетания слов, которые несут конкретную информацию. Так на рис. 3-б кластер

{"mutation"},{"phosphatase"},{"signaling"},{"interleukin-3"}} соответствует фразе «мутация фосфатази-рует сигнальную систему интерлейкина-3». Здесь в кластере "phosphatase" - это глагол.

Заключение. Свойства семантической инвариантности формальных контекстов используется в разрабатываемой технологии концептуального моделирования. Технология позволит решать ряд задач обработки гетерогенных данных. К ним относится задача интеграции персональных данных пациентов и медицинских работников лечебных учреждений, данных медицинских анализов, сведения о медицинских препаратах и других гетерогенных данных. Использование метода концептуального моделирования придаёт реализующей его информационной системе новые функциональные возможности. В такой системе реализуется поддержка такого понятия как «траектория оказания медицинских услуг». Это позволит осуществлять не только мониторинг медицинских услуг, но и прогноз состояния объектов, моделируемых в системе.

На данном этапе разрабатываемая технология прошла апробацию на англоязычных текстах. Планируется применение её на русскоязычных текстах при помощи расширенного метода построения концептуальных графов.

Работа выполнена при поддержке РФФИ, гранты № 19-07-01178, № 19-47-710007.

Список литературы

1. Aggarwal C.C., Zhai C. Mining Text Data. Springer 2012.

2. Информационная база знаний Wikipedia. Раздел Концептуальная модель https://ru.wikipedia.org/wiki/Концептуальная модель (дата обращения: 10.05.2019).

3. Bogatyrev M. Fact Extraction from Natural Language Texts with Conceptual Modeling // Communications in Computer and Information Science, 2017. Vol. 706. P. 89-102.

4. Bogatyrev M., Kolosoff A. Using Conceptual Graphs for Text Mining in Technical Support Services. Pattern Recognition and Machine Intelligence // Lecture Notes in Computer Science, 2011. Vol. 6744. P. 466-471.

5. Sowa J.F. Knowledge Representation: Logical, Philosophical, and Computational Foundations, Brooks Cole Publishing Co., Pacific Grove, CA, 2000.

6. Chein M., Mugnier M.-L. Graph-based Knowledge Representation. Computational Foundations of Conceptual Graphs. Springer-Verlag, London, 2009.

7. Bogatyrev M.Y., Samodurov K.V. Conceptual Approach to Clustering in the Study of Gene Expression. Proc. Int. Conference "Mathematical Biology and Bioinformatics". Ed. V.D. Lakhno, 2014. Vol. 7. Pushchino: IMPB RAS, 2018. P. e54. DOI: 10.17537/icmbb18.81.

8. Богатырев М.Ю., Тюхтин В.В. Построение концептуальных графов как элементов семантической разметки текстов. Компьютерная лингвистика и интеллектуальные технологии: труды ежегодной Международной конференции «Диалог 2009». М.: РГГУ, 2009. Вып. 8 (15). С. 31-37.

9. Теньер Л. Основы структурного синтаксиса. М.: Прогресс, 1988. 656 с.

10. Богатырев М.Ю., Коржук Н.Л. Анализ текстов естественного языка с применением многомерной кластеризации // Известия Тульского государственного университета, 2019. Вып. 9. С. 142-149.

11. Bos J. Expressive Power of Abstract Meaning Representations, Computational Linguistics 42(3),

2016.

12. Ignatov D.I., Gnatyshak D.V., Kuznetsov S.O., Mirkin B.G. Triadic Formal Concept Analysis and triclustering: searching for optimal patterns. Mach. Learn., 2015. 101. P. 271-302.

Богатырев Михаил Юрьевич, д-р техн. наук, профессор, okkambo@mail.ru, Россия, Тула, Тульский государственный университет,

Коржук Николай Львович, канд. техн. наук, доцент, nikolaikorzhuk@mail. ru, Россия, Тула, Тульский государственный университет

STUDY OF SEMANTIC INVARIANCE OF CONCEPTUAL MODELS OF TEXT DATA

M. Y. Bogatyrev, N.L. Korzhuk

The concept of semantic invariance of conceptual models of text data in the form of conceptual graphs and formal contexts is considered. These models are related because formal contexts-the main object of Formal Concept Analysis-are constructed using conceptual graphs. Predicate expressions identified in conceptual graphs are used to construct formal contexts. The property of semantic expressiveness offormal contexts, which is illustrated in the solutions of the problem of clustering offormal contexts, is discussed. The resulting clusters are interpreted as sources of facts extracted from texts. Text data are represented by natural language texts, forming a corpus of abstracts of scientific articles.

Key words: semantic invariance, conceptual graphs, conceptual lattices, formal concept analysis.

Bogatyrev Mikhail Yurievich, doctor of technical sciences, professor, okkambo@mail. ru, Russia, Tula, Tula State University,

Korzhuk Nikolai Lvovich, candidate of technical sciences, docent, nikolaikorzhuk@mail. ru, Russia, Tula, Tula State University

i Надоели баннеры? Вы всегда можете отключить рекламу.