Научная статья на тему 'Анализ текстов естественного языка с применением многомерной кластеризации'

Анализ текстов естественного языка с применением многомерной кластеризации Текст научной статьи по специальности «Математика»

CC BY
165
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ ФОРМАЛЬНЫХ ПОНЯТИЙ / КОНЦЕПТУАЛЬНОЕ МОДЕЛИРОВАНИЕ / КОНЦЕПТУАЛЬНЫЕ ГРАФЫ / МНОГОМЕРНАЯ КЛАСТЕРИЗАЦИЯ / CONCEPTUAL GRAPHS / CONCEPTUAL LATTICES / FORMAL CONCEPT ANALYSIS

Аннотация научной статьи по математике, автор научной работы — Богатырев Михаил Юрьевич, Коржук Николай Львович

Рассматривается применение многомерной кластеризации на основе Анализа формальных понятий для установления семантических связей между текстами. Формальные контексты основной объект Анализа формальных понятий строятся с применением концептуальных графов. Применение концептуальных графов позволяет эффективно решать на текстах задачи извлечения именованных сущностей и отношений между ними в виде семантических ролей. Далее на формальных контекстах решается задача кластеризации и анализируются полученные кластеры как источники фактов, извлекаемых из текстов. Текстовые данные представлены текстами естественного языка, образующими корпус аннотаций научных статей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Богатырев Михаил Юрьевич, Коржук Николай Львович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF MULTIDIMENSIONAL FORMAL CONTEXTS IN NATURAL LANGUAGE TEXT ANALYSIS

The application of multidimensional formal contexts for the establishment of semantic relationships between texts is considered. Formal contexts the main object of the Analysis of formal concepts are built using conceptual graphs. The use of conceptual graphs allows us to effectively solve the problem of extracting named entities and the relationships between them in the form of semantic roles on texts. Then, on formal contexts, the clustering problem is solved and the resulting clusters are analyzed as sources offacts extracted from texts. Textual data is represented by natural language texts that form the corpus of abstracts of scientific articles.

Текст научной работы на тему «Анализ текстов естественного языка с применением многомерной кластеризации»

СИСТЕМНЫЙ АНАЛИЗ, УПРАВЛЕНИЕ И ОБРАБОТКА ИНФОРМАЦИИ

УДК 004.4.414

АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА С ПРИМЕНЕНИЕМ МНОГОМЕРНОЙ КЛАСТЕРИЗАЦИИ

М.Ю. Богатырев, Н.Л. Коржук

Рассматривается применение многомерной кластеризации на основе Анализа формальных понятий для установления семантических связей между текстами. Формальные контексты - основной объект Анализа формальных понятий - строятся с применением концептуальных графов. Применение концептуальных графов позволяет эффективно решать на текстах задачи извлечения именованных сущностей и отношений между ними в виде семантических ролей. Далее на формальных контекстах решается задача кластеризации и анализируются полученные кластеры как источники фактов, извлекаемых из текстов. Текстовые данные представлены текстами естественного языка, образующими корпус аннотаций научных статей.

Ключевые слова: анализ формальных понятий, концептуальное моделирование, концептуальные графы, многомерная кластеризация.

Введение. Одним из направлений в современном анализе данных является Анализ формальных понятий (АФП) [1]. В АФП применяются множества данных, связанные отношением «объект - атрибут», единственное ограничение для которых состоит в их частичной упорядоченности. Другими особенностями АФП являются математическая строгость предлагаемых решений и их универсальность. АФП основан на математической теории решёток [2]. Формальный контекст, центральное понятие АФП, определён на произвольных множествах, поэтому может применяться к данным любой природы. Такое преимущество АФП в виде общности организации данных и методов имеет обратную сторону - необходимость адаптации АФП к конкретным приложениям, что часто требует специальных исследований. Это в полной мере соответствует приложениям АФП к текстовым данным [3 - 5].

В классическом АФП используются «плоские» формальные контексты в виде матриц отношений «объект - атрибут». При построении таких контекстов на текстах приходится отбирать пары слов, подпадающие под данное отношение. Однако смысл текста не выражается парами слов, а может быть задан различными моделями семантики.

142

Одним из подходов к моделированию семантики текстов является концептуальное моделирование [5], а эффективной семантической моделью предложения - концептуальный граф [6]. Концептуальные графы нашли своё применение в различных задачах анализа текстовых данных, например, в анализе текстов сообщений электронной почты [7] и в исследовании биомедицинских данных [8]. Применение концептуальных графов в АФП для построения решёток понятий позволяет использовать решётки в качестве хранилища информации в задачах извлечения фактов [9].

В настоящее время для отображения семантики текстов, моделируемой концептуальными графами, в АФП строится множество формальных контекстов, каждый из которых имеет «смысловую окрашенность» [5, 9]. В результате, при высокой размерности самих матриц «окрашенных» контекстов сильно возрастает размерность построенных на них решёток понятий. При этом уровень отображения семантики текста в таких решётках остаётся «плоским», т.е. соответствующим ограничениям классического АФП.

В данной работе рассматривается применение более сложных моделей АФП - многомерных формальных контекстов - для моделирования семантики текстов с помощью концептуальных графов. С помощью многомерных, а конкретно - трёхмерных формальных контекстов, построенных на концептуальных графах, можно учитывать те смысловые особенности предложений, которые задаются не отдельными словами, а структурами связанных слов - подграфами в концептуальных графах. Это позволяет более полно моделировать семантику текстов в концептуальных моделях АФП.

Многомерные формальные контексты. Классические модели АФП в виде формальных контекстов и решёток понятий рассмотрены нами в [10], поэтому здесь мы ограничимся их кратким описанием и боле подробно рассмотрим переход к многомерным моделям АФП.

Целевым объектом АФП является решётка понятий, которая строится следующим образом. На частично упорядоченных множествах объектов О и принадлежащих им атрибутов М, О = (О, ф), М = (М,Р) определяется формальный контекст К = (О, М, I), в котором связь между объектами их атрибутами задаётся отношением I с Ох М . Формальный контекст представляет собой либо [0,1]-матрицу с элементами, отражающими факт принадлежности атрибута объекту, либо числовую матрицу, в которой задаётся характеристика принадлежности атрибутов объектам. Пара подмножеств (А, В), А с О = В сМ таких, что А=В, В=А, называется формальным понятием контекста К. Здесь штрихом обозначается оператор, реализующий связь между объектами и атрибутами в виде отношения. В матрице контекста понятия (А, В) задаются максимальными по вложению подматрицами со всеми ненулевыми элементами. Множества А и В замкнуты в силу композиции отображений: А " = А, В''=В. Множество А образует объем формального понятия (А, В), а множество В - его содержание. Отношения частичного порядка ф , Р на множествах О и М инду-

цируют отношение частичного порядка < на множестве понятий. Согласно основной теореме АФП, частично упорядоченное по вложению объемов множество формальных понятий контекста К образует математический объект - решётку [1], которая называется решётка понятий.

Двумерные или плоские формальные контексты обобщаются на многомерные контексты. Многомерный, п-арный контекст [11] N = (Х15 X2,...,Хп,У) задаётся отношением У сХ1 хХ2 х...хХп

Простейшим многомерным формальным контекстом является триа-дический контекст (триконтекст) вида Т = (О, М, В, I), где В - множество, задающее условия принадлежности атрибутов объектам, I с Ох Мх В -тернарное отношение.

Соответственно определяются тернарные понятия (трипонятия) как триплеты вида

(С1, С2, С3), С1 с О, С2 с М, С3 с В такие, что для любого {/, ,, к}={1, 2, 3} выполняются условия вида (С, х Ск )(г) = С при ] < к.

Элементы С1, С2, С3 трипонятия называются соответственно объем, содержание и условие.

Построение трипонятий на триконтекстах является открытой проблемой в анализе формальных понятий [11]. Штрих-операторы здесь имеют несколько реализаций:

т={(g,Ь)|(g,т,Ь)е У};

g'={(т,Ь)|(g,т,Ь)е У};

Ь={(g,т) | (g,т,Ь)е У}, как и соответствующие им двойные операторы:

о о

т"={т| (g,Ь)е т'п(g,т,Ь)е У};

оо gм={g|(т,Ь)е g,п(g,т,Ь)е У};

оо Ь" = {Ь| (g,т)е Ьп(g,т,Ь)е У}.

В отличие от бинарных контекстов применение двойных штрих-операторов к объектам триконтекстов не замыкает их на понятия. Результатом могут быть т.н. трикластеры, которые образуют «недостаточно плотные понятия», поскольку в них необязательно все элементы ненулевые. Вводя понятие плотности трикластера [11], можно исследовать различные варианты кластеризации и оценивать их значимость. Вводя порог значений плотности трикластера, можно уменьшить количество генерируемых на формальном триконтексте трикластеров уменьшая таким образом сложность задачи кластеризации.

Применение триконтекстов существенно расширяет возможности АФП в анализе данных. Как будет показано ниже, в задачах анализа текстов применение триконтекстов позволяет более полно моделировать семантику текста, чем это делается с помощью плоских контекстов.

Построение формальных контекстов на текстах. Многомерный формальный контекст строится на множествах, имеющих определённый смысл. Так в трёхмерном контексте Т = (О, М, В,I) множества О, М, В -это множества объектов, их атрибутов и условий связи объектов и атрибутов, соответственно. При размерности контекста п>3 смысл множеств Х1, Х2,...,Хп должен быть установлен с учётом следующего: тематики текста и его лексического состава; содержания задачи обработки текста с помощью методов АФП. Для построения формального контекста текст как последовательность слов должен быть преобразован в объекты множеств Х1, Х2,...,Хп

Для этого необходима семантическая модель текста. В работах [9,10] в качестве такой модели рассматриваются концептуальные графы. В данной работе мы также применяем концептуальные графы для построения формальных контекстов. Концептуальный граф - это двудольный направленный граф, состоящий из двух типов узлов: концептов и концептуальных отношений. Концепты - это слова из обрабатываемого предложения, а отношения генерируются алгоритмом построения концептуальных графов. Например, концептуальный граф для предложения: «Студент читает книгу» имеет вид: [Студент]—(Агенс) — [Читать] ^ (Пациенс) ^ [Книга]. Здесь «Агенс» и «Пациенс» - это концептуальные отношения - стандартные семантические роли, связывающие центральный концепт -глагол «Читать» с субъектом («Студент») и объектом («Книга») действия глагола.

Простейший и очевидный вариант формального контекста, строящегося на концептуальных графах, - это двумерный контекст, в котором множества объектов О и атрибутов М представляют собой концепты концептуальных графов, связанные отношением «атрибут». Такие контексты исследованы нами в работах [9,10]. Формальные понятия, извлекаемые из такого контекста, содержат сочетания слов, связанных отношением «атрибут». В кластерах и формальных понятиях, извлекаемых из такого контекста, могут сочетаться слова из разных предложений. Таким образом устанавливаются связи между предложениями текста. Наличие в кластерах слов из разных предложений может быть основанием для интерпретации кластера как факта. В целом, семантическая выразительность подобных плоских контекстов невелика, поскольку они отражают связи между словами посредством только одной семантической роли.

Концептуальные графы обладают большой семантической выразительностью, характеризуемой количеством и составом семантических ролей. Это позволяет применять их в трёх- и п-мерных формальных контекстах

Для построения трёхмерных контекстов в концептуальных графах фиксируются предикатные формы вида

P(x, y) = <субъект_х> - < предикат> - <объект_у>. (1)

В качестве предиката, как правило, выступает глагол. Связи между предикатом, субъектом и объектом задаются семантическими ролями «Агенс» и «Пациенс». Таким образом, для построения трёхмерных формальных контекстов в концептуальных графах выделяются подграфы с тремя вершинами и семантическими ролями «Агенс» и «Пациенс». В концептуальном графе, соответствующем одному предложению, может быть несколько таких форм - подграфов. Каждый подобный подграф формирует элементы формального контекста T = (G, M, B, I), поставляя в него концепты в качестве элементов множеств G, M, B .

Кроме рассмотренных семантических ролей «Агенс» и «Пациенс», предложения текста обычно содержат и другие роли. Имея только три координаты в трёхмерном формальном контексте, мы вынуждены ограничить семантическую выразительность концептуальных графов. Способ, который мы применяем, основан на операции агрегирования концептуальных графов. Данный вариант агрегирования представляет собой построение абстрактного смыслового представления (Abstract Meaning Representation) для каждого графа [13]. Абстрактное смысловое представление задаётся графом, реализующим смысловую схему из нескольких элементов. Например, такой схемой является конструкция «кто (что)» - «что делает» -«с кем (чем)», которой соответствует предикатная форма (1) с семантическими ролями «Агенс» и «Пациенс». Используя данные семантические роли концептуальных графов, мы отбираем концепты, составляющие заданную AMR-схему.

Изложенный здесь подход естественным образом обобщается на размерности формальных контекстов n>3.

Экспериментальные исследования многомерных формальных контекстов. В экспериментах использовались тестовые данные, применяемые в стандартных задачах извлечения знаний из текстов BioNLP Shared Tasks [14]. Данные представляют собой 250 текстов аннотаций статей биомедицинской тематики из системы PubMed [15].

Последовательность действий метода заключается в следующем.

1. На исследуемых текстах строится множество концептуальных

графов.

2. На множестве концептуальных графов решается задача их агрегирования. Агрегирование необходимо для исключения избыточной размерности концептуальных моделей, не связанной с полезной информацией. Агрегирование представляет собой реализацию заданной AMR - схемы на концептуальных графах.

3. На агрегированном множестве концептуальных графов строится формальный контекст в соответствии с выбранной AMR - схемой.

4. На формальном контексте находятся кластеры и формальные понятия.

Для построения кластеров применялся алгоритм, основанный на штрих-операторах, аналогичный алгоритму OAC-трикластеризации [11]. Алгоритм имеет следующие особенности.

Предикатные формы (1), извлекаемые из текстов с помощью концептуальных графов, содержат концепты - слова, выбранные согласно принятой AMR-схеме. В трёхмерном формальном контексте эти слова представляют собой отсчёты на трёх координатных осях, соответствующих элементам AMR - схемы: «кто (что)» - «что делает» - «с кем (чем)». Алгоритм OAC-трикластеризации позволяет найти так называемые «плотные трикластеры». Плотность трикластера С задается выражением

r (C)- I 1 3 (X2 , X3) I (2)

|GIIM IIB | ' К J

в котором числитель содержит количество ненулевых элементов кластера, а в знаменателе стоят размерности множеств формального контекста. В нашем случае трикластеры представляют собой сочетания слов из трёх подсписков, содержащих, соответственно, первые, вторые и третьи координаты объектов, попавших в кластер. Поскольку кластеры и понятия содержат сочетания слов, не важна последовательность координат точек в каждом подсписке. МножестваG, M,B совпадают и представляют собой одно множество концептов всех концептуальных графов, построенных на обработанных текстах. Это учитывается в выражении (2) для плотности трикластера.

В экспериментах строились трёхмерные формальные контексты. Целью является сравнение эффективности формальных контекстов в качестве концептуальной модели семантики текстовых данных.

Трикластеры содержат первые, вторые и третьи координаты объектов, попавших в кластер. Аналогично и для четырёхмерных кластеров: они содержат первые, вторые третьи и четвертые координаты объектов. Соответственно, каждый кластер - это список из трёх или четырёх подсписков. При анализе кластеров - интерпретации их смысла - анализируются сочетания слов в них, поэтому не важна последовательность координат точек в каждом отсчёте.

Анализ результатов кластеризации выявил характерные типы кластеров. Одноэлементные трикластеры содержат подсписки, содержащие только одну координату. Это соответствует фразам в тексте, которые не связаны с другими фразами. Наличие нескольких координат в подсписках кластера означает наличие связей между фразами текстов.

Эксперимент по выявлению связей заключается в следующем.

1. На всех текстах определяется одно или несколько ключевых

слов.

2. Определяются кластеры, в которых находятся найденные ключевые слова.

3. Анализируется состав кластеров и фиксируются связи кластеров с конкретными текстами.

Приведём некоторые характерные результаты экспериментов.

На текстах аннотаций статей биомедицинского содержания исследовалось, как в текстах отражено влияние мутаций генов на внутриклеточные процессы, а также связи мутаций с заболеваниями. Ключевое слово «мутация» (mutation) является главным и встречается 183 раза в 250-ти текстах.

Результаты анализа кластеров, содержащих данное слово, показаны на рисунке.

{{" PTPN11 "},{"link"},{"defects","span","profHes"}}

{{"leukemia"},{"not attributed"},{"activity"}}

U"mutation"},{"cause"},{"hyperactivation","disease"

{{"SHP-2"},{"attenuates"},{"transduction","cell function"}}

Трикластеры, связанные термином «мутация»

На рисунке показан пример связей между кластерами, индуцированных термином «мутация». Видно, что в текстах упомянута мутация гена PTPN11, и мутация вызывает, кроме всего прочего (на рисунке не показаны сочетания термина «мутация» с другими глаголами), гиперактивацию (hyperactivation) фермента, известного как «фосфатаза SHP-2». Фосфатаза SHP-2, кодируемая геном PTPN11, вовлечена в патогенез ряда заболеваний. Она также связана с канцерогенезом, и соответствующее заболевание (disease), а именно, лейкемия (leukemia) отмечено в текстах.

Таким образом, с помощью данного метода можно устанавливать связи на внешне несвязанных текстах, имеющих общую тематику.

В настоящее время метод проходит апробацию на формальных контекстах размерности n>3 с целью определения пороговой размерности, обеспечивающей «семантическую выразительность» формальных контекстов, то есть их способность достаточно полно отражать содержание текстов, на которых строятся формальные контексты.

Работа выполнена при поддержке РФФИ, гранты № 19-47-710007, №19-07-01178.

Список литературы

1. Ganter Bernhard, Stumme Gerd, Wille Rudolf. Formal Concept Analysis: Foundations and Applications. Lecture Notes in Artificial Intelligence. 2003. No. 3626. Springer-Verlag. Berlin. 2003.

2. Биркгоф Г. Теория решёток. М.: Наука, 1984. 284 с.

3. Priss U. Linguistic Applications of Formal Concept Analysis Formal Concept Analysis, Foundations and Applications. Springer-Verlag. 2005. LNAI 3626. P. 149 - 160.

4. Galitsky B., Ilvovsky D.A., Kuznetsov S.O., Strok F.V. Parse thicket representations of text paragraphs // Материалы ежегодной Международной конференции «Диалог». Т.1. Вып. 12 (19). М.: РГГУ, 2013. C. 134 - 145.

5. Bogatyrev Mikhail. Fact Extraction from Natural Language Texts with Conceptual Modeling // Communications in Computer and Information Science. Springer-Verlag, 2017. Vol. 706. P. 89 - 102.

6. Sowa J.F. Conceptual Structures: Information Processing in Mind and Machine. Addison-Wesley. London. 1984.

7. Michael Bogatyrev and Alexey Kolosoff. Using Conceptual Graphs for Text Mining in Technical Support Services. Pattern Recognition and Machine Intelligence // Lecture Notes in Computer Science. Springer-Verlag. Heidelberg. 2011. Volume 6744. P. 466 - 471.

8. Богатырев М.Ю., Вакурин В.С. Концептуальное моделирование в исследовании биомедицинских данных // Математическая биология и биоинформатика. 2013. Т. 8. № 1. С. 340 - 349.

9. Mikhail Bogatyrev, Kirill Samodurov. Knowledge Discovery from Texts with Conceptual Graphs and FCA. Proc. of International Workshop on Formal Concept Analysis for Knowledge Discovery (FCA4KD 2017) // CEUR Workshop proceedings. 2017. Vol-1921. P. 1 - 12, 2017.

10. Богатырев М.Ю. Извлечение фактов из текстов естественного языка с применением концептуальных графовых моделей // Известия Тульского государственного университета. 2016. Вып. 7. Ч. 1. C. 198 - 207.

11. Voutsadakis G. Polyadic concept analysis // Order. 2002. Vol. 19 (3). P. 295 - 304.

12. Ignatov D.I., Kuznetsov S.O., Zhukov L.E. From Triconcepts to Triclusters, in: Rough Sets, Fuzzy Sets, Data Mining and Granular Computing: 13th International Conference, RSFDGrC 2011, Moscow, Russia, June 25 - 27, 2011. Proceedings / Ed. by S.O. Kuznetsov, D. Slezak, D.H. Hepting, B.G. Mirkin. Berlin, Heidelberg: Springer, 2011. Vol. 6743. P. 257 - 264.

13. Bos J. Expressive Power of Abstract Meaning Representations, Computational Linguistics, 2016. 42(3).

14. BioNLP Shared Tasks [Электронный ресурс]. URL: https://2019.bionlp-ost.org (дата обращения: 10.06.2019).

15. U.S. National Library of Medicine [Электронный ресурс]. URL: http://www.ncbi.nlm.nih.gov/pubmed (дата обращения: 10.06.2019).

16. Lehmann F., Wille R. A triadic approach to Formal Concept Analysis. In Proceedings of the third international conference on conceptual structures: Applications implementation and theory. London: Springer. 1995. P. 3243.

Богатырев Михаил Юрьевич, д-р техн. наук, профессор, okkambo@,mail.ru, Россия, Тула, Тульский государственный университет,

Коржук Николай Львович, канд. техн. наук, доцент, nikolaikorzhuk@,mail. ru, Россия, Тула, Тульский государственный университет

APPLICATION OF MULTIDIMENSIONAL FORMAL CONTEXTS IN NATURAL LANGUAGE TEXT ANALYSIS

M.Yu. Bogatyrev, N.L. Korzhuk

The application of multidimensional formal contexts for the establishment of semantic relationships between texts is considered. Formal contexts - the main object of the Analysis of formal concepts - are built using conceptual graphs. The use of conceptual graphs allows us to effectively solve the problem of extracting named entities and the relationships between them in the form of semantic roles on texts. Then, on formal contexts, the clustering problem is solved and the resulting clusters are analyzed as sources offacts extracted from texts. Textual data is represented by natural language texts that form the corpus of abstracts of scientific articles.

Key words: conceptual graphs, conceptual lattices, formal concept analysis.

Bogatyrev Mikhail Yurievich, doctor of technical sciences, professor, okkam-bo@mail.ru, Russia, Tula, Tula State University,

Korzhuk Nikolai Lvovich, candidate of technical sciences, docent, nikolaikor-zhuk@mail.ru, Russia, Tula, Tula State University

УДК 539.3; 534.26

МОДЕЛИРОВАНИЕ РАССЕЯНИЯ ЗВУКА ШАРОМ С НЕОДНОРОДНЫМ ПОКРЫТИЕМ В ПЛОСКОМ ВОЛНОВОДЕ

С.А. Скобельцын, Л.А. Толоконников

Проведено численное моделирование рассеяния звуковых волн, излучаемых точечным источником, на абсолютно жестком шаре срадиально-неоднородным упругим покрытием в плоском волноводе с акустически мягкими и абсолютно жесткими границами.

Ключевые слова: звуковые волны, рассеяние, шар, неоднородное упругое покрытие, плоский волновод.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для снижения интенсивности воздействия падающего акустического поля на исследуемые объекты используются специальные покрытия. Существуют различные виды покрытий, наносимых на твердые тела. В звукопоглощающих покрытиях из твердых пористых и мягких демпфирующих материалов происходит сильная диссипация энергии звуковых колебаний. С помощью резонаторных покрытий осуществляется гашение звуковых колебаний на поверхности тела. В [1] амортизирующее покрытие представляется в виде тонкого сжимаемого слоя, который моделируется специальным граничным условием на поверхности тела. С целью получения требуемых звукоотражающих свойств тела в определенных направлениях можно использовать непрерывно-неоднородное упругое покрытие при соответствующем выборе законов неоднородности для его механических параметров.

i Надоели баннеры? Вы всегда можете отключить рекламу.