Методы анализа формальных понятий в информационных системах технической поддержки

Богатырев М.Ю.; Нуриахметов В.Р.; Вакурин В.С.

Колосов Алексей Павлович, канд. техн. наук, ассистент, Alexey. kolosoff@gmail.com, Россия, Тула, Тульский государственный университет

USING CONCEPTUAL GRAPHS IN FULL-TEXT SEARCH FOR LONG QUERIES

A.P. Kolosov

The problem of a full-text search operation with long search queries is considered. A long query is a natural language text which consists of several sentences. Such search operations are of specific interest for questions answering services (forums, Q&A web sites, technical support portals, etc.), because it allows finding answers and/or similar questions automatically. A full-text search algorithm which solves the problem via reducing the original text to a number of phrases is described. Experimental results prove the effectiveness of the suggested algorithm which performs search on phrases retrieved during query expansion.

Key words: full-text search, information retrieval, phrase processing, conceptual

graphs.

Kolosov Alexey Pavlovich, candidate of technical sciences, assistant, Alexey.kolosoff@gmail.com, Russia, Tula, Tula State University

УДК 004.4'414

МЕТОДЫ АНАЛИЗА ФОРМАЛЬНЫХ ПОНЯТИЙ

В ИНФОРМАЦИОННЫХ СИСТЕМАХ ТЕХНИЧЕСКОЙ

ПОДДЕРЖКИ

М.Ю. Богатырев, В.Р. Нуриахметов, В.С. Вакурин

Рассматривается применение методов анализа формальных понятий в технологии классификации текстовых данных в виде сообщений - запросов, используемых в информационных системах технической поддержки. В технологии используется оригинальное решение задачи классификации текстов, в котором применяются концептуальные семантические модели: концептуальные графы и решетки понятий. Применение концептуальных графов позволяет более точно находить в тексте понятия -словосочетания, включая случаи, когда образующие их слова не являются соседними.

Ключевые слова: полнотекстовый поиск, системы технической поддержки, концептуальные графы, решетки понятий.

Прогресс в развитии многих современных информационных систем, работающих с текстовыми данными, - поисковых машин Интернет, систем автоматического перевода, систем поддержки принятия решений, вопросно - ответных систем и им подобных, - связан с решением

фундаментальной проблемы автоматического понимания текстов на естественном языке, известной также как проблема извлечения знаний из текста. Оба варианта приблизительно соответствуют термину Text Mining, используемому в литературе [3].

Одним из классов систем, где применяются технологии, основанные на решении данной проблемы, являются системы технической поддержки.

Системы технической поддержки предназначены для разрешения проблем, возникающих при эксплуатации технических устройств и программного обеспечения. Типичная система технической поддержки получает запросы от пользователей в виде текстов на естественном языке, например, в формате сообщений электронной почты. Необходимо подготовить ответ каждому пользователю на его вопросы, рекомендации, советы или ссылки на другие тексты.

В данной работе описана технология обработки запросов на естественном языке к системам технической поддержки, основанная на методах анализа формальных понятий. Анализ формальных понятий (АФП) [0] - это направление в современном интеллектуальном анализе данных (Data Mining), исследующее формы организации данных, представляющих собой частично упорядоченные множества объектов и принадлежащих им атрибутов. Такие множества образуют так называемые формальные контексты, на которых строятся решетки понятий. Понятие существует в формальном контексте как специфическое отношение замыкания на множествах объектов и атрибутов. Решетка понятий позволяет выявить связи между понятиями как визуально (в виде так называемых диаграмм Хассе), так и аналитически в виде множества импликаций, допускаемых решеткой.

Применение АФП на текстовых данных является сложной и мало исследованной областью Text Mining. Главной проблемой здесь является построение формальных контекстов на текстах естественного языка. Для этого необходимо извлекать из текста объекты и их атрибуты, что требует семантического анализа текста. В данной работе предлагается решение данной задачи, основанное на применении концептуальных графов [0] -разновидности семантических сетевых моделей.

Использование концептуальных графов позволяет формализовать построение формальных контекстов на текстах естественного языка и далее решить задачу классификации текстовых запросов в системах технической поддержки.

Постановка задачи и основные подходы к решению. Многие информационные технологии обработки текстовых данных строятся на основе решения следующей задачи.

Пусть имеется множество текстовых документов D = {di}, i = 1,2,....,n и множество текстовых запросов

Q = {q-},}, j = 1,2,...,m .

Необходимо классифицировать запросы следующим образом. Для каждого запроса qjнужно найти соответствующие ему документы, образующие подмножество Dq ^ D . Подмножества Dq., Dq. для запросов

qj, qi могут пересекаться.

В данной постановке эту задачу можно считать весьма сложной з а-дачей классификации: число классов равно m;

проблематично рассматривать множество D как выборку с какими-либо известными свойствами;

возможность обучения по прецедентам требует специального исследования.

Первоочередной проблемой в данной задаче является нахождение критерия соответствия текстовых запросов и документов. Этой проблеме посвящено множество работ, относящихся к нескольким направлениям компьютерной (математической) лингвистики и Text Mining [3].

Возможности обучения в данной задаче классификации связаны с определенными гипотезами о появлении и свойствах текстовых запросов. Так, поток запросов, обладающих некоторыми общими признаками, может быть вызван наличием очевидной, постоянно возникающей ошибки или характерной ситуации при эксплуатации того продукта, на который ориентирована система технической поддержки. Общими признаками текстовых запросов в таком случае могут быть повторяющиеся термины или словосочетания, которые непосредственно связаны с критической ситуацией, вызвавшей поток запросов. Данный пример, помимо прочего, иллюстрирует задачу извлечения фактов из текстовых данных - одну из наиболее востребованных задач в сети Интернет. Фактом здесь является наличие критической ситуации, которую косвенно описывают характерные термины или словосочетания, присутствующие в текстах. Наличие или отсутствие критической ситуации является уже бинарным явлением, и задача классификации для двух классов существенно упрощается; обучение на типовых для конкретных ситуаций фрагментах текста также возможно.

Несмотря на известную сложность и отсутствие аналитических решений, существует несколько подходов к решению данной задачи, используемых в реальных информационных технологиях. Рассмотрим основные.

Статистический подход. Проблема сравнение текстов здесь решается путем поиска общих ключевых слов в сравниваемых текстах. Ключевыми считаются слова, частоты встречаемости которых, вычисляемые раз-

личными способами, максимальны. Подход дает приемлемые результаты на больших текстах и не работает в реальном времени.

Применение индексации. Данный подход актуален при работе с полнотекстовыми базами данных. Текстовым документам в базе данных ставится в соответствие индекс, представшющий собой достаточно сложный объект хранения. Так в индексе могут вычисляться позиции всех слов в текстах для ускорения их поиска. Фактически здесь также применяется поиск по ключевым словам, но с использованием системы индексации.

Концептуальное моделирование. Обобщением первых двух подходов является применение метаданных, строящихся на текстовых базах данных и. соответственно, на текстах запросов. Метаданные воплощают определенную модель текста - морфологическую, синтаксическую или семантическую. Концептуальное моделирование является наиболее востребованной здесь парадигмой моделирования.

Концептуальное моделирование является достаточно широким направлением в моделировании. Концептуальная модель в общем виде представляет собой множество объектов, связанных отношениями. Эти объекты, называемые «концепт», «концепция», «понятие», могут иметь различную природу. В концептуальных моделях чаще всего применяются бинарные отношения, но в них могут входить и отношения произвольной арности. Такая универсальность позволяет применять концептуальные модели в самых разных областях [5,6].

В системах обработки текстовых данных применяются концептуальные модели, отличающиеся масштабом и содержанием: концептуальные графы, решетки понятий, онтологии. Несмотря на такие различия, все эти модели могут быть формально описаны в рамках единого математического аппарата анализа формальных понятий (АФП).

Элементы анализа формальных понятий. В анализе формальных понятий применяются множества объектов б и принадлежащих им атрибутов М. Эти множества частично упорядочены некоторыми отношениями, которые мы обозначим □ и <ш, соответственно: С? = (О, С), М = (М,<1). На данных множествах определяется формальный контекст К = (£, М, I), в котором связь между объектами их атрибутами задается отношением /сбх^, которое представляет собой набор кортежей <>е 1.

Связи между объектами и атрибутами определяются следующим образом. Для подмножеств А<^0 и В объектов и атрибутов задаются отображения (функции) А':А^>В и В':В—>А со следующими свойствами: A,:={m<EM\<g,m>eI\/geA}, В' :={geG\<g9m>eI\/m^B}. Пара множеств (А, В), таких, что А!-В, В'-А, называется формальным понятием контекста К.

Множества А и В замкнуты в силу композиции отображений: Ап = А, В"=В. Множество^ образует объем формального понятия (А, В\ а множество В - его содержание. Отношения частичного порядка □, на множествах б и М индуцируют отношение частичного порядка < на множестве понятий.

Если для понятий (Аи Вх) и (А2, В2) А1сА2з что эквивалентно В2сВ1? то (Ли В1) < (Л2? В2). В этом случае логично считать понятие (Аь В1) менее общим, чем понятие (А2, В2). Формальный контекст имеет представление в виде матрицы инцидентности отношения /, в которой ненулевые элементы обозначают факт принадлежности атрибута т^Мобъекту

На рис. 1 показан пример формального контекста на множествах О = {блок, устройство, котроллер, объект, сеть, форма, файл} и М = {генерация, отображение, поддержка, удаление, копирование}, соответствующих объектам и операциям с ними в системе технической поддержки.

А в с о е

генерация отображение поддержка удаление копирование

блок X

устройство X X

котроллер

объект X X х х

сеть х х

форма X X х х

файл х

Рис. 1. Пример формального контекста

Множество б объектов контекста упорядочено естественным образом: блок - более масштабный объект, чем файл. Если приоритет операций из множества атрибутов М не задан, то упорядоченность этого множества искусственная - его элементы просто пронумерованы.

В матрице контекста понятия (А, В) задаются максимальными по вложению подматрицами с ненулевыми элементами. Так, понятием в контексте на рис.1 будет пара {{объект, сеть, форма), {удачение, копирование}). Понятия - подстроки и понятия - подстолбцы в матрице контекста также допустимы.

Согласно основной теореме АФП, частично упорядоченное по вложению объемов множество формальных понятий контекста К образует математический объект - решетку [11], которая называется решетка понятий [!]■

Задача построения решетки понятий на больших контекстах (поря-

3

док матрицы контекста ~ 10 ) может оказаться нетривиальной и потребовать значительных ресурсов, что породило направление исследований ал-

горитмов построения решеток понятий [8]. На рис. 2 изображена решетка понятий контекста рис. 1. Для иллюстрации контекста и решетки понятий использовано программное средство [12].

Решетка понятий, построенная на формальном контексте, является инструментом представления и извлечения знаний из данных контекста. В роли знаний выступают понятия, организованные иерархично. При этом граф решетки понятий не является деревом, что характерно для графов многих концептуальных моделей, а имеет более общую структуру. Это позволяет представлять знания, выражающиеся понятиями, характеризующимися меньшей и большей общностью, меньшими и большими объемом и содержанием.

Инструментом извлечения знаний на решетках понятий являются методы Data Mining, использующие модели в виде импликаций, функциональных зависимостей и ассоциативных правил.

Рис. 2. Решетка понятий контекста рис. 1

Импликации X ^ У на подмножествах признаков X, У сМ имеют

место, если X с У , т.е. каждый объект, обладающий всеми признаками из множества X, также обладает всеми признаками из множества У.

В решетке на рис. 2 имеем импликации: копирование ^ удаление;

генерация ^ {отображение, удаление, копирование}; {отображение, удаление} ^ копирование; {поддержка, удаление} ^ {отображение, копирование}.

Имея множество импликаций решетки понятий, далее строим систему навигации в ней, позволяющую находить частные и общие понятия для заданного входа - узла решетки. В этом состоит большое преимущество решеток понятий как концептуальных моделей.

Известна проблема построения решеток понятий на текстах естественного языка. Сложность этой проблемы легко проиллюстрировать на рассматриваемом здесь примере формального контекста на рис. 1. Представим, что имеется текст, в котором написано про все то, что входит в контекст на рис.1 - про блоки, устройства и т.д., про генерацию, отображение и т.д., и написано это «литературно», то есть слова из множеств О и М употреблены в различных грамматических формах (падежах, склонениях) и в сочетаниях с другими словами. Требуется по такому тексту построить контекст на рис.1.

Рассмотрим, как решается эта задача при помощи концептуальных графов.

Применение концептуальных графов. Концептуальный граф - это простейшая семантическая модель предложения текста. Концептуальный граф представляет собой двудольный направленный граф, состоящий из двух типов узлов: концептов и концептуальных отношений [9]. На рис. 3 показан пример концептуального графа для предложения «Копирование и удаление файлов происходит при заданных правах на эти операции». Этот граф построен программной системой [4], разработанной авторами, и работающей с текстами естественного языка. Концепты на рис. 3 изображены в виде прямоугольников, отношения - в виде эллипсов.

Поскольку концептуальный граф задает смысл порождающего его предложения, он не может быть построен однозначно. Выбор концептов и отношений субъективен, но выполняется в рамках известных лингвистических моделей и подходов к анализу текста. Так в рассматриваемом здесь решении применяется вербоцентрический подход (на рис. 3 есть главный концепт и он задан глаголом «происходить») и названия отношений формируются алгоритмом построения концептуальных графов по результатам решения известной в лингвистике задачи разметки семантических ролей [2].

Рис. 3. Концептуальный граф для предложения «Копирование и удаление файлов происходит при заданных правах на эти операции».

Применение концептуальных графов к построению решеток понятий происходит следующим образом:

на заданном тексте строится множество концептуальных графов; на множестве концептуальных графов строится формальный контекст; на формальном контексте строится решетка понятий.

Задача автоматического построения концептуальных графов на заданном тексте решена, и ее решение описано, например, в работе [4]. Построение решетки понятий на заданном контексте невысокой размерности может быть выполнено известными программными средствами. Построение формального контекста на множестве концептуальных графов представляет собой нетривиальную, достаточно сложную задачу [7, 10].

Опишем принципиальные этапы ее решения.

1. Вводятся иерархии типов для концептов Т с и отношений Т к , необходимые для упорядочивания множеств объектов и атрибутов контекстов. Вершина каждой иерархии представлена универсальным концептом и универсальным отношением. Соответственно внизу иерархий находятся типы абсурдного концепта и абсурдного отношения. Место типа в иерархии определяется порядком типа. Поддержка таких иерархий выполняется с использованием известных корпусов текстов, например, WordNet [15] для английского языка и НКРЯ [14] для русского языка.

2. Объекты и атрибуты контекстов представляют собой концепты концептуальных графов, связанные отношением принадлежности. Отношения принадлежности строятся на отношениях, найденных алгоритмом

построения концептуальных графов: «атрибут», «генитив», «источник» и т.п.

3. Выбор концептуальных отношений, порождающих отношения принадлежности, выполняется экспериментально. Эксперименты выполняются на полнотекстовой базе данных системы технической поддержки и приводят к выделению понятий - словосочетаний, образующих контекст и далее - решетку понятий.

Данный способ позволяет извлекать понятия - словосочетания из текстов, когда образующие их слова не являются соседними [13].

Классификация текстовых запросов. Рассмотренные решения позволили построить технологию обработки текстовых запросов на естественном языке в системах технической поддержки, в которой реализуется решение задачи классификации текстовых запросов. Общий принцип работы такой технологии состоит в следующем.

1. Для классификации текстов используются понятия, построенные на концептуальных графах предложений текста запроса.

2. Понятия используются в качестве входов в систему индексации полнотекстовой базы данных системы технической поддержки.

3. Система индексации включает решетку понятий, построенную на информационном ресурсе системы технической поддержки. Такой ресурс, основанный на полнотекстовой базе данных, может быть расширен на концептуальную структуру в виде онтологии [7], позволяющей более рационально хранить и поддерживать текстовые данные. Решетка понятий, построенная на онтологии, позволяет представить единым образом все необходимые для работы классификатора объекты и их атрибуты, принадлежащие существующим ресурсам системы. Узлы решетки понятий служат входными точками для связи с ресурсами, соответствующими каждому понятию.

4. Классификация текстов выполняется путем установления соответствия текста запроса понятиям решетки. Текст запроса заменяется множеством понятий, извлеченных из него при помощи концептуальных графов. Для каждого понятия ищется «минимальный» узел решетки, соответствующий минимальному уровню ее иерархии - теме понятия. Если такой узел найден, то понятию ставятся в соответствие ресурсы системы технической поддержки. В результате классификации тексту запроса может быть сопоставлено множество узлов решетка понятий и, соответственно, несколько документов, содержащих относящуюся к тематике запроса информацию.

Предложенная технология применяется в пилотном проекте компании - разработчика программного обеспечения SmartBear [16]. Понятия извлекаются из текстов запросов в виде словосочетаний, лексические эл е-менты которых могут входить в понятия, соответствующие узлам решетки.

Эксперименты в разработанной системе технической поддержки показали ее эффективность. Главным преимуществом применяемой технологии является возможность извлечения понятий, соответствующих используемой в системе технической поддержки терминологии, из текстов, «зашумленных» разговорной лексикой, - см. примеры в статье А.П. Колосова в данном выпуске. Эта возможность существует, если справедлив принцип, согласно которому пользователи систем технической поддержки, независимо от типа лексики их запросов, употребляют грамматически правильные обороты и точно воспроизводят термины, когда речь идет о реальной ситуации, требующей поддержки. Данный принцип подтверждается в экспериментах.

В данной работе рассмотрена технология применения анализа формальных понятий (АФП) в системах, использующих текстовые данные в виде неструктурированных текстов естественных языков. Применение АФП как к данным, так и к ресурсам информационных систем создает единый подход к моделированию, что является большим преимуществом. Другим преимуществом данного подхода является его формализация -наличие единого математического аппарата, используемого в концептуальном моделировании. Это определяет возможности применения АФП к широкому классу интеллектуального анализа текстовых данных.

Работа частично поддержана РФФИ, грант № 11-07-97542-р_центр_а.

Список литературы

1. Ganter, Bernhard; Stumme, Gerd; Wille, Rudolf, eds. (2005), Formal Concept Analysis: Foundations and Applications, Lecture Notes in Artificial Intelligence, No. 3626, Springer-Verlag. Berlin. 2003.

2. Gildea D., Jurafsky D. Automatic labeling of semantic roles. Computational Linguistics. 2002. Vol. 28. P. 245-288. (2002).

3. Kao A. and Poteet S. Natural Language Processing and Text Mining. Springer-Verlag. London. 2007.

4. Bogatyrev M. Y., Mitrofanova O. A., Tuhtin V. V.. Building Conceptual Graphs for Articles Abstracts in Digital Libraries // Proceedings of the Conceptual Structures Tool Interoperability Workshop (CS-TIW 2009) at 17th International Conference on Conceptual Structures (ICCS'09). M., 2009. P. 50-57.

5. Michael Bogatyrev and Alexey Kolosoff. Using Conceptual Graphs for Text Mining in Technical Support Services. Pattern Recognition and Machine Intelligence. - Lecture Notes in Computer Science, 2011, Volume 6744/2011, P. 466-471. Springer-Verlag. Heidelberg. 2011.

6. Michael Bogatyrev, Vadim Nuriahmetov. Application of Conceptual Structures in Requirements Modeling. - Proc. of the International Workshop on Concept Discovery in Unstructured Data (CDUD 2011) at the Thirteenth Inter-

34

national Conference on Rough Sets, Fuzzy Sets, Data Mining and Granular Computing - RSFDGrC 2011. M., 2011. P. 11-19.

7. Priss U. Linguistic Applications of Formal Concept Analysis //Ganter; Stumme; Wille (eds.), Formal Concept Analysis, Foundations and Applications. Springer Verlag. 2005. P. 149-160.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

8. Kuznetsov S.O. and Obiedkov S.A., Comparing Performance of Algorithms for Generating Concept Lattices // Journal of Experimental and Theoretical Artificial Intelligence, Vol. 14. No. 2-3. P.p. 189-216, 2002.

9. Sowa J.F. Conceptual Structures: Information Processing in Mind and Machine. Addison-Wesley. London. 1984.

10. Wille R. Conceptual Graphs and Formal Concept Analysis //Proceedings of the Fifth International Conference on Conceptual Structures: Fulfilling Peirce's Dream. 290 - 303. Springer-Verlag. London. (1997).

11. Биркгоф Г. Теория решеток. М.: Наука, 1984. 284 с.

12. Евтушенко С.А. Система анализа данных "CONCEPT EXPLORER"// КИИ-2000 Труды конференции. М., Изд-во физ. мат. литературы, 2000.

13. Колосов А.П., Богатырев М.Ю. Система полнотекстового поиска по длинным запросам. Электронные библиотеки: перспективные методы и технологии, электронные коллекции 13-й Всероссийская научная конференция RCDL2011: труды конференции. - Воронеж, Вор ГУ, 2011 -408 с. - С. 151- 156.

14. Электронный ресурс. Национальный корпус русского языка. http://www.ruscorpora.ru/.

15. Электронный ресурс: http://wordnet.princeton.edu/.

16. Электронный ресурс: http://smartbear.com/

Богатырев Михаил Юрьевич, д-р техн. наук, доц., профессор, okkambo@,mail. ru, Россия, Тула, Тульский государственный университет,

Нуриахметов Вадим Раифович, аспирант, vadim-nuriahmetov@yandex.ru, Россия, Тула, Тульский государственный университет,

Вакурин Владимир Сергеевич, аспирант, vakourinvl@yandex.ru, Россия, Тула, Тульский государственный университет

METHODS OF FORMAL CONCEPT ANALYSIS IN INFORMATION SYSTEMS OF TECHNICAL SUPPORT

Applications of methods of formal concept analysis in the technology of classification of textual data being natural language text queries applied in information systems of technical support is considered. Original solution of text classification problem based on applying conceptual semantic models - conceptual graphs and conceptual lattices - is implemented. Application of conceptual graphs makes possible more precise acquiring concepts as

word combinations from a text, including variants when words in a word combination are not adjacent.

Key words: full-text search, systems of technical support, conceptual graphs, conceptual lattices.

BogatyrevMikhail Yurievich, Dr. Sci., professor, okkamboamail.ru, Russia, Tula, Tula State University,

Nuriahmtov Vadim Raiphovich, postgraduate student, vadim-nuriahmetov@yandex.ru, Russia, Tula, Tula State University,

Vakurin Vladimir Sergeevich, postgraduate student, vakourinvl@yandex.ru, Russia, Tula, Tula State University

УДК 004.912

ИССЛЕДОВАНИЕ МЕТОДА ПОИСКА ДУБЛИКАТОВ ВЕБ-ДОКУМЕНТОВ С ПРИМЕНЕНИЕМ КОНЦЕПТУАЛЬНЫХ

СТРУКТУР

В.Р. Нуриахметов

Рассматриваются вопросы детектирования дубликатов поисковыми машинами. Работа содержит некоторые результаты исследований возможностей применения семантических моделей текста в виде концептуальных графов для поиска дубликатов веб-документов.

Ключевые слова: поиск в интернете, нечеткие дубли, концептуальные структуры, концептуальные графы.

Большое количество документов в Интернете имеют копии, что непосредственно сказывается на результатах поисковых машин. Появляется проблема выявления дублей в веб-области поисковых систем. Актуальность проблемы обусловлена значительным расширением индексных баз поисковых систем, на обработку которых требуются значительные временные затраты и большие дисковые пространства. Также в последнее время набирает обороты схема искусственного увеличения популярности сайтов за счет обмена статьями, что приводит к еще большему количеству дублей веб-документов.

Методы анализа формальных понятий в информационных системах технической поддержки Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Богатырев М. Ю., Нуриахметов В. Р., Вакурин В. С.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Богатырев М. Ю., Нуриахметов В. Р., Вакурин В. С.

METHODS OF FORMAL CONCEPT ANALYSIS IN INFORMATION SYSTEMS OF TECHNICAL SUPPORT

Текст научной работы на тему «Методы анализа формальных понятий в информационных системах технической поддержки»