Научная статья на тему 'Фактографический анализ текста в системе поддержки принятия решений'

Фактографический анализ текста в системе поддержки принятия решений Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
618
138
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ФАКТОГРАФИЧЕСКИЙ АНАЛИЗ / СИСТЕМА ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ / ОНТОЛОГИЯ / INFORMATION EXTRACTION / DECISION SUPPORT SYSTEM / ONTOLOGY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пивоварова Лидия Михайловна

Данная статья посвящена технологии фактографического анализа, получившей в англо-язычной литературе название Information Extraction. Это направление развивается уже более двадцати лет, и в итоге этого развития сформировался некоторый технологический стандарт де-факто. Однако с точки зрения функциональности и технологических решений сформировавшиеся подходы отнюдь не универсальны. В статье обсуждаются некоторые возможные модификации сложившейся методологии, опробованные нами в процессе создания модуля фактографического анализа текста для системы поддержки принятия решений

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Information Extraction for Decision Support System

The paper is concerned with Information Extraction approaches. We present some variations of existing methodology, which we apply in Information Extraction module of Decision Support System. Our approaches is based on a special domain ontology.

Текст научной работы на тему «Фактографический анализ текста в системе поддержки принятия решений»

Л. М. Пивоварова

ФАКТОГРАФИЧЕСКИЙ АНАЛИЗ ТЕКСТА В СИСТЕМЕ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ*

Введение

Фактографический анализ текста призван сделать возможным интеллектуальный анализ данных, извлекаемых из текстового потока. Решение этой задачи должно привести к синергетическому эффекту, к возможности в полную мощь использовать существующие информационные технологии [1].

Говоря о технологиях анализа текста, приходится исходить из того, что методов полного семантического анализа текста пока не существует. Более того, полное понимание текста, как правило, и не требуется, поскольку интеллектуальный анализ данных оперирует не с информацией вообще, а с определенными ее аспектами, востребованными конкретной задачей. В соответствии с этим в области анализа текста сформировалось направление, обозначаемое английским термином Information Extraction (извлечение информации — в отличие от Information Retrieval, т. е. классического информационного поиска). Отличительная особенность систем данного класса — выборочный анализ только релевантных фрагментов текста (в отличие от Natural Language Understanding, предполагающего полную формализацию семантики текста).

Задачи, поддерживаемые технологией Information Extraction, как правило, имеют дело с четко определенной и относительно узкой предметной областью. Типичная задача Information Extraction — это мониторинг определенных характеристик и аспектов поведения некоторого объекта или системы. Например, это может быть информация о должностных перемещениях — объектом слежения в этом случае является некоторая совокупность персон, характеристикой — должность, отслеживаемым событием — прием на работу или увольнение. Другим распространенным примером является информация о слиянии и разделении организаций, сделках купли-продажи, ценах на товары. В качестве примера мониторинга действий можно привести отслеживание информации о террористических актах. Востребован также анализ научных текстов, например медицинских и биологических, с целью извлечения информации о химических реакциях и взаимодействии органических молекул.

Уже из постановки задачи видно, что результатом работы системы фактографического анализа в подобных случаях должен быть набор однотипных записей, который легко может быть помещен, например, в реляционную базу данных. Мы, однако, считаем, что сфера применения фактографического анализа может быть существенно расширена и адаптирована к комплексному описанию предметной области.

Развитие технологий фактографического поиска

Новейшая история Information Extraction связана с Конференцией по пониманию сообщений (Message Understanding Conference, MUC), которая была организована при

* Работа выполнена при частичной поддержке РФФИ (грант № 09-06-0075а) и РГНФ (грант № 07-04-00161а)

© Л. М. Пивоварова, 2010

поддержке DARPA (1987-1997) [2]. Все, что сегодня можно назвать «общим местом» для Information Extraction, было выработано в ходе работы этой конференции. Называемая «конференцией», MUC, однако, фактически представляла собой конкурс: все участники получали один и тот же набор сообщений и одинаковые описания требуемого результата. Источниками информации в MUC были специальные или общедоступные новостные сообщения — на первых конференциях это были сообщения о военно-морских операциях и террористической активности, затем круг тем бы расширен за счет информации о создании совместных предприятий, смене лидеров на рынке и т. п. [2; 3].

На первой конференции формат выходных данных не был оговорен, но уже начиная со второй конференции было выработано единое представление события в виде меточного шаблона, в котором участники должны были заполнить отдельные поля, например: тип события, действующие лица, время и место и т. п. Отдельных слотов было от 10 (MUC-2) до 24 (MUC-4). Однако начиная с пятой конференции была осознана недостаточность представления сложных событий одной схемой данных. На MUC-5 произошел переход к представлению события в виде набора из 11 связанных шаблонов с 47 полями, что фактически означало переход к формату реляционной базы данных [2].

Если говорить о технологии анализа текстов, то в итоге работы этой конференции определилось пять видов процедур, которые отличаются разной глубиной анализа текста и характером извлекаемой из текста информации.

Named Entity recognition (выделение именованных сущностей)—поиск и классификация имен объектов в тексте. При этом некоторые объекты могут быть представлены в тексте словосочетаниями (Владимир Путин, железная дорога).

Template Element construction (построение элементов шаблона) — добавление описательной информации (значений некоторых атрибутов) к объектам, найденным на двух предыдущих этапах анализа.

Coreference resolution (распознавание связей кореференции) — определение того, какие найденные в тексте имена объектов указывают на один и тот же объект. Сюда входит как разрешение собственно кореференции, так и анализ анафорических связей.

Template Relation construction (построение связей) — выявление связей между отдельными объектами.

Scenario Template production (построение сценария)—построение полного описания события (факта) путем объединения результатов предыдущих этапов.

Благодаря авторитету конференции MUC, такое понимание технологии Information Extraction стало широко распространенным. Тем не менее само по себе разделение на этапы является достаточно условным и не описывает всю совокупность задач, которые могут решаться при помощи данной технологии.

Преемницей конференции MUC в настоящее время стала программа ACE (Automatic Content Extraction — автоматическое извлечение содержания), организованная Консорциумом лингвистических данных (Linguistic Data Consortium, LDC), открытым объединением университетов, организаций и правительственных (американских) исследовательских групп [6]. Программа ACE построена по тому же принципу, что и MUC, — как соревнование с одинаковым для всех заданием. Однако ACE использует более детальную таксономию сущностей, для всех систем обязательна интерпретация метонимических связей, требуется семантический анализ обрабатываемого текста — все это означает, по сути, большую «семантизацию» Information Extraction. В отличие от MUC, результаты оценки представленных на ACE систем доступны только участникам программы, что, к сожалению, делает ее гораздо менее полезной для научного сообщества [6].

В настоящее время создано большое количество коммерческих приложений Information Extraction (например, Semantex [7], Text Miner [8], Autonomy Knowledge Server [9] и др.). Кроме того, существует довольно много полностью или частично открытых приложений, разрабатываемых в университетских и других исследовательских коллективах, направленных как на фактографический поиск, так и на решение более широкого класса задач, связанных с автоматической обработкой текста (один из самых известных примеров — британская система GATE [10]).

В нашей стране также активно ведутся разработки по созданию систем фактографического анализа русскоязычных текстов, а также по адаптации иностранных систем к русскому языку. Среди организаций, ведущих активные разработки в этом направлении, можно назвать такие компании, как «RCO» [11], «Галактика-Zoom» [12], «Ин-тегрум» [13], «Яндекс» [14].

В целом отечественные системы фактографического анализа не уступают по качеству иностранным аналогам, однако их гораздо меньше по количеству. Как следствие, фактографический анализ русскоязычных текстов в настоящее время охватывает гораздо меньше возможных задач и предметных областей.

Современные технологии фактографического поиска

Наиболее распространенным типом фактов, извлекаемых в настоящее время с помощью систем фактографического поиска, является информация вида «объект — характеристика объекта» (например, товар — цена, человек — должность и т.п.) или «объект— действие» (например, человек — назначение на должность).

При всем разнообразии такого рода информации, внутри каждой отдельной системы она является однотипной, а ее представление в тексте может быть формализовано в виде контекстно-свободных грамматик (хотя сами грамматики могут быть достаточно сложными и объемными). В этом случае входной текст подвергается морфологическому и синтаксическому анализу, результатом которого является (в идеальном случае) дерево зависимостей для каждого предложения.

Грамматика, на основе которой осуществляется поиск фактографических данных, — это набор правил (обычно называемых образцами), каждое из которых описывает небольшой фрагмент такого дерева, представляющий в тексте искомый факт. Формализмы, которые используются для такого описания, могут быть весьма разнообразны — от простейших регулярных выражений до специализированных языков (например, AGFL [15]).

Очевидно, что для эффективной работы системы фактографического поиска грамматика должна включать очень большое число образцов, поскольку естественный язык позволяет описать один и тот же факт множеством различных способов. Кроме того, образцы должны быть достаточно сложно устроены, чтобы один образец мог покрывать некоторый набор языковых феноменов. Таким образом, краеугольным камнем любой системы фактографического поиска становится методология построения образцов («бутылочное горлышко» Information Extraction). Все существующие подходы к решению этой проблемы разделяются на два больших класса: подходы, основанные на знаниях, и подходы, основанные на машинном обучении.

Подход, основанный на машинном обучении, предполагает автоматическое построение образцов с использованием большого корпуса текстов. Чаще всего используются алгоритмы типа bootstrapping: на вход системе подается небольшой набор образцов; на основе этих образцов в тексте находят слова, описывающие значимые объекты и их

свойства; затем в текстах ищут контексты, в которых встречаются данные слова, и используют эти контексты в качестве образцов на следующих итерациях [16; 17].

Подход, основанный на знаниях, предполагает привлечение различных лингвистических ресурсов и написание правил, которые отражают структуру предметной области и определяют релевантность фрагментов текста относительно искомой информации. Для разработки правил используются корпус текстов предметной области, а также общие знания, основанные на здравом смысле и интуиции эксперта. Вследствие этого разрабатываемая система становится зависимой от субъективных представлений эксперта, которые могут быть неполными или противоречивыми [5].

Очевидным улучшением данного подхода кажется объективизация знаний предметной области, т. е. описание их в виде некоторой формальной модели (онтологии). Однако в настоящее время отсутствуют унифицированные подходы к моделированию знаний, и, как следствие, не существует единой универсальной онтологии [18] (хотя ведутся активные разработки в этом направлении — см., например, проект SUMO [19]).

Рассматривая фактографический поиск в исторической перспективе, можно выделить несколько устойчивых тенденций развития данной технологии. Это, во-первых, движение в сторону упрощения — от моделей полного анализа текста к моделям и методам частичного анализа. Критерии отбора информации из текста определяются путем выделения значимых классов объектов и аспектов их поведения (процессы, события, действия).

Вместе с тем можно отметить и противоположную тенденцию к усложнению: от жестко регламентированного и узкого фрагмента знаний (военно-морские операции) к более широким предметным областям и схемам представления знаний; от анализа, ориентированного на буквальную семантику текста, к текстам свободного стиля; от чисто формального разбора текста — к подключению дополнительной семантической информации.

Кроме того, нельзя не отметить почти полное отсутствие интереса к извлечению из текста количественной информации. Количественные данные могут быть представлены в тексте большим, но все же ограниченным числом способов, что делает их обработку реализуемой, что могло бы существенно повысить качество фактографического анализа текста и расширить сферу его применения.

Специфика фактографического анализа в системе поддержки принятия решений

Разработанная нами система ориентирована на мониторинг общественно-политической ситуации по текстам свободного стиля (характерного для публикаций СМИ). В системе поддержки принятия решений релевантная информация представлена перечнем характеристик (факторов), каждая из которых отражает определенный аспект общественно-политической ситуации: Социальная напряженность, Инвестиционная привлекательность, Число безработных, Уровень инфляции, Средняя заработная плата и др. В настоящее время этот перечень включает несколько сотен факторов, однако он остается открытым, и поэтому существуют требования к архитектуре системы фактографического анализа и алгоритму ее работы.

Задачей системы фактографического анализа является опознание в текстах упоминаний факторов и извлечение их значений.

Значения факторов можно разделить на количественные и оценочные. Количественное значение — это именованное число. Например, для фактора средняя заработная

плата значением может быть 15 000 рублей, для фактора число безработных —5,5 млн человек, для фактора уровень инфляции — 11% и т. п.

Оценочные значения могут определять как значение фактора, так и динамику его изменения. Для оценки значения использовались стандартные семибалльные шкалы, в которых возможные значения разделяются на семь областей: очень мало, мало, ..., ниже среднего, средний, выше среднего, большой, очень большой для абсолютных значений и сильно падает, падает, слабо падает, не меняется, слабо растет, растет, сильно растет для оценки динамики изменений.

В зависимости от возможных значений факторы можно разделить на имеющие любые значения и имеющие только оценочные значения. Например, такие факторы, как Средняя заработная плата, Уровень инфляции и др. могут принимать как количественные, так и оценочные значения, а факторы типа Уровень социальной напряженности, Инвестиционная привлекательность могут иметь только оценочные значения.

В текстах свободного стиля информация об общественно-политической ситуации может быть представлена самыми разными способами. Подход, основанный на контекстно-свободных грамматиках, в такой ситуации оказывается неэффективным, поскольку крайне сложно формализовать все разнообразие языковых феноменов в виде конкретной грамматической модели. Дополнительную сложность представляет необходимость отличать сообщения о реальных событиях от мнений их участников, а также прогнозов, даваемых на будущее.

Кроме того, важно, чтобы набор факторов мог меняться экспертом-аналитиком в зависимости от нужд системы поддержки принятия решений. Все это заставляет отказаться от использования полностью автоматизированных методов в пользу разработки интеллектуальной среды для поддержки работы эксперта-аналитика, хорошо ориентирующегося в проблемной области. Отличительной особенностью такой среды является непрерывное обучение системы, которое обеспечивает адаптацию анализатора к особенностям обрабатываемого текстового потока, а также к изменениям в модели принятия решений. Вместе с тем система должна максимально облегчать работу эксперта и минимизировать действия, необходимые для совершения стандартных операций.

Для реализации интеллектуальной системы все языковые средства выражения смысла, которыми в тексте могут быть обозначены факторы и их значения, были разделены на регулярные и нерегулярные. К регулярным отнесена большая часть средств представления значений факторов. Это в первую очередь количественные значения (именованное число) и большая часть оценочных значений, которые могут быть представлены в тексте такими словами, как большой, высокий, низкий, незначительный, растет, возрастает, падает, снижается и др. Хотя набор слов для выражения оценочных характеристик достаточно велик, эти слова не зависят ни от конкретного фактора, ни от предметной области, и могут обрабатываться универсальными процедурами, что и позволяет рассматривать их как регулярные средства выражения значений.

К нерегулярным средствам можно отнести собственно указание на присутствие конкретного фактора в тексте, а также те способы выражения оценочных значений, которые могут относиться только к одному конкретному фактору. Например, такой фрагмент текста, как стихийные акции протеста, может интерпретироваться как указание одновременно и на присутствие в тексте фактора Социальная напряженность, и на его значение— «выше среднего».

Для распознавания в тексте регулярных и нерегулярных средств выражения смысла используются различные алгоритмические средства. Для распознавания и формализации регулярных контекстов (большей части значений факторов) используются единые

структурные модели. Для распознавания нерегулярных контекстов (собственно факторов и некоторых значений) используется база обучающих примеров, которая может пополняться экспертом в зависимости от необходимого набора факторов и особенностей текстового потока.

При построении обучающих примеров и поиске факторов задействуются различные текстовые структуры — от линейного порядка слов до фрагментов семантической сети. В зависимости от структуры обучающих примеров, при поиске могут использоваться процедуры различных уровней — графематический, морфологический, синтаксический и семантический анализ.

Использование образцов

Обучающие примеры в системе фактографического анализа — это семантико-син-таксические образцы, которые строит эксперт, в простейшем случае просто указывая в тексте документа подходящие элементы.

Образцы могут включать знания различного типа, например о представлении в тексте:

— того или иного фактора;

— регулярных значений;

— и фактора, и значения (используются в случае нерегулярного, в том числе идиоматического, представления значения).

В последнем случае значение фактора указывается явно при построении образца. Например, для фактора Социальная напряженность можно построить образец стихийный митинг и явным образом указать значение фактора («выше среднего»). Очевидно, что значение при этом оказывается жестко фиксированным, что, конечно, снижает продуктивность образца. Тем не менее потребность в такого рода образцах реально существует и определяется большим разнообразием представления релевантной информации в тексте.

Наиболее эффективным можно считать использование образцов первого типа, так как в этом случае один образец позволяет охватить ряд упоминаний одного и того же фактора в различных текстах с различными значениями.

Очевидно, однако, что для решения проблемы «бутылочного горлышка» нужно не только извлекать из текста значения, выраженные регулярным образом, но и научиться каким-то образом обобщать нерегулярно представленные в тексте значения и указания на факторы. В нашей системе такое обобщение достигается за счет использования онтологии [20].

Соответственно, система позволяет создавать не только текстовые, но и концептуальные образцы, которые используют для поиска не слова, а концепты онтологии. При поиске в тексте концептуального образца осуществляется поиск всех слов (словосочетаний), соответствующих тому или иному понятию, а также всех более частных по отношению к нему понятий (с использованием стандартных онтологических функций).

Например, для концептуального образца акция протеста ... Венесуэла релевантны такие фрагменты текста, как митинг в Венесуэле, протестные выступления в Боли-варианской республике и др. Таким образом, один концептуальный образец покрывает целый набор языковых феноменов. Пользователь с помощью онторедактора может пополнять онтологию новыми синонимами и концептами, расширяя область действия уже существующих образцов [21].

При поиске образцов используется не только связь «общее — частное», но и другие типы связей. В частности, связь локализации позволяет указывать географическую

привязку для некоторых понятий. Например, Каракас имеет связь локализации с Венесуэлой. Если в тексте встречается слово Каракас, он может быть релевантен образцу со словом Венесуэла и т. п. Это означает, что приведенный выше образец акция протеста . . . Венесуэла опишет и такой контекст, как пикет в Каракасе.

Онтология также играет важную роль при поиске в тексте значений, выраженных регулярным образом, т. е. при поиске образцов типа «только фактор», которые содержат указание только на фактор, без значения. Рассмотрим, например, следующий текст: Объем внутреннего валового продукта Венесуэлы в 2008 г. составил 334,726 млрд долларов США. По данному тексту для фактора ВВП Венесуэлы можно построить образец Объем внутреннего валового продукта, который имеет тип «только фактор». Значение фактора (334 726 000 000 долларов) при анализе автоматически извлекается из текста, с учетом синтаксической структуры текста и семантической связи «количественная характеристика — единица измерения», которая содержится в онтологии.

Система обладает функциональностью, позволяющей пользователю отлаживать и корректировать образцы. В режиме отладки возможно осуществлять поиск сразу по всем имеющимся образцам, по какому-то конкретному фактору и по одному образцу. Таким образом, построив образец, эксперт может сразу же проверить его работу на большом количестве текстов и скорректировать образец до того, как найденные с его помощью данные будут записаны в результирующую базу данных.

В настоящее время система подготовлена к опытной эксплуатации, протестирована в лабораторных условиях и используется в качестве модуля лингво-семантического анализа текста в системе поддержки принятия решений.

Автор выражает благодарность руководителю проекта по разработке системы фактографического анализа текста, проф. В. Ш. Рубашкину, а также Б. Ю. Чуприну, выполнившему программную реализацию системы.

Литература

1. Gaizauskas R., Wilks Y. Information Extraction: Beyond Document Retrieval // Journal of Documentation. 1998. 54. 1. Р. 70-105.

2. Grishman R., Sundheim B. Message Understanding Conference — 6: A Brief History // Proceedings of the 16th International Conference on Computational Linguistics (COLING). I. Kopen-hagen, 1996. Р. 466-471.

3. Message Understanding Conference Proceedings. URL: http://www.itl.nist.gov/iaui/894.02/ related_projects/muc.

4. Grishman R. Information extraction: Techniques and challenges // Information Extraction / Ed. by M. T. Pazienza. Lecture Notes in Artificial Intelligence. Rome: Springer-Verlag, 1997.

5. Appelt D. E. Introduction to information extraction AI Communication. 1999. 12. Р. 161-172.

6. LDC — Projects — ACE — Automatic Content Extraction. URL: http://projects.ldc.upenn. edu/ace.

7. Janya: Products: Semantex. URL: http://www.janyainc.com/products/products_semantex. php.

8. SAS Text Miner. URL: http://www.sas.com/technologies/analytics/datamining/textminer.

9. Autonomy. URL: http://www.autonomy.com/content/home.

10. Cunningham H. et al. GATE: A Framework and Graphical Development Environment for Robust NLP Tools and Applications // Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics (ACL’02). Philadelphia, 2002.

11. Технологии анализа и поиска текстовой информации. URL: http://www.rco.ru.

12. «Галактика-Zoom» —поиск и аналитические исследования. URL: http://www.galaktika-zoom.ru.

13. Интегрум. Аналитика и рейтинги. URL: http://www.integrum.ru.

14. Яндекс. Пресс-портреты. URL: http://news.yandex.ru/people.

15. The AGFL Grammar Work Lab. URL: http://www.agfl.cs.ru.nl.

16. Soderland S. Learning Information Extraction Rules for Semi-structured and Free Text // Machine Learning. 1999. Vol. 34, N 1. P. 233-272.

17. Yangarber R., Lin W., Grishman R. Unsupervised learning of generalized names // Proceedings of the 19th International Conference on Computational Linguistics. Taipei, Taiwan, 2002.

18. Gomez-Perez A., Fernando-Lopez M., Corcho O. Ontology Engineering. Heidelberg: Springer-Verlag, 2004.

19. Niles I., Pease A. Towards a Standard Upper Ontology // Proceedings of the 2nd International Conference on Formal Ontology in Information Systems (FOIS-2001) / Eds. C. Welty, B. Smith. Ogunquit (USA), 2001.

20. Рубашкин В. Ш. Онтологии — проблемы и решения. Точка зрения разработчика // Компьютерная лингвистика и интеллектуальные технологии: труды междунар. конф. «Диалог-2007».

21. Рубашкин В. Ш., Пивоварова Л. М. Онторедактор как комплексный инструмент онтологической инженерии // Компьютерная лингвистика и интеллектуальные технологии: Труды Междунар. конф. «Диалог-2008».

Статья поступила в редакцию 20 июля 2010 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.