Научная статья на тему 'Подход к разрешению референциальной неоднозначности текста при пополнении онтологии'

Подход к разрешению референциальной неоднозначности текста при пополнении онтологии Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
214
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОПОЛНЕНИЕ ОНТОЛОГИИ / СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТА / ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ / РАЗРЕШЕНИЕ КОРЕФЕРЕНЦИИ / РЕФЕРЕНЦИАЛЬНЫЕ ФАКТОРЫ / МЕРА БЛИЗОСТИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сидорова Елена Анатольевна, Гаранина Наталья Олеговна, Кононенко Ирина Семеновна

Предлагается подход к разрешению референциальной неоднозначности, возникающей в процессе автоматического анализа текста и извлечения информации при пополнении онтологии предметной области. Предложена модель разрешения референции, рассмотрены меры близости между потенциальными кореферентами, построенными на основе текстовых и семантических референциальных факторов, и предложен онтологический подход к формированию кандидатов и выбору наилучшего претендента.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сидорова Елена Анатольевна, Гаранина Наталья Олеговна, Кононенко Ирина Семеновна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The paper proposes an approach to reference ambiguity resolution in the process of automatic text analysis for information extraction and subject ontology population. The model of coreference resolution is considered and measures of coreferential similarity between potential coreferents described. Similarity measures are based upon textual and semantic referential factors. An ontological approach underlies the formation of set of plausible candidates for coreference and the choice of best candidate.

Текст научной работы на тему «Подход к разрешению референциальной неоднозначности текста при пополнении онтологии»

УДК 004.912, 004.82

ПОДХОД К РАЗРЕШЕНИЮ РЕФЕРЕНЦИАЛЬНОЙ НЕОДНОЗНАЧНОСТИ ТЕКСТА ПРИ ПОПОЛНЕНИИ ОНТОЛОГИИ Сидорова Елена Анатольевна

К.ф.-м.н., с.н.с., e-mail: lsidorova@iis.nsk.su

Гаранина Наталья Олеговна К.ф.-м.н., с.н.с., e-mail: garanina@iis.nsk.su Кононенко Ирина Семеновна

Н.с., e-mail: irina_k@cn.ru Институт систем информатики им. А.П. Ершова СО РАН, 630060 г. Новосибирск, пр. Лаврентьева 6

Аннотация. Предлагается подход к разрешению референциальной неоднозначности, возникающей в процессе автоматического анализа текста и извлечения информации при пополнении онтологии предметной области. Предложена модель разрешения референции, рассмотрены меры близости между потенциальными кореферентами, построенными на основе текстовых и семантических референциальных факторов, и предложен онтологический подход к формированию кандидатов и выбору наилучшего претендента. Ключевые слова: пополнение онтологии, семантический анализ текста, извлечение информации, разрешение кореференции, референциальные факторы, мера близости

Введение. Разрешение референциальной неоднозначности при анализе текста - одна из самых сложных задач компьютерной лингвистики, решение которой востребовано в таких областях, как машинный перевод, вопросно-ответные системы, автоматическое реферирование текста, извлечение информации. Суть явления референции заключается в сопоставлении языковым выражениям, представленным в линейном тексте или диалоге, сущностей или событий в реальном мире. Можно выделить два основных класса референциальных выражений: полные лексические наименования (именные группы или имена собственные) и редуцированные (выражаемые, например, местоимениями). Задача разрешения кореференции состоит в отождествлении упомянутых в тексте реальных объектов в ситуации их повторного упоминания. При этом в первом случае необходимо

непосредственное сравнение объектов, а во втором - поиск соответствующего тождественного выражения в контексте с учетом различных синтаксических, семантических и прагматических факторов, т.е. установление анафорической связи редуцированного выражения с антецедентом.

Задача разрешения анафоры и кореференции активно исследуется с 1960-х годов, но до сих пор в полной мере не решена. Базовым подходам к решению данной задачи посвящены обзоры Р. Миткова [12, 13] и более поздние [8, 15]. Одна из классификаций систем разрешения кореференции основана на типах используемых знаний. В отношении используемых знаний о предметной области и языке Р. Митков противопоставляет бедные относительно используемых знаний (knowledge-poor) подходы 90-х годов более ранним (knowledge-rich) подходам [11]. Системы 90-х годов ограничиваются морфологической и в ряде случаев синтаксической информацией, достигая высокой эффективности без использования семантики и знаний о мире. Следует отметить, что наряду с упомянутыми ранними системами некоторые современные исследования привлекают дополнительную информацию о предметной области, используя FrameNet, WordNet и другие тезаурусы, Википедию, онтологии, такие как Yago and DBpedia, семантический анализ и анализ дискурса, сложные механизмы вывода. Так, в работе [14] описывается система разрешения кореференции на основе машинного обучения, которая использует семантические признаки из различных источников (WordNet, Википедия), а также информацию о семантических ролях. Информация из WordNet позволяет определить наличие прямой семантической связи (синонимия, гиперонимия) либо косвенной связи между кандидатом в антецеденты и референциальным выражением. В [15] показывается, что учет семантических признаков позволяет улучшить результаты в отношении таких типов референциальных выражений, как местоимения и имена нарицательные.

В данной работе мы предлагаем подход к разрешению кореференции в процессе извлечения информации на основе заданной онтологии предметной области.

1. Кореференция в задачах извлечения информации. Референция в лингвистике — это отнесение текстового выражения к внеязыковому объекту или ситуации реального или абстрактного (вымышленного) мира. Сам внеязыковой объект, с которым соотносится текстовое выражение, называется его референтом. Референция может осуществляться к определенному, единичному предмету (моя лошадь), к неопределенному предмету (я хочу купить лошадь), ко множеству (лошади нашего питомника) или всему классу объектов в целом (лошадь - полезное животное). В контексте автоматического анализа текста и

извлечения информации референциальные аспекты рассматривают обычно в связи с задачей разрешения кореференции или установления референциального тождества между текстовыми выражениями [7]. В работе [4] выделяются три группы ситуаций, в которых может быть представлено отношение кореференции:

- отношение кореференции в пределах предложения;

- анафорическое замещение при сочинении простых предложений;

- анафорическое замещение в цепочке отдельных предложений текста.

Решение первых двух задач осуществляется на основе синтаксического разбора предложения, для решения третьей применяются различные методы, в том числе на основе машинного обучения [10].

Мы рассматриваем задачу извлечения информации как задачу выявления объектов заданной предметной области (ПО) и их связей. Для описания ПО используется онтология, которая содержит классы понятий, где каждый класс задается именем и набором атрибутов, и отношения между классами понятий. В упрощенном виде онтология О - это тройка вида <С, R, А>, где С - множество классов, описывающих понятия ПО, R - множество бинарных отношений, заданных на классах (понятиях), А - множество атрибутов, принимающих значения из соответствующих доменов.

При пополнении онтологии требуется установить референциальные отношения между всеми найденными в процессе анализа текста языковыми выражениями, описывающими тот или иной объект действительности, и экземплярами информационного контента онтологии, которые мы будем считать референтами. Если какой-либо найденный объект отсутствует в информационном контенте онтологии, то он должен содержать достаточное количество данных для идентификации в БД, т.е. должен обладать достаточной различительной способностью. С этой целью для каждого понятия выделяется подмножество ключевых атрибутов Ак ^ А и ключевых отношений Rk ^ R, которые обеспечивают уникальность

объектов в онтологии. Подход к идентификации и добавлению объектов в онтологию после основного семантического анализа текста был нами предложен в работе [5]. Однако столь позднее разрешение референции приводит к потере полезной информации, которую можно было бы извлечь из текста на стадии семантического анализа. В данном исследовании мы развиваем идею применения семантики предметной области для разрешения проблем референции и пытаемся на стадии семантического анализа выделить потенциальных кореферентов и предложить способ оценки кореференциальной близости для вычисления наиболее подходящих вариантов на основе онтологии.

Модель разрешения референции можно описать системой следующего вида:

<O, IO, CO, LO, Sem, Cor, Ref >, где

O - онтология предметной области;

IO - информационный контент онтологии, содержащий множество онтологических объектов - экземпляров понятий и отношений онтологии;

LO - множество лексических объектов, найденных в тексте на основе семантического словаря;

СО - объектное покрытие текста, включающее множество информационных объектов, найденных в тексте:

- CurRef с CO - подмножество объектов, которые нуждаются в «уточнении» и поиске предшествующего упоминания (кореферента) данного объекта;

- CandCoR с CO - подмножество объектов, которые являются кандидатами на роль кореферента какого либо объекта ai eAn;

Sem: LO ^ CO - множество отношений между лексическими объектами, найденными в тексте и информационными объектами, описываемыми в тексте [6];

Cor: CurRef ^ CandCoR хW - множество взвешенных отношений кореференции между текущим референтом и кандидатом на роль кореферента;

Ref с IO х 2CO - отношение референции, задающее соответствие между объектом, найденным в тексте co е CO, и объектом информационного контента онтологии io е IO.

В соответствии с данной моделью задача извлечения информации из текста заключается в построении множества Ref для заданного текста, а задача разрешения кореференциальной неоднозначности сводится к вычислению отношения Cor.

В рамках данной работы мы рассматриваем одну из ключевых проблем референциальной неоднозначности - установление кореферентных отношений между найденными в тексте объектами. За рамками рассмотрения останутся такие вопросы, как разрешение местоименной анафоры, восстановление полностью редуцированных объектов (эллипсис) и др. Несмотря на важность этих проблем, с точки зрения нашей постановки задачи они являются предварительными и могут решаться на начальных этапах обработки текста без привлечения онтологических знаний. Отметим, что обычно при извлечении информации опираются на семантический словарь (например, тезаурус ПО), на основе которого с той или иной степенью общности может быть восстановлен онтологический класс объекта или отношения, описываемого термином словаря. В случае анафорической

лексики (наречия, местоимения) восстановление класса объекта возможно на основе различных синтаксических показателей (согласования, управления).

В процессе извлечения информации на основе установленных кореферентных отношений осуществляется передача данных от одного информационного объекта к другому, что, в свою очередь, позволяет использовать эти данные при поиске новой информации. Мы предлагаем рассматривать всех кандидатов на роль кореферента и устанавливать взвешенные кореферентные отношения, вычисление веса которых опирается на различные референциальные факторы. Таким образом, каждому извлекаемому факту будет сопоставляться оценка, которая будет использоваться после основного анализа для разрешения конфликтов, связанных как с лексической, синтаксической и семантической неоднозначностью текста [2], так и при выборе наилучшего кандидата на роль кореферента.

2. Референциальные факторы. Рассмотрим факторы, которые влияют на оценку степени или меры референциальной связности между двумя объектами.

Выделяются два типа факторов:

- текстовые факторы определяются способом выражения объектов в тексте, их расположением относительно структуры тексты и относительно друг друга,

- семантические факторы определяют оценки похожести объектов по их онтологическим признакам и связям.

Для каждого фактора формулируется мера или оценка расстояния wj(a,b), которая

отражает степень или вероятность наличия кореферентной связи между объектами a и b в зависимости от фактора i без учета других факторов.

С практической точки зрения, прежде чем вычислять меру близости объектов, полезно сформировать гипотезы о наличии кореферентной связи, т.е. ограничить количество рассматриваемых пар. Формирование гипотез можно условно разделить на два этапа.

1. Выявление объектов, которые являются "отсылками" или упоминаниями других объектов, описанных в тексте ранее (или, в редких случаях, позднее). Будем считать объект отсылкой, если у него не заполнены его ключевые атрибуты и связи. Такой объект нуждается в поиске более "точного" упоминания объекта (более заполненного или дополняющего данный).

2. Генерация для каждой отсылки множества кандидатов на роль кореферента. Мы предлагаем следующие ограничения для генерации этого множества:

- объекты должны быть онтологически непротиворечивы,

- текстовое расстояние между объектами должно быть ограничено.

Первый вид ограничения определяется иерархией классов онтологии и набором значений атрибутов объектов. Ограничения на расстояние могут зависеть как от класса объекта, так и от жанра рассматриваемого текста, поэтому было принято решение сделать данное ограничение настраиваемым экспертом.

Общая мера близости между отсылкой и кандидатом вычисляется как сумма мер учитываемых факторов wj(a,b) с коэффициентами их влияния на общий результат kf

, где n - количество учитываемых факторов.

Разрешение референциального конфликта или выбор наиболее подходящего кандидата осуществляется при следующем условии: w(a,c) > w(b,c), где а и b - конфликтующие объекты-кандидаты на роль кореферента к объекту с.

Отметим, что в отличие от анафорических связей, кореферентная связь является симметричной, поскольку оба объекта в данной связи претендуют быть референтными одному и тому же объекту внешнего мира. Как следствие, информация передается в обе стороны, независимо от того, является ли языковое выражение, лежащее в основе объекта, отсылкой (упоминанием) или более полно выраженным кореферентом.

2.1. Текстовые факторы. Когда семантической информации, содержащейся в объекте, оказывается недостаточно для установления референта, начинается поиск кореферентов, который в первую очередь опирается на такие текстовые факторы, как расстояние между объектами и их грамматическая согласованность. Текстовые факторы широко рассматриваются в различных исследованиях анафоры [10]. Мы взяли наиболее распространенные факторы, применимые в рамках нашего подхода.

А. Расстояние между объектами. Расстояние может измеряться в символах, словах, знаках-разделителях, сегментах заданного типа (например, предложения, абзацы, заголовки), значимых объектах и др. Значение данной меры будет тем больше, чем ближе по тексту расположены объекты. Рассмотрим ее на примере сегментного расстояния:

, где sx - порядковый номер сегмента типа s в тексте, в котором расположен объект х.

Б. Согласованность объектов по грамматическим характеристикам. В первую очередь рассматриваются такие характеристики, как часть речи, род, число и падеж. Для сравнения используются термины, являющиеся синтаксической вершиной языкового выражения, сопоставленного каждому объекту. Согласованность характеристик (это необязательно их совпадение) повышает степень «похожести» объектов.

, где n > 0 - количество сравниваемых характеристик (зависящих от части речи кандидата), sim G(a,b) - количество согласующихся грамматических характеристик.

В. Конфликтная мера - специализированный показатель количества кандидатов на роль кореферента с учетом их текстового расположения. Чем больше кандидатов находится между объектами, тем меньше данный показатель.

, где

CandCoR(b) - множество кандидатов на роль кореферента объекта Ь, таких, что между ними нет собственных кореферентных или зависимостных связей,

pos(x) - текстовая позиция языкового выражения, сопоставленного объекту x.

Продемонстрируем вычисление текстовых мер на примере фрагмента текста:

Станция будет вырабатывать тепловую энергию для Кызыла и пригородов столицы.

Рассматриваются три географических объекта: а - Кызыл, Ь - пригороды, с - столица.

des(Sentence, а, Ь) = des(Sentence, а, с) = 1; wG(a, Ь) = 0.75; wG(a, с) = 1;

wC(a, Ь) = 1; wC(a, с) = 1 (поскольку между Ь и с есть зависимость).

2.2. Семантические факторы. Семантические факторы - это факторы, зависящие от понимания текста человеком или машиной. Сложность учета таких факторов связана с необходимостью использования моделей знаний о языке и особенностях его функционирования в заданной предметной области. Наш подход опирается в первую очередь на онтологическую модель предметной области, позволяющую на основании семантического словаря и связи терминов с понятиями онтологии строить онтологические объекты и сравнивать их.

А. Онтологическая близость информационных объектов. Данная мера позволяет определить степень «похожести» объектов по онтологическим характеристикам, таким как:

- общность класса (совпадение или наследование),

- непротиворечивость значений ключевых атрибутов,

- количество совпадающих значений атрибутов,

- количество совпадающих и семантически близких экземпляров отношений.

Для генерации гипотез важна непротиворечивость характеристик объектов, под которой понимается следующее.

Пусть даны объекты a и Ь классов ca и cb, для которых заданы наборы ключевых

атрибутов Atccl¡i(a) и Atcbk(b), соответственно. Тогда a и Ь считаются непротиворечивыми, если

сс = сь или (сс родитель сь) или (сь родитель сс), и

еА^ если а^(а) ф 0& а^ф) ф 0то а^(а) па^(Ь) ф 0

Т.е. классы объектов должны находится на одной ветке иерархии и значения ключевых атрибутов должны совпадать (хотя бы частично). Так, например, девочка Саша и мальчик Саша будут противоречивы, а девочка Саша и первоклассница - непротиворечивы.

Для созданных кандидатов вычисление онтологической меры близости осуществляется по формуле, включающей оценки близости атрибутов и связей: где

А kR - коэффициенты значимости близости атрибутов simA и связей объектов simR.

Оценка близости атрибутов объектов вычисляется по формуле:

, где

Val(a), Val(Ь) - множество значений атрибутов объектов а и Ь, соответственно (в случае, если у одного из объектов значения атрибутов не заданы, то ).

Оценка близости объектов по связи вычисляется в зависимости от того, является ли она ключевой для данного класса объектов (как, например, отношение Автор для класса Публикации) или нет.

Количество похожих связей заданного типа г определяется с учетом множеств кореферентов для связываемых объектов:

, где

со^(г(х)) - множество кандидатов-кореферентов объектов, связанных с объектом х отношением г.

Меры близости по ключевым связям вычисляются аналогично атрибутам. В случае, если , то мера будет равна 0, иначе , где

- множество ключевых отношений объекта х.

Для остальных отношений (если они определены у объектов) мера определяется количеством похожих связей - чем их больше, тем лучше:

, где

г^х) - множество связей типа ri объекта х.

Так, например, две публикации одного автора будут иметь значение близости по ключевым связям, равное 1. Если при этом у одной из публикаций будет два автора, то значение близости уже будет 0.5(1+0.5) = 0.75. Если отношение авторства не является ключевым, то в обоих случаях значение близости будет 0.75.

Общая оценка онтологической близости относительно связей объектов будет вычисляться следующим образом:

Б. Одним из факторов, указывающим на близость объектов, является схожесть их ролей в ситуациях, описываемых набором онтологических отношений. Мы назвали этот фактор семантическим параллелизмом, по аналогии с явлением синтаксического параллелизма, рассматриваемым в лингвистике [3]. Фактор параллелизма действует не для всех классов, а только для классов, описывающих определенные типы ситуаций. Если существуют экземпляры одного класса (где класс описывает некоторую ситуацию), у которых рассматриваемый кандидат на роль кореферента и сам объект заполняют один и тот же атрибут, то оценка их семантической схожести будет больше.

, где

Ci(x) - множество экземпляров класса ci, связанных с объектом x каким-либо отношением, a Rel(Ci(x)) - это множество имен этих отношений,

kiPar - коэффициенты, регулирующие применимость параллелизма относительно класса

Ci.

Если будут найдены дополнительные факторы похожести между объектами С^с) и С\(Ь),

то степень близости еще более усилится, как например, в следующей ситуации: а = Персона(..., Работаетв: Учреждение(институтХ)), Ь = Персона(..., Работает в: Лаборатория(лабИИ)), институтХ = Учреждение(..., Включает: {Лаборатория(лаб ИИ), ... }). Условием наличия дополнительных усиливающих факторов будет наличие общего информационного контекста объектов С^с) и С\(Ь):

, где

(X) - множество связанных с объектами хеХ объектов, полученных в результате основного анализа текста.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Мера близости для уточняющего семантического параллелизма вычисляется как:

Установим №сг = 0.5, тогда в указанном примере .

Общая оценка меры близости на основании семантического параллелизма осуществляется по формуле:

В. Интересным фактором, на наш взгляд, является схожесть объекта с кандидатом, находящимся в фокусе внимания. Фокус внимания рассматривается, например, в теории риторических структур [9], в рамках которой вводятся понятия риторического расстояния и коэффициента внимания. Однако в данных работах этот вопрос рассматривается с точки зрения задачи синтеза текста, тогда как в нашем случае необходимо выявление объекта, находящегося в фокусе внимания.

Мы предлагаем следующую практическую интерпретацию данного понятия. Фокус внимания какого-либо объекта - это фрагмент текста, в рамках которого оценка расстояния до данного объекта будет считаться равной i. Фрагмент будет выражаться в терминах количества сегментов определенного класса до и/или после фокусного объекта.

Фокус внимания имеет смысл рассматривать только для предполагаемых кореферентов. Таким образом, если в фокусе внимания какого-либо объекта находится подходящий по онтологическим характеристикам объект, то будет выдвигаться гипотеза о наличии кореферентной связи между объектами. Отличительной особенностью данной связи будет

то, что оценка расстояния между объектами будет w S(a,b) = 1.

Пока мы не берем на себя смелость автоматически выявлять фокусные объекты и границы их влияния, вместо этого мы предоставляем возможность эксперту указать самостоятельно условия, при которых объекты определенных классов станут фокусными и задать тип сегментов, их количество и направление, которые будут определять область влияния.

Приведем примеры, демонстрирующие данную возможность:

1) объект одного из классов онтологии Событие/Геогр.Место/Участник_события в заголовке (названии) новости является фокусным для всей новости. Помимо заголовка, выделенной позицией для фокуса является начало всего текста или эпизода. Так, в [i] отмечается, что для интродуктивной номинации в кратких новостных сообщениях характерно использование позиции именной группы в тема-рематической структуре высказывания. При этом один из объектов внимания -семантический фокус всего текста - нередко помещается в позицию тем;

2) объект одного из классов онтологии Проект/Объект_исследования /Научный метод в названии, аннотации или списке ключевых терминов к научной статье является фокусным для всей статьи;

3) Организация в шапке письма - фокусная для всего текста письма и т.п.

3. Разрешение референции при пополнении онтологии. Разрабатываемый в нашей лаборатории подход к анализу текста и извлечению информации из него [2] опирается на 163 «Information and mathematical technologies in science and management» 20i7 № 3 (7)

словари предметной лексики, знания о предметной области и ее языке, а также о жанрах документов. Знания, поступающие на вход основного компонента анализа, фиксируются в виде моделей фактов, отражающих различные способы представления информации, принятые в данной предметной области, и обеспечивающих фиксацию найденной информации в формате онтологии. Семантический анализатор строит на основе этих моделей правила преобразования данных, которые обеспечивают извлечение информации и построение семантической сети информационных объектов.

Таким образом, до сих пор решение задачи разрешения кореференции возлагалось либо на механизм описания моделей фактов (т.е. полностью на пользователя-лингвиста), либо на этап пополнения онтологии, когда при выгрузке полученных результатов каждый найденный объект соотносился с уже имеющейся в БД информацией.

В общем случае кореференцию желательно разрешать в тот момент, когда соответствующая ситуация встретилась решателю. Своевременное разрешение кореференции позволило бы, с одной стороны, снимать неоднозначность, с другой, -обеспечивая целостность извлекаемой информации, избегать потери информации о связях с объектами, выраженными редуцированно. Однако на практике существующие методы этого не обеспечивают. Кроме того, большинство методов лингвистического разрешения кореференции опираются на полный синтаксический анализ (неявно считая, что он произведен полностью и корректно) со снятой лексической и синтаксической неоднозначностью.

Идея предлагаемого подхода заключается в построении такой технологии, которая бы в процессе семантического анализа текста выявляла случаи редукции семантического объекта и предлагала всех возможных кандидатов-кореферентов на основе их семантической близости в смысле онтологии. После завершения анализа для всех кандидатов осуществлялось бы вычисление меры (или набора мер) кореференциальной близости в соответствии с заданными критериями. Полученные веса могли бы в дальнейшем использоваться как для выбора наилучшего кандидата на роль кореферента, так и для разрешения других видов неоднозначности текста.

В соответствии с данным подходом выделены предварительный этап, целью которого является начальная инициализация системы разрешения референциальной неоднозначности, и основной этап, на котором осуществляется непосредственное разрешение кореференции и установление референтов. А. Задачами предварительного этапа являются:

a) построение множества информационных объектов на основе терминологического покрытия текста;

b) выявление объектов, параметры которых необходимо уточнить для обеспечения корректного пополнения контента онтологии;

c) построение множества кандидатов на роль кореферентов выявленных объектов.

2) Задачами основного этапа являются:

a) вычисление мер близости кандидатов;

b) передача информации между кореферентами с учетом вычисленных мер и применение правил извлечения информации на обновленных данных;

c) разрешение лексических, синтаксических, семантических и кореферентных конфликтов.

3) Завершающий этап заключается в поиске референтов в информационном контенте онтологии и ее пополнении.

Заключение. Рассматриваемый подход к разрешению референциальной неоднозначности при анализе текста обладает следующими особенностями:

- семантичность, подход опирается на семантические методы и модели, в первую очередь, - на онтологию предметной области, относительно которой решаются задачи извлечения информации, снятия неоднозначности и разрешения кореференции;

- масштабируемость, подход к разрешению кореференции расширяем относительно правил извлечения информации и референциальных факторов;

- предлагаемый подход ориентирован на полностью автоматическую обработку и не требует на входе «правильных» результатов морфологического анализа, отсутствия грамматических ошибок и полного синтаксического разбора предложений; создаваемая система ориентирована на работу в рамках реальных условий множества конфликтов, полученных на всех этапах обработки текста (речи);

- интеграция статистических и лингвистических моделей и методов анализа текста на этапе семантической обработки. Так, для разрешения кореференции устанавливаются взвешенные кореферентные связи между объектами, при этом гипотезы (связи) формируются на основе лингвистической модели, а разрешение (выбор наилучшей гипотезы) - на основе статистических данных.

За рамками рассмотрения остались вопросы алгоритмической реализации и апробации предложенных моделей, над которыми в данный момент ведется активная работа.

Проблема разрешения референции - одна из самых сложных и пока недоступных пониманию вычислительными устройствами задач, содержащая множество аспектов. В

данной статье мы коснулись лишь вершины айсберга, и нам хотелось бы продолжить исследования в следующих направлениях:

- исследование значимости референциальных факторов при оценке близости в зависимости от различных предметных областей и жанров текста (планируется провести сравнение таких жанров, как техническая документация, новостные сообщения, научный текст);

- исследование применимости предлагаемых методов для других видов референциальных связей, таких как элемент-множество, элемент-класс, ассоциативная отсылка и др.;

- исследование применимости метода для редуцированных форм анафоры (местоимённой анафоры, эллипсиса).

Авторы выражают благодарность фонду РФФИ (проект №15-07-04144) и Президиуму РАН (проект П.2ШГУ.39-1 «Информационные, управляющие и интеллектуальные технологии и системы») за частичную финансовую поддержку выполненных исследований.

СПИСОК ЛИТЕРАТУРЫ

1. Бонч-Осмоловская А.А., Клинцов В.П., Толдова С.Ю. Стратегии интродуктивной номинации в текстах // Актуальные инновационные исследования: наука и практика. Тамбовский государственный университет им. Г.Р. Державина. Электрон. журн. 2012. №°3. Режим доступа: http://www.actualresearch.ru/nn/2012_3/Article/philology/Bonch-Osmolovskaja20123.pdf (дата обращения 01.04.2017).

2. Гаранина Н.О., Сидорова Е.А. Пополнение онтологий на основе алгебраического формализма информационных систем и мультиагентных алгоритмов анализа текста // Программирование. МАИК "Наука/Интерпериодика". 2015. № 3. С. 32-43.

3. Каменская М.А., Храмоин И.В. Влияние семантических признаков на качество разрешения местоименной анафоры // III Всерос. научная конференция молодых ученых с международным участием «Теория и практика системного анализа»: труды. Рыбинск: РГАТУ имени П. А. Соловьева. 2014. Т. II. С. 157-163.

4. Кобзарева Т.Ю. Проблема кореференции в рамках поверхностно-синтаксического анализа русского языка // Межд. конференция Диалог'2003 по компьютерной лингвистике и интеллектуальным технологиям: труды. М.: Наука. 2003. С. 278-284.

5. Серый А.С., Сидорова Е.А. Поиск референциальных отношений между информационными объектами в процессе автоматического анализа документов // XIV Всерос. научная конференция RCDL-2012 «Электронные библиотеки: перспективные методы и технологии, электронные коллекции»: труды. Переславль-Залесский. 2012. С.°206-212.

6. Сидорова Е.А. Модель извлечения знаний: от текста к структурированной информации // XX Байкальская Всерос. конференция «Информационные и математические технологии в науке и управлении»: труды. Иркутск: ИСЭМ СО РАН. 2015. Т. III. С. 151-159.

7. Сулейманова Е.А., Трофимов И.В. Референциальный профиль как инструмент для исследования референции в связном тексте // Программные системы: теория и приложения. 2015. № 1(24). C. 73-82.

8. Elango P. Coreference Resolution: A Survey // Technical Report. UW-Madison. 2006. Available at: https://ccc.inaoep.mx/~villasen/index_archivos/cursoTATII/Entidades Nombradas/Elango-SurveyCoreferenceResolution.pdf, accessed 01.04.2017.

9. Kibrik A.A. Anaphora in Russian narrative discourse: A cognitive calculative account // In B. Fox (ed.) Studies in anaphora. Amsterdam. 1996. Pp. 255-304.

10. Kibrik A.A., Dobrov G.B., Khudyakova M.V., Loukachevitch N.V., Pechenyj A. A corpus-based study of referential choice: Multiplicity of factors and machine learning techniques, Text processing and cognitive technologies // Cognitive modeling in linguistics: Proceedings of the 13th International Conference. Corfu. 2013. Pp. 118-126.

11. Mitkov R. Robust pronoun resolution with limited knowledge // Proceedings of the 18th International Conference on Computational Linguistics 1998 (Montreal). Pp. 869-875.

12. Mitkov R. Anaphora resolution: the state of the art // Working paper (based on the COLING'98/ACL'98 tutorial on anaphora resolution). Wolverhampton. 1999. Available at: https://pdfs.semanticscholar.org/e782/00b1e3ba2a72de1ca9b9b2c5efa775151bfa.pdf, accessed 01.04.2017.

13. Mitkov R. Anaphora resolution. Mitkov R. (ed.) The Oxford handbook of computational linguistics, ch.14, N.Y.: Oxford university press. 2003. Pp. 266-283.

14. Ponzetto S.P., Strube M. Exploiting semantic role labeling, wordnet and wikipedia for coreference resolution // In Proceedings of Human Language Technology Conference of the North

American Chapter of the Association of Computational Linguistics, Association for Computational Linguistics, 2006, Pp. 192—99. 15. Prokofyev R., Tonon A., Luggen M., Vouilloz L., Difallah D.E., Cudr'e-Mauroux P. SANAPHOR: Ontology-Based Coreference Resolution // In Lecture Notes in Computer Science, Volume 9366, 14th International Semantic Web Conference, Proceedings. 2015. Part°I. Pp. 458-473.

UDK 004.912, 004.82

APPROACH TO TEXTUAL REFERENCE AMBIGUITY RESOLUTION IN THE PROCESS OF ONTOLOGY POPULATION Elena A. Sidorova

Dr., Senior researcher, e-mail: lsidorova@iis.nsk.su

Natalia O. Garanina Dr., Senior researcher, e-mail: garanina@iis.nsk.su Irina S. Kononenko

Researcher, e-mail: irina_k@cn.ru A.P. Ershov Institute of Informatics Systems SB RAS, 6, Acad. Lavrentjev pr., Novosibirsk 630090

Abstract. The paper proposes an approach to reference ambiguity resolution in the process of automatic text analysis for information extraction and subject ontology population. The model of coreference resolution is considered and measures of coreferential similarity between potential coreferents described. Similarity measures are based upon textual and semantic referential factors. An ontological approach underlies the formation of set of plausible candidates for coreference and the choice of best candidate.

Keywords: information extraction, ontology population, semantic text analysis, information extraction, coreference resolution, referential factors, referential similarity measure

References

Cudopoea E.A., rapanuna H.O., KononenKO H.C.

1. Bonch-Osmolovskaia, A.A., Clintcov, V.P., Toldova S.Iu. Strategii introduktivnoi nominatcii v tekstakh [Strategy introductive nomination in the texts] // Aktual'nye innovacionnye issledovaniya: nauka i praktika = Topical innovation issues: research & implementation. Tambov State University named GR. Derzhavin Publ. Electronic journal. 2012. №3. Available at:http://www.actualresearch.ru/nn/2012_3/Article/philology/Bonch-Osmolovskaja20123.pdf, accessed 01.04.2017. (in Russian)

2. Garanina N.O., Sidorova E.A. Popolnenie ontologij na osnove algebraicheskogo formalizma informacionnyh sistem i mul'tiagentnyh algoritmov analiza teksta [Ontology population as algebraic information system processing based on multi-agent natural language text analysis algorithms] // Programmirovanie = Programming and Computer Software. Nauka Publ. 2015. № 3. Pp. 32-43. (in Russian)

3. Kamenskaya M.A., Hramoin I.V. Vliyanie semanticheskih priznakov na kachestvo razresheniya mestoimennoj anafory [The effect of semantic characteristics on the quality of the resolution of pronominal anaphora] // III Vseros. nauchnaja konferencija molodyh uchenyh s mezhdunarodnym uchastiem «Teorija i praktika sistemnogo analiza»: trudy = III All-Russian scientific conference of young scientists with international participation "Theory and practice of systems analysis": proceedings. Rybinsk. RGATU Publ. 2014. Part II. Pp. 157-163. (in Russian)

4. Kobzareva T. Problema koreferencii v ramkah poverhnostno-sintaksicheskogo analiza russkogo yazyka // Mezhd. konferencija Dialog'2003 po komp'juternoj lingvistike i intellektual'nym tehnologijam: trudy = International. conference Dialogue'2003 on computer linguistics and intellectual technologies: proceedings. Moscow. Nauka = Science. 2003. Pp. 278-284. (in Russian)

5. Seryj A.S., Sidorova E.A. Poisk referencial'nyh otnoshenij mezhdu informacionnymi ob"ektami v processe avtomaticheskogo analiza dokumentov [Searching referential relationships between the information objects during the automatic document processing] // Trudy XIV Vserossijskoj nauchnoj konferencii RCDL-2012 Elektronnye biblioteki: perspektivnye metody i tekhnologii, ehlektronnye kollekcii = Digital Libraries: Advanced Methods and Technologies. Pereslavl'-Zalesskij. 2012. Pp. 206-212. (in Russian)

6. Sidorova E.A. Model izvlecheniia znanii: ot teksta k strukturirovannoi informatcii [Model of knowledge extraction: from text to structured information] // XX Bajkal'skaja Vserossijskaja konferencija «Informacionnye i matematicheskie tehnologii v nauke i upravlenii»: trudy = XX Baikal All-Russian Conference "Information and Mathematical Technologies in Science and Management": proceedings. Irkutsk. MESI SB RAS. 2015. № 3. Pp. 151-159. (in Russian) 169 «Information and mathematical technologies in science and management» 2017 № 3 (7)

7. Suleimanova E.A., Trofimov I.V. Referentcialnyi profil kak instrument dlia issledovaniia referentcii v sviaznom tekste [Referential profile - a tool for studying reference in discourse] // Programmnye sistemy: teoriia i prilozheniia = Program systems: theory and applications. 2015. №1(24). Pp. 73-82. (in Russian)

8. Elango P. Coreference Resolution: A Survey. Technical Report. UW-Madison. 2006. Available at: https://ccc.inaoep.mx/~villasen/index_archivos/cursoTATII/Entidades Nombradas/Elango-SurveyCoreferenceResolution.pdf, accessed 01.04.2017.

9. Kibrik A.A. (1996), Anaphora in Russian narrative discourse: A cognitive calculative account In B, Fox (ed.) Studies in anaphora, Amsterdam. Pp. 255-304.

10. Kibrik A.A., Dobrov G.B., Khudyakova M.V., Loukachevitch N.V., Pechenyj A. A corpus-based study of referential choice: Multiplicity of factors and machine learning techniques, Text processing and cognitive technologies // Cognitive modeling in linguistics: Proceedings of the 13th International Conference. Corfu. 2013. Pp. 118-126.

11. Mitkov R. Anaphora resolution. Mitkov R. (ed.) The Oxford handbook of computational linguistics. ch.14. N.Y.: Oxford university press. 2003. Pp. 266-283.

12. Mitkov R. Anaphora resolution: the state of the art // Working paper (based on the COLING'98/ACL'98 tutorial on anaphora resolution). Wolverhampton. 1999. Available at: https://pdfs.semanticscholar.org/e782/00b1e3ba2a72de1ca9b9b2c5efa775151bfa.pdf (accessed 01.04.2017).

13. Mitkov R. Robust pronoun resolution with limited knowledge // Proceedings of the 18th International Conference on Computational Linguistics 1998 (Montreal). Pp. 869-875.

14. Ponzetto S.P., Strube M. Exploiting semantic role labeling, wordnet and wikipedia for coreference resolution // In Proceedings of Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics, Association for Computational Linguistics. 2006. Pp. 192-199.

15. Prokofyev R., Tonon A., Luggen M., Vouilloz L., Difallah D.E., Cudr'e-Mauroux P. SANAPHOR: Ontology-Based Coreference Resolution. In Lecture Notes in Computer Science. Volume 9366. 14th International Semantic Web Conference. Proceedings. Part I. 2015. Pp. 458-473.

i Надоели баннеры? Вы всегда можете отключить рекламу.