Научная статья на тему 'Ресурсы для исследования различных типов ассоциативных связей между именными группами в дискурсе'

Ресурсы для исследования различных типов ассоциативных связей между именными группами в дискурсе Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
208
41
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БРИДЖИНГ / АНАФОРА / КОРПУСНАЯ ЛИНГВИСТИКА / BRIDGING / ANAPHORA / CORPUS LINGUISTICS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Ройтберг Анна Михайловна

В работе дается сопоставительный обзор тринадцати корпусных ресурсов, содержащих разметку бриджинг-анафоры. Описываются основные различия данных ресурсов и причины, вызвавшие эти различия. Указываются особенности каждого из ресурсов относительно языка и жанрового разнообразия текстов. Обсуждаются типы групп, между которыми устанавливаются ассоциативные анафорические отношения, а также описываются различия в семантическом типе отношений, между анафорически связанными элементами. В конце дается сводная таблица, в которой отображены основные особенности всех корпусов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Resources to Investigate the Different Types of Associative Relations between Noun Groups in the Discourse

The paper gives a comparative overview of thirteen corpora with bridging anaphora mark-up. It describes the main differences between the resources and the causes underlying those differences. We note the characteristics of each resource with regards to language and the genre variety of texts. We discuss the types of phrases for which associative anaphoric relations are established, and describe the differences in the semantic relation type of the two elements in an anaphoric relation. At the end of the paper we include a summary table that reflects the main characteristics of each corpus.

Текст научной работы на тему «Ресурсы для исследования различных типов ассоциативных связей между именными группами в дискурсе»

МАТЕРИАЛЫ И СООБЩЕНИЯ

А.М.Ройтберг

РЕСУРСЫ ДЛЯ ИССЛЕДОВАНИЯ РАЗЛИЧНЫХ ТИПОВ АССОЦИАТИВНЫХ СВЯЗЕЙ МЕЖДУ ИМЕННЫМИ ГРУППАМИ В ДИСКУРСЕ

В работе дается сопоставительный обзор тринадцати корпусных ресурсов, содержащих разметку бриджинг-анафоры. Описываются основные различия данных ресурсов и причины, вызвавшие эти различия. Указываются особенности каждого из ресурсов относительно языка и жанрового разнообразия текстов. Обсуждаются типы групп, между которыми устанавливаются ассоциативные анафорические отношения, а также описываются различия в семантическом типе отношений, между анафорически связанными элементами. В конце дается сводная таблица, в которой отображены основные особенности всех корпусов.

Ключевые слова: бриджинг, анафора, корпусная лингвистика.

The paper gives a comparative overview of thirteen corpora with bridging anaphora mark-up. It describes the main differences between the resources and the causes underlying those differences. We note the characteristics of each resource with regards to language and the genre variety of texts. We discuss the types of phrases for which associative anaphoric relations are established, and describe the differences in the semantic relation type of the two elements in an anaphoric relation. At the end of the paper we include a summary table that reflects the main characteristics of each corpus.

Key words: bridging, anaphora, corpus linguistics.

Введение

Исследование структуры дискурса является актуальной задачей современной лингвистики. Одно из популярных направлений в этой области - исследование анафорических связей в тексте, т. е. таких отношений, где понимание смысла одного выражения невозможно без отсылки к другому выражению. Выражение, к которому идет отсылка, - антецедент; выражение, для понимания смысла которого необходимо обращение к контексту, - анафорический элемент или анафор, связь между анафором и антецедентом называется анафорической связью или просто анафорой.

В основополагающей работе Кларка [Clark, 1975] было впервые сформулировано противопоставление прямой и непрямой анафоры. Прямая анафора (direct anaphora) - вид анафорической связи, при которой антецедент анафорического элемента явно указан в предшествую-

щем тексте. В случае непрямой анафоры (indirect anaphora) антецедент явно не указан в предшествующем тексте, но ассоциирован с неким понятием из предтекста. В этой же работе для непрямой анафоры был предложен термин бриджинг.

С понятием анафоры тесно связано понятие кореферентности. Коре-ферентными считаются выражения, которые называют один и тот же объект реального мира, т. е. имеют общий референт.

При прямой анафоре анафорический элемент кореферентен своему антецеденту, при бриджинге - ассоциирован с неким выражением из предыдущего текста.

(1а) Я увидел то дерево. Оно стояло на холме.

(1б) Я увидел то дерево. Ветви, и вправду, уходили далеко в небо.

В примере (1а) для понимания слова «оно» необходима отсылка к слову «дерево», также эти слова кореферентны друг другу, тем самым это пример прямой анафоры.

В примере (1б) слово «ветви» анафорически связано со словом «дерево»: имеются в виду ветви именно того дерева, которое было названо ранее; при этом участники анафорических отношений находятся в отношении «часть - целое». В этом примере представлен случай бриджинга.

В исследованиях, посвященных бриджингу вместо термина антецедент принято использовать термин якорь (anchor). Для термина анафор нет устоявшегося аналога, мы будем использовать термин бриджинг-элемент (по аналогии с анафорический элемент). В примере (1б) слово «дерево» является якорем, а слово «ветви» бриджинг элементом.

Материал бриджинг-анафоры активно исследуется в рамках различных направлений лингвистики: в психолингвистических исследованиях, связанных с интеграцией данной и новой информации или скоростью распознавания предложений (см. [Haviland, Clark, 1974], [Clark, 1975], [Singer, 1979], [Garrod and Sanford, 1982], [Garrod, Terras, 2000], [Burkhardt, 2006]); в исследованиях связности текста (см. [Sanders et al., 1993], [O'Reilly, McNamara, 2007]); в корпусных исследованиях определенных именных групп (см. [Fraurud, 1990], [Poesio, Vieira, 1998], [Gardent et al., 2003], [Schwarz-Friesel, 2007]); в рамках теории релевантности (см. [Erku and Gundel, 1987], [Wilson and Matsui, 1998], [Matsui, 2000], [Irmer, 2011]); в формальных исследованиях дискурса (см. [Bos et al., 1995], [Asher, Lascarides, 1998a], [Piwek and Krahmer, 2000]) и др. Внимание к анафоре заметно увеличилось с развитием компьютерной лингвистики, так как задача автоматического разрешения анафоры (в

том числе бриджинга) неизбежно возникает при создании разнообразных инструментов автоматической обработки текста: систем автоматического перевода, поиска, реферирования и т. д.

В исследованиях бриджинга, так же как и в исследованиях прямой анафоры и кореферентности, повсеместно используются коллекции текстов (корпусы текстов), в которых анафорические связи размечены вручную. Такие корпусы нужны не только для того, чтобы исследовать план содержания и план выражения анафоры разных видов, но и для построения систем автоматического разрешения распознавания анафоры. В последнем случае ставится задача определить, какая из именных групп в контексте является антецедентом анафора (или якорем брид-жинг-элемента). На основе корпуса с вручную размеченным стандартом некоторого явления современные компьютерные системы, основанные на технологиях машинного обучения, могут автоматически выстроить набор закономерностей, используя который система сможет самостоятельно размечать это явление в других текстах.

В этой статье мы хотим представить обзор наиболее известных корпусов с разметкой бриджинг-анафоры, разработанных для разных языков мира. Предваряя его, следует оговорить, что разработчики бриджинг-корпусов пока еще не придерживаются какого-либо единого подхода к разметке, как это, например, принято в разметке корефе-рентности и прямой анафоры (см. задающие стандарт корпусы MUC [Hirschman, 1997] и MATE [Poesio, 1999]). Как следствие, различается инвентарь выделяемых бриджинг-отношений, а также репертуар носителей бриджинговой связи. В приложении мы даем сводную таблицу с характеристиками рассматриваемых корпусов.

1. Исследование бриджинга

1.1. Бриджинг: основные понятия

В работах по кореферентности, анафоре и бриджингу присутствует заметное смешение терминов. Часто термин кореферентность означает, что два или более выражения имеют один референт, а термин анафора используется для обозначения анафорических отношений с участием нереферентных сущностей. Например, в случае предикативной анафоры.

(2) Иван Федорович - певец.

Также бывает, что как анафору (в отличие от кореферентности) рассматривают отношения между абстрактными существительными. Такими, как названия валют, общих понятий: йена, красота, экономика.

В Пражском корпусе (PDT) [Nedoluzko, 2009] кореферентность непосредственно противопоставлена бриджинг-анафоре без введения понятия прямой анафоры. Отношения между нереферентными сущностями в Пражском корпусе не размечаются вообще.

Обратим внимание, что обычно группы кореферентных выражений рассматриваются как элементы кореферентных цепочек. Здесь цепочка - объединение всех сущностей называющих один референт.

(3) Там я и познакомился с Ваней. Ванюшкой, как называла его мать, а за ней и мы. Ванюшка наш был сильный и ловкий.

В примере (3) слова Ваня - Ванюшкой - его - Ванюшка называют одного и того же персонажа, все они кореферентны друг другу и образуют кореферентную цепочку.

В случае бриджинг-анафоры связанные элементы не организованы в цепочки, бриджинг рассматривается как бинарное отношение между бриджинг-элементом и якорем. В роли якоря может рассматриваться одиночное выражение или вся кореферентная цепочка, называющая референт-якорь.

(4) Вошли двое, один человек уже пожилой, другой средних лет. Пожилой сказал, что он и есть Кирилл. Помоложе, по-видимому, был сыном.

В примере (4) слова пожилой - пожилой - он - Кирилл кореферентны друг другу и образуют кореферентную цепочку.

Слово сын рассматривается как ассоциативно связаное 1) со всей кореферентной цепочкой, 2) с последним, т. е. линейно ближайшим к бриджинг-элементу словом из этой цепочки сыном -> bridge -> Кирилл.

2. Общие принципы разметки анафорического корпуса

При создании анафорических корпусов возникает необходимость принятия ряда соглашений по разметке. Основные решения принимаются относительно того, 1) какие сущности рассматриваются как участники анафорических отношений и 2) какие типы отношений размечаются.

2.1. Размечаемые сущности

Разметка анафорического корпуса начинается с выбора тех сущностей, между которыми будут размечаться анафорические связи, такие единицы разметки называются маркабулами (markables).

В качестве участников отношений всегда размечаются референтные существительные, но в некоторых корпусах также размечаются и другие типы слов. Например, в Пражском корпусе размечаются референтные и

абстрактные существительные, а также прилагательные, но не размечаются нереферентные сущности.

При разметке кореферентности и анафоры в качестве единиц разметки обычно рассматриваются не просто отдельные слова, а группы, т. е. слово и его зависимые.

(5) К нам подошел какой-то [человек]. Это был [невысокий мужчина средних лет]..

Уточним, что полная именная группа (ИГ) выделяется только в случае, когда бриджинг-элемент или якорь, является вершиной ИГ, в ином случае в качестве маркабулы выделяется одиночное слово (см. пример 8).

(7) Это был [дом [дяди]], но [он], там почти не появлялся.

2.2. Размечаемые типы отношений

Явление бриджинг-анафоры очень объемно и разнородно. На данный момент нет корпусов, в которых бы рассматривался весь возможный спектр отношений такого рода, создатели корпуса всегда выбирают для разметки тот или иной класс бриджинг-отношений. Часто в качестве ограничивающего фактора выбирается семантический тип связи между бриджинг-элементом и якорем. (подробнее см. п. 3.3).

3. Сравнение корпусов

В данной работе мы будем рассматривать 13 корпусов:

1. Copenhagen Dependency Treebanks (CDT) [Korzen et al., 2011].

2. Dutch corpus (COREA project) [Hendrickx et al., 2008].

3. GNOME [Poesio, 2000].

4. Market, Hou [Hou, 2013].

5. MONROE [Tetreaul et al., 2004].

6. Prague Dependency Treebank (PDT) [Nedoluzko et al., 2009].

7. VENEX [Poesio et al., 2004].

8. SI-TAL, подкорпус [Caselli, 2006].

9. PAROLE, подкорпус французского корпуса проекта [Gardent et al., 2003].

10. ARRAU [Poesio et al., 2008].

11. Live Memories [Rodríguz et al., 2010].

12. The SemDok [Lüngen, 2007].

13. CESS-ECE corpus [Recasens et al., 2007].

Эти корпуса довольно сложно сопоставить между собой, поскольку они различаются как по формальным характеристикам (язык, объем,

набор размечаемых отношений), так и по задачам, которые ставят перед собой их создатели. Например, корпус Market, Hou создан исключительно для машинного обучения и тестирования системы автоматического разрешения бриджинга, а корпус MONROE для исследования дискурсивных отношений в диалогах; корпуса, разработанные группой М. Поэзио (GNOME, VENEX, ARAU), сочетают и исследовательские, и вычислительные задачи.

Заметим, что большая часть корпусов не имеет веб-интерфейса и не доступна для удаленной работы, тем самым у нас практически не было возможности ознакомиться с самими корпусами и мы можем опираться лишь на описания данных корпусов и результаты проведенных на их базе экспериментов.

В конце работы мы даем сводную таблицу с результатом сравнения всех рассматриваемых корпусов по параметрам, описываемым ниже.

3.1, Язык, тип текстов и объем корпусов

Основная масса известных корпусов представляет языки романо-гер-манской группы. Единственное исключение составляет чешский корпус - Prague Dependency TreeBank. Среди романо-германских языков наиболее популярным, естественно, является английский. Неожиданно сильно представлен итальянский язык. Мы полагаем, этому способствовала прекрасно разработанная схема разметки бриджинг-отношений для итальянского корпуса VENEX - одного из первых корпусов, содержащих бриджинг-разметку

Обратим внимание, что язык корпуса в некоторой степени определяет соглашения, принимаемые относительно разметки корпуса. Так выделение определенных именных групп в отдельный класс не имеет смысла в чешском языке, где нет артиклей, а притяжательные и указательные местоимения не столь распространены, как, например, в английском. В итальянских корпусах в разметку не включены личные местоимения, в частности из-за того, что в большинстве случаев личные местоимения при глаголах опускаются.

Заметная часть корпусов - корпусы газетных текстов: чешский PDT, французский PAROLE, итальянский корпус проекта SI-TAL, испанский CESS-ECE.

Корпус VENEX содержит 30 статей из финансовой газеты, подготовленных для проекта SI-TAL и 6 диалогов из проекта ITAR. Немецкий The SemDok Corpus построен не на газетных, а на научных статьях. Ко-

пенгагенский корпус (CDT) содержит разножанровые тексты, а корпус MONROE диалоги.

Корпус Gnome состоит из трех довольно специфических частей: «музейный» подкорпус, содержащий описания музейных экспонатах и информацию об их создателях, собранных для проекта SOLE; «фармакологический» подкорпус, состоящий из инструкций-вкладышей к лекарствам, собранных в рамках проекта ICONOCLAST; а также подкорпус диалогов из проекта SHERLOCK.

Корпус ARRAU создан на базе разножанровых текстов, собранных для нескольких других проектов: диалоги из корпусов Trains-91 и Trains-93 статьи из [Gross et al., 1993], [Heeman and Allen, 1995], устный нарратив, включая весь корпус English Pear Stories corpus of Narratives [Chafe, 1980]. В подкорпусе письменной речи среди прочего есть 5 текстов из проекта Gnome, в которых до этого анафорическая разметка проведена не была. Тем не менее большая часть корпуса - статьи из Wall Street Journal (WSJ), подготовленные для Penn Treebank [Marcus et al., 1993], заметное число этих текстов является частью RST Discourse Treebank [Carlson et al., 2003] и подготовлено группой А.А. Кибрика.

Достаточно необычен выбор текстов для корпуса Live Memories: это тексты из Википедии, а также сообщения в блогах и комментарии к ним. Объединяет эти тексты только то, что все они посвящены Трентино и Южному Тиролю - двум районам на севере Италии.

Объем корпусов также заметно различается. Действительно большими можно назвать пять корпусов: Пражский (PDT) - 50 000 предложений, испанский CESS-ECE - 500 000 словоупотреблений, Dutch corpus - 200 000 словоупотреблений, Копенгагенский корпус (CDT) - 100 000 словоупотреблений, а также неожиданно Live Memories - 150 000 словоупотреблений. Почти 100 000 словоупотреблений в корпусе ARRAU. Остальные корпуса значительно меньше.

3.2. Корпуса, содержащие только анафорическую разметку vs. корпуса с разноуровневой разметкой

Бриджинг может быть единственным явлением, размеченным в корпусе, может быть частью анафорической разметки, а может быть одним из элементов сложной и разноуровневой разметки.

Говоря о разметке, мы имеем в виду ручную или частично ручную разметку, претендующую на высокую точность, в отличие от полностью автоматической разметки, которая обычно содержит заметный процент

ошибок. Автоматическую разметку частей речи и морфологических категорий, а иногда и синтаксической структуры содержат практически все корпуса.

Разветвленная разметка может являться причиной того, что некоторые конкретные случаи бриджинг-связей не будут размечаться. Так, в пражском корпусе (PDT) постулируется приоритет кореферентости над бриджингом: бриджинг-отношение не будет размечено, если в предыдущем тексте есть некоторое слово или выражение, кореферентное данному бриджинг-элементу. Причем кореферентный элемент может вообще не быть выраженным на поверхностном уровне, так как в пражском корпусе допустимы связи с синтаксическими нулями.

Отдельно стоит сказать о корпусах GNOME и MONROE. Корпус MONROE был создан для исследования структуры устного диалога, поэтому в нем реализована разнообразная дискурсивная разметка. Разметка MONROE опирается на схему разметки, разработанную для диалогов в корпусе GNOME.

3.3. Инвентарь бриджинг-отношений

В классической работе [Clark, 1975] не только вводится термин брид-жинг, но и предлагается развернутая классификация прямой и непрямой анафоры. Так, непрямая анафора разделяется на три типа: 1) Непрямая референция по ассоциации (Indirect reference by association) - разные варианты отношений типа «часть - целое»; 2) Роли (Indirect reference by characterization), включающие обязательные и не обязательные роли: убийство - убийца, смерть - убийство; 3) Риторические отношения (rhetorical relations): а) мотив (Reasons): Ваня упал. Он хотел испугать Машу; б) Причина (Causes): Ваня упал. Он споткнулся; в) Результат (Consequences): Ваня упал. Он сломал руку; г) Согласование (Concurrences): Ваня упал. Потом он будет таким же неловким.

Классификация Кларка считается классической, но в корпусных проектах используется довольно редко. Обычно бриджинг определяется просто как некоторые анафорические отношения между двумя некоре-ферентными элементами. Для того чтобы сузить рассматриваемую область, часто выбирается небольшой набор семантических отношений, в которых могут находиться участнники бриджинг-пары; см. пример (1б). Наиболее часто рассматриваются такие отношения, как «часть - целое», «элемент множества - множество». Думаем, одной из причин популярности именно этих типов отношений являются попытки использовать

для работы систем автоматического разрешения анафоры такие ресурсы, как WordNet, где наиболее полно размечены как раз указанные выше семантические отношения.

Особого внимания заслуживает набор отношений Копенгагенского корпуса [Müller et al., 2011]. В этом корпусе наиболее разветвленная система разметки ассоциативной анафоры. Все отношения делятся на 3 группы:

1) OTHER - отношения места и времени:

(9) A kitchen -> assoc.loc-> the refrigerator1.

2) QUALIA - бриджинг-элемент называет сущность, ассоциированную с квалия - структурой якоря:

(10) A new film -> assoc.agentive.agent-> the producer

3) SEMROLE - бриджинг-элемент и якорь выражают разные роли при одном предикате:

(11) Jim cut the bread and left the knife in the sink.

The knife -> assoc.instrument -> the knife.

Обратим внимание, что ограничение на семантику отношений есть не во всех корпусах; так, в [Market et al., 2013] нет ограничения на семантику связи между участниками бриджинг-отношений.

3.4. Границы и частеречная характеристика элементов, связанных отношением бриджинга

В большинстве случаев в качестве участников отношений рассматриваются не отдельные слова, а синтаксически связанные группы слов. Таким образом, корпусы можно противопоставить по тому, к какой части речи относятся вершины групп, связанных отношением бриджинга.

Бриджинг-отношения размечаются между парой объектов: брид-жинг-элементом и якорем. Нас интересует частеречная принадлежность каждого из участников отношений.

Во всех рассматриваемых корпусах бриджинг-элементом может быть только именная группа. Причем бывает, что устанавливается и более строгое ограничение. Так, например, в корпусе CESS-ECE бриджинг-элементом может быть только определенная именная группа; в подкор-пусе SI-TAL - только существительное с артиклем.

В качестве якорей в основном также размечаются именные группы. Однако в корпусе CESS-ECE в качестве якоря может выступать глагольная группа, так как в этом корпусе возможны бриджинг-отношения

1 Примеры 9-11 взяты из [Muller et al., 2011].

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

между глаголом и его аргументами. В Пражском корпусе якорем могут быть некоторые прилагательные, например, прилагательные, образованные от существительных со значением места.

Отметим, что бриджинг-элемент не случайно бывает ограничен определенной именной группой с артиклем и / или указательным местоимением. Именно связь с предшествующим текстом часто делает необходимым употребления определенного артикля, посессивного или указательного местоимения. Таким образом, заметная часть бриджинг-элементов представлена определенными именными группами.

4. Обсуждение

В этом разделе мы подведем краткий итог тому, какие существуют ресурсы для исследования ассоциативных анафорических связей, ведь особенности корпусов определяют возможности исследований, проводимых с привлечением корпусных данных.

Начнем с технических характеристик. От объема корпуса очевидным образом зависит разнообразие лексических примеров тех или иных анафорических отношений. Также на больших корпусах лучше проходит обучение систем автоматического разрешения анафоры, хотя наиболее успешная на настоящий момент система автоматического распознавания анафоры [Hou, 2013] создавалась на базе небольшого корпуса.

Если говорить о жанровом и стилистическом разнообразии размечаемых текстов, то можно заметить, что создатели корпусов бриджинг-анафоры не стремятся к языковой репрезентативности. Основа большинства корпусов -газетные тексты. Думаем, причина этого в том, что язык газет хорошо отражает лексический состав, а также характерные лексические связи современного языка.

На данный момент большинство бриджинг-корпусов строится для языков романо-германской группы. Надеемся, в ближайшее время появятся бриджинг-корпуса для других языков, а значит, станет возможным проводить сравнительные исследования, посвященные разнообразию видов бриджинга и их частотности в различных языках. Также для проведения сопоставительных исследований по бриджинг-анафоре необходимо появление общего стандарта разметки бриджинга.

К сожалению, несмотря на большой интерес к данной области, исследование бриджинг-анафоры пока находится в начале пути. Так, в корпусах размечаются наиболее удобные для определения типы брид-жинг-отношений. Хотя разнообразие выделяемых типов отношений

постепенно растет, практически нигде нет, например, таких видов брид-жинг-отношений, как связи между потенциальными семантическими актантами одного глагола, хотя очевидно, что отношения такого типа крайне распространены.

Исследование дискурсивных связей в тексте безусловно является одной из наиболее актуальных задач, а корпуса с размеченной бриджинг-анафорой - необходимый материал для исследований в данной области. Таким образом, число подобных корпусов будет расти, а в разметку будут добавляться более сложные типы анафорических отношений. Также, надеемся, будет выработан единый стандарт разметки бриджинг-ана-форы, благодаря которому будет удобно сопоставлять данные разных корпусов, а значит, и проводить межъязыковые исследования сложных анафорических связей.

Список литературы

Asher N., Lascarides A.: Bridging // Journal of Semantics. 1998. 15 (1). Bos J., Buitelaar P., Mineur A-M. Bridging as coercive accommodation // Proceedings to the Workshop on Computational Logic for Natural Language Processing (CLNLP). Edinburgh, 1995. Buch-Kromann M., Gylling M., Knudsen L.J., Korzen I. & Müller H.H. The inventory of linguistic relations used in the Copenhagen Dependency Tree-banks. 2011.

Burkhardt P. Inferential bridging relations reveal distinct neural mechanisms: Evidence from event-related brain potentials // Brain and Language. 2006. № 98 (2).

Caselli T., Prodanof I. Annotating bridging anaphors in Italian: In search of reliabil- ity // Proceedings of the 5th International Conference on Language Resources and Evaluation. Genova, 2006. Clark H. Bridging // Proceedings of the 1975 workshop on Theoretical issues in natural language processing. Association for Computational Linguistics. 1975.

Feride E., Gundel J. The pragmatics of indirect anaphors // Verschueren J.,

Bertuccelli-Papi M., eds. The pragmatic perspective. Amsterdam, 1987. Fraurud K. Definiteness and the processing of NPs in natural discourse //

Journal of Semantics. 1990. № 7. Gardent C., Manuelian H., Kow E. Which bridges for bridging descriptions // Proceedings of the EACL Workshop on Linguistically Interpreted Corpora. 2003.

Garrod S., SanfordA.J. The mental representation of discourse in a focused memory system: implications for the interpretation of anaphoric noun phrases // Journal of Semantics. 1982. № 1 (1).

Garrod S., Terras M. The contribution of lexical and situational knowledge to resolving discourse roles: Bonding and resolution // Journal of Memory and Language. 2000. № 42.

Langer H., Lvngen H., Bayerl P. Towards automatic annotation of text type structure: Experiments using an XML-annotated corpus and automatic text classification methods // Proceedings of the workshop on XML-based richly annotated corpora (XBRAC) at the LREC 2004. Lissabon, 2004.

Haviland S.E., Clark H. What's new? acquiring new information as a process in comprehension // Journal of Verbal. 1974. № 13 (5).

Hawkins J. Definiteness and Indefiniteness: A Study in Reference and Grammatically Prediction. London, 1978.

Hendrickx I., Hoste V., Daelemans W. Semantic and Syntactic features for Anaphora Resolution for Dutch // Proceedings of 192 the 9th International Conference on Intelligent Text Processing and Computational Linguistics. Haifa, 2008 (Lecture Notes in Computer Science. № 4919).

Hou Y., MarketK., StrubeM. Cascading Collective Classification for Bridging Anaphora Recognition using a Rich Linguistic Feature Set // EMNLP 2013. 2013.

Korzen I., Buch-Kromann M. Anaphoric relations in the Copenhagen dependency treebanks // Dipper S., Zinsmeister H., eds. Corpus-based Investigations of Pragmatic and Discourse Phenomena. Bochum, 2011 (Bochumer Linguistische Arbeitsberichte. Vol. 3).

Lungen H. RRSet-Taxonomy of rhetorical relations in SemDok // Interne Reports der DFG-Forschergruppe. 2008.

Matsui T. Bridging and Relevance. Amsterdam, 2000.

Nedoluzhko A., Mirovsky J., OcelakR., Pergler J. Extended Coreferential Relations and Bridging Anaphora in the Prague Dependency Treebank. 2009.

O'Reilly T., McNamara D.S. Reversing the reverse cohesion effect: Good texts can be better for strategic, high-knowledge readers // Discourse Processes. 2007. Vol. 43 (2).

Piwek P., Krahmer E., Presuppositions in context: Constructing bridges // Bonzon P., Cavalcanti M., Nossum R., eds. Formal Aspects of Context. Dordrecht, 2000.

Poesio M. Annotating a corpus to develop and evaluate discourse entity realization algorithms: issues and preliminary results // Proceedings of the Sec-

ond International Conference on Language Resources and Evaluation (LREC 2000). 2000.

Poesio M., Artstein R. Anaphoric annotation in the ARRAU corpus // Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC 2008). 2008

Poesio M. The MATE / GNOME proposals for anaphoric annotation, revisited //

Strube M., Sidner C., eds. Proceedings of the 5th SIGdial Workshop on Discourse and Dialogue. Cambridge, 2004.

Poesio M., Bruneseaux F., Romary L. The MATE meta-scheme for corefer-ence in dialogues in multiple languages // Walker M., ed. Proceedings of the ACL Workshop on Standards and Tools for Discourse Tagging. 1999.

Poesio M., Delmonte R., Bristot A. et al. The Venex corpus of anaphora and deixis in spoken and written Italian. [Manuscript,] 2004.

Poesio M., Viera R. A corpus-based investigation of definite descriptions use // Computational Linguistics. 1998. № 24 (2).

Prince E. Towards a taxonomy of given-new information // Cole P., ed. Radical Pragmatics. New York, 1981.

Recasens M., Marti A., Taule M. Text as Scene: Discourse Deixis and Bridging Relations // Procesamiento del Lenguaje Natural. Sevilla, 2007.

Rodriguez K.J., Delogu F., Versley Y., Stemle E. W., Poesio M. Anaphoric Annotation of Wikipedia and Blogs in the Live Memories Corpus // Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC 2010). 2010.

Schwarz-Friesel M. Indirect anaphora in text: A cognitive account // Schwarz-Friesel M., Consten M., Hillevi Knees M., eds. Anaphors in Text. Philadelphia, 2007 (Studies in Language Companion Series. 86).

Sidner C. Focusing for interpretation of pronouns // American Journal of Computational Linguistics. 1981. № 7.

Tetreault J., Swift M., Prithviraj P., Dzikovska M., Allen J. Discourse annotation in the Monroe Corpus // Workshop on Discourse Annotation, at The 42nd Annual Meeting of the Association for Computational Linguistics (ACL 04). Barcelona, 2004.

Wilson D., Matsui T. Recent approaches to bridging: Truth, coherence, relevance // UCL Working Papers in Linguistics. 1998. № 10.

Приложение 1.

Сводная таблица отличительных особенностей различных корпусных ресурсов

Название корпуса Язык текстов Объем Тип текстов Многоуровневая разметка Бриджинг-элемент Якорь Возможные отношения

CESS-ECE corpus испанский 500000 словоупотреблений газетные тексты есть определенная или указательная именная группа именная группа, глагольная группа элемент множества - множество, часть - целое, тематические отношения между именной и глагольными группами

Copenhagen Dependency Tree-banks (CDT) датский 100000 словоупотреблений разножанровые тексты есть CTree Ban к) именная группа именная группа OTHER, QUALIA, SEMROL Сем. п. 4.4.4)

Dutch corpus (COREA project) голандский 200000 словоупотреблений нет данных нет именная группа именная группа элемент множества - множество, множество - подмножество

GNOME английский 6000 NP в каждом из подкорпусов, аннотированного 60000 словоупотреблений 3 под корпуса: музейный, фармакологический и диалоги нет Именная группа. 1.Терм, 2. квантификатор, 3. именной предикат именная группа элемент множества - множество, подмножество - множество, обобщенное обладание

Market, Hou английский 50 текстов Новости нет именная группа нет конкретных ограничений тип отношений не определяется

MONROE английский 20 диалогов, но анализируются лишь 5 диалогов: 176 высказываний или 500 словоупотреблений устные диалоги нет Местоимения именная группа тип отношений не определяется

Prague Dependency Treebank (PDT) чешский 50 000 предложений газетные тексты есть CTree Ban к) именная конструкция именная конструкция элемент множества -множество, контраст, должность - организация, часть - целое и др.

The SemDokb немецкий 47 статей научные журнальные статьи нет? именная группа именная группа элемент множества -множество, часть-целое, обладание

о

00 00

Название корпуса Язык текстов Объем Тип текстов Многоуровневая разметка Бриджинг-элемент Якорь Возможные отношения

CE5S-ECE corpus испанский 500000 словоупотреблений газетные тексты есть определенная или указательная именная группа именная группа, глагольная группа элемент множества - множество, часть - целое, тематические отношения между именной и глагольными группами

Copenhagen Dependency Tree-banks (CDT) датский 100000 словоупотреблений разножанровые тексты есть (ТгееВапк) именная группа именная группа OTHER, QUALIA, SEMROL(cm. п. 4.4.4)

Dutch corpus (COREA project) голандский 200000 словоупотреблений нет данных нет именная группа именная группа элемент множества - множество, множество - подмножество

GNOME английский 6000 NP в каждом из подкорпусов, аннотированного 60000 словоупотреблений 3 под корпуса: музейный, фармакологический и диалоги нет Именная группа. Ч.Терм, 2. квантификатор, 3. именной предикат именная группа элемент множества - множество, подмножество - множество, обобщенное обладание

Market, Hou английский 50 текстов Новости нет именная группа нет конкретных ограничений тип отношений не определяется

MONROE английский 20 диалогов, но анализируются лишь 5 диалогов: 176 высказываний или 500 словоупотреблений устные диалоги нет Местоимения именная группа тип отношений не определяется

Prague Dependency Treebank (PD"0 чешский 50 000 предложений газетные тексты есть (ТгееВапк) именная конструкция именная конструкция элемент множества -множество, контраст, должность - организация, часть - целое и др.

The SemDokb немецкий 47 статей научные журнальные статьи нет? именная группа именная группа элемент множества -множество, часть-целое, обладание

Сведения об авторе: Ройтберг Анна Михайловна, младший научный сотрудник Института математических проблем биологии РАН - филиала Федерального государственного учреждения «Федеральный исследовательский центр Институт прикладной математики им. М.В. Келдыша Российской академии наук»; аспирант факультета гуманитарных наук Национального исследовательского университета «Высшая школа экономики». E-mail: [email protected].

i Надоели баннеры? Вы всегда можете отключить рекламу.